אורקל מכריזה על פלטפורמת Oracle Cloud Data Science

יום ד', 4 במרץ 2020

 

חברת אורקל מכריזה על זמינותה של פלטפורמת מדעי נתונים ((Data Science, בענן אורקל. בליבת הפלטפורמה נמצאת תשתית הענן של אורקל עבור מדעי הנתונים

(Oracle Cloud Infrastructure Data Science)  מסייעת לארגונים לבנות, להדריך, לנהל ולפרוס בצורה שיתופית מודלים של לימוד מכונה (ML), במטרה להגדיל את שיעור ההצלחה של פרויקטי הנתונים.

בניגוד למוצרים אחרים של מדעי הנתונים, שמתמקדים במדעני נתונים יחידנים, הפלטפורמה החדשה מסייעת לשפר את היעילות של צוותי מדעני נתונים, באמצעות יכולות כמו פרויקטים משותפים, קטלוגים של מודלים, מדיניות אבטחה קבוצתית, יכולת גילוי ויכולת מעקב. השירות החדש גם בוחר אוטומטית במערכי הנתונים האופטימליים להדרכה ד רך בחירה וכוונון של אלגוריתם AutoML, הערכת מודלים והסבר מודלים.

צוין כי, כיום, ארגונים מממשים רק שבריר מפוטנציאל הטרנספורמציה האדיר שגלום בדאטה, כיוון שלצוותי דאטה סיינס אין גישה לדאטה ולכלים הנכונים שמתאימים לבנייה ולפריסת מודלים יעילים של לימוד מכונה. כתוצאה ישירה מכך, תהליך הפיתוח של המודלים נמשך זמן רב מדי והם אינם עומדים תמיד בדרישות הארגונים בכל הנוגע לדיוק ורובוסטיות, ולעתים קרובות מדי אינם מגיעים לשלב הפרודקשן.

"מודלים יעילים של לימוד מכונה הם אבן היסוד של פרויקטים מוצלחים בתחום הדאטה סיינס, אולם ההיקף והמגוון של הנתונים שארגונים מתמודדים איתם  עלולים לעצור את היוזמות האלה עוד לפני שהן צוברות תאוצה", אומר גרג פווליק, סמנכ"ל בכיר פיתוח המוצר, חטיבת שירותי הנתונים והבינה המלאכותית באורקל. "הפלטפורמה החדשה מאפשרת לנו לשפר את הפרודוקטיביות של מדעני הנתונים היחידנים על ידי הפיכת העבודה שלהם לאוטומטית והוספת תמיכה קבוצתית חזקה לצורך שיתוף פעולה. זאת, במטרה להבטיח שפרויקטים של דאטה סיינס יספקו ערך ממשי לעסק".

פתרון המיועד לצוותים ולמדענים בתחום מדעי הנתונים

תשתית הענן של אורקל עבור דאטה סיינס מאפשרת תהליך עבודה אוטומטי של וכך חוסכת זמן ומפחיתה את שיעור השגיאות באמצעות היכולות הבאות:

  • AutoML לבחירה וכוונון אוטומטי של אלגוריתמים: הופך את תהליך הרצת הבדיקות אל מול מספר רב של אלגוריתמים ותצורות של היפר-פרמטרים לאוטומטי לחלוטין. הוא בודק את מידת הדיוק של התוצאות ומוודא כי המודל והתצורה האופטימליים אכן נבחרו לשימוש. דבר זה חוסך זמן רב עבור מדעני הנתונים ומעבר לכך מיועד לאפשר לכל מדען נתונים להשיג תוצאות זהות לאלה המושגות על ידי אנשי המקצוע המנוסים ביותר.
  • בחירה אוטומטית של יכולות חיזוי: מפשטת את הנדסת התכונות על ידי כך שהיא מזהה אוטומטית תכונות חיזוי מרכזיות בתוך מערכי נתונים גדולים.
  • הערכת מודלים מייצרת חבילה מקיפה של מדדי הערכה ותצוגות ויזואליות מתאימות, במטרה לאמוד את ביצועי המודל אל מול נתונים חדשים, ובנוסף מאפשרת לדרג את המודלים לאורך זמן כדי לאפשר התנהלות אופטימלית בשלב הייצור. הערכת המודלים מכסה הרבה יותר מאשר ביצועים גולמיים, לוקחת בחשבון גם את ההתנהגות הצפויה של החשבון ומשתמשת במודל עלות, כדי שניתן יהיה להכליל בצורה מלאה את ההשפעות השונות של תוצאות חיוביות מוטעות ותוצאות שליליות מוטעות.
  • הסבר מודלים: Oracle Cloud Infrastructure Data Science  מספק הסבר אוטומטי של השקלול והחשיבות היחסיים של הגורמים אשר מעורבים בהפקת התחזית. Oracle Cloud Infrastructure Data Science  מספק את ההטמעה המסחרית הראשונה של הסבר שאינו תלוי מודל. במקרה של מודל זיהוי הונאה, לדוגמה, מדען הנתונים יכול להסביר אילו גורמים מהווים את המקדמים המשמעותיים ביותר של ההונאות, כך שהעסק יכול בתורו לשנות תהליכים או להטמיע אמצעי הגנה.

קידום מוצלח של מודלים יעילים של לימוד מכונה לשלב הפרודקשן מחייב עבודה משותפת של צוותים של מדעני נתונים. Oracle Cloud Infrastructure Data Science  מספק יכולות קבוצתיות חזקות, כולל:

  • פרויקטים משותפים מסייעים למשתמשים בארגון, מאפשרים בקרת גרסאות ושיתוף מהימן של עבודת הצוות לרבות נתונים וסבבימחברות.
  • קטלוגים של מודלים מאפשרים לחברי הצוות לשתף בצורה מהימנה מודלים קיימים וכן את הכלים הדרושים כדי לשנות ולפרוס אותם.
  • מדיניות אבטחה מבוססת צוות מאפשרת למשתמשים לשלוט בגישה למודלים, לקוד ולנתונים, אשר משולבים בצורה מלאה ב-Oracle Cloud Infrastructure Identityו-Access Management.
  • פונקציונליות של יכולת גילוי ויכולת מעקב מאפשרת לארגון לעקוב אחר כל הנכסים הרלוונטיים, כדי שניתן יהיה לשחזר את כל המודלים ולבצע בהם ביקורות, גם לאחר עזיבתם של חברי צוות.

 

שירותים מקיפים בתחום הנתונים ולימוד המכונה

פלטפורמת Oracle Cloud Data Scienceכוללת שבעה שירותים חדשים, אשר מספקים חוויה מקיפה מקצה לקצה, שמיועדת להאיץ ולשפר את תוצאות הדאטה סיינס:

  • Oracle Cloud Infrastructure Data Science: מאפשר למשתמשים לבנות, לאמן ולנהל מודלים חדשים של לימוד מכונה ב-Oracle Cloud, תוך שימוש ב-Pythonובכלים וספריות נוספים של קוד מקור פתוח, לרבות TensorFlow, Kerasו-Jupyter.
  •  יכולות חדשות ועוצמתיות של לימוד מכונה ב-Oracle Autonomous Database: ב-Oracle Autonomous Database משולבים אלגוריתמים של לימוד מכונה, כולל תמיכה חדשה ב-Pythonובלימוד מכונה אוטומטי. השילוב הצפוי עם Oracle Cloud Infrastructure Data Scienceיאפשר למדעני הנתונים לפתח מודלים תוך שימוש בקוד מקור פתוח וגם באלגוריתמים מדרגיים מתוך מסד הנתונים. באופן ספציפי, הבאת האלגוריתמים לנתונים ב-Oracle Databaseמאפשרת לקצר את הזמן עד להשגת תוצאות, על ידי צמצום תהליכי ההכנה וההעברה של הנתונים.
  •  Oracle Cloud Infrastructure Data Catalog: מאפשר למשתמשים לגלות, לחפש, לארגן, להעשיר ולעקוב אחר נכסי נתונים ב-Oracle Cloud. Oracle Cloud Infrastructure Data Catalogכולל מילון מונחים עסקי מובנה, אשר מאפשר לאצור ולגלות את הנתונים המהימנים הנכונים.
  • Oracle Big Data Service: מספק הטמעה מלאה של Cloudera Hadoop, שמתאפיין בניהול פשוט בהרבה מזה שמאפיין מוצרי Hadoopאחרים, לרבות השגת זמינות גבוהה של אשכולות והטמעת אבטחה בלחיצה אחת בלבד. בנוסף, Oracle Big Data Serviceכולל גם לימוד מכונה לאפשור Spark.
  • Oracle Cloud SQL: מאפשר שאילתות SQLלגבי נתונים ב-HDFS, Hive, Kafka, NoSQLו-Object Storage. CloudSQLמאפשר לכל משתמש, יישום או כלי ניתוח שיכול לתקשר עם מסדי הנתונים של אורקל לעבוד בצורה שקופה עם נתונים שנמצאים במאגרי נתונים אחרים, כולל היתרון של עיבוד בדחיפה ומדרגיות לצורך מזעור תנועת הנתונים.
  • Oracle Cloud Infrastructure Data Flow: שירות "ביג דאטה" המנוהל בצורה מלאה ומאפשר למשתמשים להריץ את יישומי Apache Spark, ללא צורך בפריסה או בניהול של תשתיות. מאפשר לארגונים לספק יישומי ביג דאטה ובינה מלאכותית במהירות רבה יותר. בניגוד לשירותים המתחרים של Hadoopו-Spark, Oracle Cloud Infrastructure Data Flowכולל חלון יחיד המשמש למעקב אחר כל משימות Sparkוכך מקל על זיהוי משימות יקרות ועל פתרון בעיות.
  • Oracle Cloud Infrastructure Virtual Machines for Data Science: סביבות מוגדרות מראש ומבוססות GPU, אשר כוללות סביבות IDE, מחברות ומסגרות שיכולות להתחיל לפעול בתוך פחות מ -15 דקות, בעלות של 30$ ליום.