Data Science – מה זה אומר?

אחד המאפיינים הכי בולטים בעשור האחרון הוא כמות המידע המצטבר. מידע אישי על גולשים ברשתות חברתיות (שחלקו נמסר שלא ביעידת הגולשים באפליקציה תמימה ברשת לחברה שסייעה למועמד בכיר להתמודד לנשיאות בבית הלבן). מידע חשוב על לקוחות הארגון שאוספות החברות הגדולות על מנת לקבל החלטות חשובות. שורות רבות של קוד שנכתבות על ידי מחלקות פיתוח בכל העולם ויוצרות את המציאות הדיגיטלית שלנו ברשת ועל גבי הטלפון החכם.

ניתוח נכון של כל המידע הזה מאפשר לנו לבנות כלים חכמים שיכולים לא רק להסביר את המציאות הנוכחית אלא גם להשתמש בכלים סטטיסטיים על מנת לנבא את המציאות בעתיד. במאמר זה ננסה להבין את תחום ה-Data Scienceבפשטות על בסיס דוגמה מציאותית ודרכה נעמוד על חשיבותוהרבה של התחום ומדוע מתמטיקאים ומתכנתים רבים מוסיפים התמחות זו ל"סל הכלים" שלהם.

ההתחלה – תכנון השימוש במידע הרב ברשותנו

מומחי Data Science מקבלים משימות שונות בארגון המתבססות על שליפת מידע מנתונים קיימים – הן מתוך מסדי הנתונים בארגון והן מחוץ להם. לדוגמה –אם נרצה לתכנן עיר חכמה שבה התשתיות יתאימו בצורה אופטימלית לתושבי כל שכונה מומחים אלה יתחילו לאסוף את המידע הרלוונטי על שכונות בהן התשתיות מספקות ועל ערים בהם יש בעיות בתשתית. מידע זה יכול להיות נתונים על צריכת תשתיות מים, רוחב הכבישים הנדרש, כמות מקומות החנייה לכל כמות של תושבים, תשתיות האינטרנט (רוחב הפס) ואף מספר קווי האוטובוס היוצאים מאותה השכונה למרכז העיר.

איסוף כמות גדולה כזו של נתונים בזמן אמת עשויה להיות אתגר משמעותי. לכן, על מנת לבצע זאת ביעילות יש לתכנן מערכת האוספת ממקורות שונים את הנתונים ומכניסה אותם לתוך מסד נתונים בפורמט אחיד על מנת שניתן יהיה לעבדם בצורה מיטבית. הכנת מסדי נתונים אלה משיקה בתחום נוסף שהיה פופולרי אף הוא בעשור האחרון – תחום הביג דאטה.

מעברים את הנתונים – השלב בו המתמטיקה נכנסת לתמונה

בניגוד לתחום הביג דאטה, בו מתבצע איסוף הנתונים החכם ומופקים דוחות בסיסיים מהמידע, מומחי Data Scienceרותמים ידע מתמטי ובמיוחד מודלים סטטיסטיים על מנת ליצור מודל נכון שינתח את המידע. לדוגמה, מאיזו כמות של רכבים ביחס לכמות האוכלוסייה על ק"מ מרובע ניתן להגדיר את תשתית הכבישים כעמוסה? מתי תשתית הביוב אינה מספיקה לכמות התושבים ברחוב מסוים?

כל הנתונים הללו, המתורגמים למודלים מתמטיים עוברים טיוב (ניקוי של המידע מכפילויות ומטעויות). הנתונים מתחילים להיאסף בהדרגה להציג את המציאות הנוכחית בערים השונות. בצורה זו ניתן, למשל, לזהות שכונה בפ"ת שבה התשתיות עמוסות יתר על המידע ולהמליץ לשפרם. כמו כן, ניתן להשתמש במידע הזה גם על מנת לנבא את העתיד.

מנבאים את העתיד עם הנתונים המתקבלים

נניח כי באותה השכונה בה קיימת בעיות תשתית הוגשו אישורי בנייהלהקמה של בלוק בן עשרה מגדלים ובו דירות שלושה וארבעה חדרים למשפחות. הנתונים שהתקבלו מעידים על כך שקיימת כיום תשתית תחבורה בעייתית. האפשרות להבין זאת, באמצעות דו"חות שמפיקות המערכות האוטומטיות שנבנו על מנת לנתח את יעילות התשתיות בעיר מאפשרת גם להתחיל תכנון בניית כבישים נוספים או הרחבה של כבישים קיימים.

כך, כאשר איננו מחכים לרגע בו יבנו הבתים על מנת לדעת אילו בעיות תשתיות ייווצרו בעיר לאחר האכלוס אנו מונעים מראש את הבעיה.

האם המערכות האלה קיימות כיום?

היות ותחום ה-Data Science עדיין נמצא בחיתוליו בארץ במרבית הערים מערכות אלה אינן מוטמעות. עם זאת, פרויקטים של ערים חכמות הנבנים במסגרת הוספת טכנולוגיות מתקדמות לתשתיות עצמן כבר החלו. לדוגמה קיימת ספירה של כמות הפסולת העוברת בביוב בכל שעה באמצעות חיישנים מיוחדים ודיווח למערכת אוטומטית.בערים רבות בעולם מערכות כאלה כבר נמצאות בתהליך הטמעה ויישום.

לסיכום, Data Science המשלב בתוכו הכרות מעמיקה עם מודלים מתמטיים וכן יכולות תכנות, BI, הכרות עם מסדי נתונים מורכבים ועבודה עם אתגרי ביג דאטה יהיה אחד המקצועות הנחשקים הבאים. הדרישה למומחים המסוגלים לנתח את הבעיות השונות בצורה מתמטית וליצור מערכת האוספת את הנתונים ממקורות רבים תהווה אבן דרך בסיסית לדרך בה יבנו מערכות נתונים עליהם מנהלי העתיד יקבלו החלטות מושכלות. אם ננסה גם אנחנו לנבא את העתיד לרגע קט – כדאי כבר עכשיו להתחיל וללמוד את התחום.