בסוף כל סרט ביוטיוב עולה רשימה של סרטים קשורים היכולה לעניין את הצופה להמשך הצפיה. גם בזמן הצפיה בסרט קיימת רשימת סרטים קשורים מצד ימין. איך מחשבים את הרשימה הזו?
זו בעייה מעניינת... יש מליוני סרטים ומיליוני צופים, אז איך ניתן להתאים לצופה את הסרטים שיעניינו אותו ביותר?
מי שיש לו ניסיון באיחזור מידע קלאסי או איחזור מידע באינטרנט, דבר שגוגל מתמחה בו, יבין שאם היה מדובר בעמודי אינטרנט ולא בסרטי וידאו ניתן היה להשתמש בטכניקות עשירות המסתמכות על ניתוח טקסטואלי, קישורים בין עמודים וכו'. ואולם, על סרטי וידאו, בניגוד לעמודי אינטרנט, אנחנו יודעים הרבה פחות. לוידאו אין טקסט שאפשר לנתח, לוידאו אין לינקים, יש מעט מאוד אינפורמציה טקסטואלית שניתן להשתמש בה (כותרת, תגים, תאור קצר), ולא ניתן להחיל את אלגוריתמי איחזור המידע המשוכללים הקיימים לעולם הטקסט, אבל העם רוצה וידאו, אז צריך למצוא לזה פתרון.
במאמר המפורסם כאן, תחת הכותרת של מאמרים שנכתבו ע"י גוגלרים, מציעים תשובה לבעיה זו, ולהלן תקצירה.
הרעיון בגדול הוא לתת המלצות של סרטים קשורים ע"פ אינפורמציה שיש על "צופים דומים", כלומר משהו בסגנון של "אנשים שאהבו וידאו זה אהבו גם את הרשימה הבאה".
זה אולי קצת מזכיר את מערכת ההמלצות המפורסמת של אמזון, אבל יש הבדלים רבים בין השיטות.
קודם כל, איך ניתן לדעת שמי שצפה בוידאו באמת אהב אותו?
בנוסף, הקהל שצופה ביוטיוב הוא אינו בהכרח "נאמן" במובן שיש הרבה צופים מקריים שמגיעים פעם או פעמיים, לפעמים ממחשבים שונים בבית ובעבודה ולכן קשה יותר לעקוב אחריהם. (באמזון אם מישהו רוכש משהו הוא חייב לעשות לוג-אין).
ויש עוד מספר הבדלים, כגון המספר הגדול של הצופים ושל הסרטים, טרנדים יומיים, סרטים שהם מאוד פופולריים באופן גלובלי וצפייה בהם לא בהכרח מעידה על טעם אישי ועוד.
ע"מ לפתור את הבעייה של האם הצופה אהב את הסרט משתמשים בהנחה של אם הצופה צפה בסרט לפחות עד 30% מהזמן, ככל הנראה הוא אהב אותו.
ֿהשיטה המתוארת במאמר נקראת באופן כללי "אלגוריתם ספיגה". אלגוריתם זה משתמש בגרף המורכב מסרטי וידאו שלכל אחד מהם תגיות המעידות על טעמם של הצופים בסרטים. האלגוריתם באופן איטרטיבי "מחלחל" את את התגיות של סרט כלשהו לסרטים השכנים. ואיך מגדירים מה הם "סרטים שכנים", כלומר סרטים שיש בינייהם קשת? הגדרה זו משתמשת במונח צפיה-משותפת (co-view), כלומר סרטים שצופה צפה בהם אחד אחרי השני (והפרטים המלאים במאמר).
בסה"כ מאמר מעניין, שככל הנראה הוא רק תחילתו של מחקר בתחום חדש זה.
זו בעייה מעניינת... יש מליוני סרטים ומיליוני צופים, אז איך ניתן להתאים לצופה את הסרטים שיעניינו אותו ביותר?
מי שיש לו ניסיון באיחזור מידע קלאסי או איחזור מידע באינטרנט, דבר שגוגל מתמחה בו, יבין שאם היה מדובר בעמודי אינטרנט ולא בסרטי וידאו ניתן היה להשתמש בטכניקות עשירות המסתמכות על ניתוח טקסטואלי, קישורים בין עמודים וכו'. ואולם, על סרטי וידאו, בניגוד לעמודי אינטרנט, אנחנו יודעים הרבה פחות. לוידאו אין טקסט שאפשר לנתח, לוידאו אין לינקים, יש מעט מאוד אינפורמציה טקסטואלית שניתן להשתמש בה (כותרת, תגים, תאור קצר), ולא ניתן להחיל את אלגוריתמי איחזור המידע המשוכללים הקיימים לעולם הטקסט, אבל העם רוצה וידאו, אז צריך למצוא לזה פתרון.
במאמר המפורסם כאן, תחת הכותרת של מאמרים שנכתבו ע"י גוגלרים, מציעים תשובה לבעיה זו, ולהלן תקצירה.
הרעיון בגדול הוא לתת המלצות של סרטים קשורים ע"פ אינפורמציה שיש על "צופים דומים", כלומר משהו בסגנון של "אנשים שאהבו וידאו זה אהבו גם את הרשימה הבאה".
זה אולי קצת מזכיר את מערכת ההמלצות המפורסמת של אמזון, אבל יש הבדלים רבים בין השיטות.
קודם כל, איך ניתן לדעת שמי שצפה בוידאו באמת אהב אותו?
בנוסף, הקהל שצופה ביוטיוב הוא אינו בהכרח "נאמן" במובן שיש הרבה צופים מקריים שמגיעים פעם או פעמיים, לפעמים ממחשבים שונים בבית ובעבודה ולכן קשה יותר לעקוב אחריהם. (באמזון אם מישהו רוכש משהו הוא חייב לעשות לוג-אין).
ויש עוד מספר הבדלים, כגון המספר הגדול של הצופים ושל הסרטים, טרנדים יומיים, סרטים שהם מאוד פופולריים באופן גלובלי וצפייה בהם לא בהכרח מעידה על טעם אישי ועוד.
ע"מ לפתור את הבעייה של האם הצופה אהב את הסרט משתמשים בהנחה של אם הצופה צפה בסרט לפחות עד 30% מהזמן, ככל הנראה הוא אהב אותו.
ֿהשיטה המתוארת במאמר נקראת באופן כללי "אלגוריתם ספיגה". אלגוריתם זה משתמש בגרף המורכב מסרטי וידאו שלכל אחד מהם תגיות המעידות על טעמם של הצופים בסרטים. האלגוריתם באופן איטרטיבי "מחלחל" את את התגיות של סרט כלשהו לסרטים השכנים. ואיך מגדירים מה הם "סרטים שכנים", כלומר סרטים שיש בינייהם קשת? הגדרה זו משתמשת במונח צפיה-משותפת (co-view), כלומר סרטים שצופה צפה בהם אחד אחרי השני (והפרטים המלאים במאמר).
בסה"כ מאמר מעניין, שככל הנראה הוא רק תחילתו של מחקר בתחום חדש זה.
אין תגובות:
הוסף רשומת תגובה