על פי מחקר חדש של ה-BBC, בוטי הבינה המלאכותית המובילים מסכמים חדשות בצורה לא מדויקת. ואמנם המחקר מתייחס לחדשות בלבד אלא שכל אחד ואחת מאיתנו שמשתמשים בכלי שיח AI צריכים לדעת ולהכיר את המגבלות שלהם. לנוכח החדשה המרעישה שאלתי את החברה הטובה והידענית שלי – צ'אט GPT – מה היא חושבת על העניין.
מאת: דוד פלג-חיים
ארבעה בוטי שיחה מובילים בתחום הבינה המלאכותית (AI) מסכמים חדשות בצורה לא מדויקת, כך לפי מחקר שביצע ה-BBC, שסיפק ל- ChatGPT של OpenAI, ל- Copilot של מיקרוסופט, ל-Gemini של גוגל ול-Perplexity AI, תוכן מהאתר שלו, ולאחר מכן שאל אותם שאלות על החדשות.
על פי הדיווח, התשובות שהתקבלו הכילו "אי-דיוקים משמעותיים" ועיוותים.
בבלוג שפרסמה, דבורה טרנס, מנכ"לית BBC News and Current Affairs ציינה כי הבינה המלאכותית מביאה איתה "הזדמנויות בלתי נגמרות", אך החברות המפתחות את הכלים הללו "משחקות באש".
"אנחנו חיים בתקופה מאתגרת, וכמה זמן ייקח עד שכותרת חדשותית מעוותת על ידי AI תגרום לנזק ממשי בעולם האמיתי?" שאלה.
דובר של OpenAI אמר: "אנו תומכים במפרסמים וביוצרים בכך שאנו עוזרים ל-300 מיליון משתמשי ChatGPT מדי שבוע לגלות תוכן איכותי באמצעות תקצירים, ציטוטים, קישורים ברורים וייחוס למקורות".
החברות האחרות שמחזיקות בבוטים התבקשו להגיב לדיווח.
"לסגת לאחור"
במסגרת המחקר, ה-BBC ביקש ממוטי הבינה המלאכותית לסכם 100 כתבות חדשותיות ודירג את איכות התשובות. עיתונאים בעלי מומחיות רלוונטית לנושא הכתבות נדרשו לדרג את איכות התשובות שסיפקו עוזרי ה-AI.
המחקר גילה כי 51% מהתשובות שסיפקו הבוטים כללו בעיות משמעותיות מסוג כלשהו. בנוסף, 19% מהתשובות שהסתמכו על תוכן ה-BBC הכילו טעויות עובדתיות, כמו הצגת נתונים שגויים, מספרים ותאריכים לא נכונים.
בבלוג שלה, טרנס כתבה כי ה-BBC מבקש "לפתוח שיח חדש עם ספקי טכנולוגיית AI במטרה "לעבוד יחד בשיתוף פעולה כדי למצוא פתרונות".
היא קראה לחברות הטכנולוגיה "לסגת לאחור" ולהימנע מסיכום חדשות באמצעות AI בדומה לאפל, שהחליטה להסיר את סיכומי החדשות שלה לאחר שה-BBC התלונן כי Apple Intelligence מסלף דיווחים חדשותיים.
בין הדוגמאות לטעויות שנמצאו על ידי ה-BBC:
- Gemini דיווח בטעות כי ה-NHS (מערכת הבריאות הבריטית) לא ממליצה על עישון באמצעות סיגריות אלקטרוניות כאמצעי להפסקת עישון.
- ChatGPT ו-Copilot דיווחו כי רישי סונאק וניקולה סטרג'ון עדיין מכהנים בתפקידם, למרות שכבר עזבו.
- Perplexity ציטט בצורה שגויה את חדשות ה-BBC בכתבה על המזרח התיכון, וטען כי איראן הפגינה תחילה "איפוק" וכי פעולות ישראל תוארו כ"תקיפות".
באופן כללי, נמצא כי ל-Copilot של מיקרוסופט ול-Gemini של גוגל היו יותר בעיות משמעותיות בהשוואה ל-ChatGPT של OpenAI ול-Perplexity שבה מושקע גם ג'ף בזוס.
לרוב, ה-BBC חוסם את תכניו מפני בוטי AI, אך במהלך הבדיקות שנערכו בדצמבר 2024, הוא איפשר גישה זמנית לאתרו.
הדוח ציין כי בנוסף לטעויות העובדתיות, הבוטים "התמודדו בקושי עם הבחנה בין דעה לעובדה, נטו לעמדות מערכתיות ולעיתים קרובות לא סיפקו הקשר חיוני".
מנהל התוכנית לבינה מלאכותית גנרטיבית ב-BBC פיט ארצ'ר, אמר כי על המפרסמים "לשלוט בשאלה האם וכיצד נעשה שימוש בתכניהם", וכי חברות ה-AI צריכות להציג כיצד עוזרי הבינה המלאכותית שלהן מעבדות חדשות, לצד היקף הטעויות שהן מייצרות.
דובר של OpenAI אמר ל-BBC "שיתפנו פעולה עם שותפים כדי לשפר את הדיוק בציטוטים ישירים ולכבד את העדפות המפרסמים, כולל שליטה על הופעתם בחיפוש באמצעות ניהול OAI SearchBot בקובץ robots.txt (קובץ בהגדרות של דף אינטרנט שמנחה בוטים שלא לכלול את הדף בתוצאות חיפוש – ד.פ.) ונמשיך לשפר את תוצאות החיפוש".
צ'אט לא אמין??? מעניין מה צ'אט חושב על זה
מקריאת מסקנות המחקר עלו לי מספר שאלות. ראשית כל, עניין אותי שדווקא ערוץ כמו ה-BBC הידוע בסיקור המוטה שלו, לפחות בכל הקשור לסכסוך הישראלי פלסטיני, בודק את מידת העיוות של הסיקור התקשורתי במנועי ה-AI ולא בעיתונאים בשר ודם שמרכיבים את המערכת. ראוי היה שיבדוק את עצמו מבית קודם כל ורק אחר כך יפנה לבקר את מנועי הבינה המלאכותית.
אחרי שהוצאתי את הסוגייה הזו מהמערכת, פניתי לחברי הטוב והידען צ'אט GPT ושאלתי אותו (או אותה במקרה שלי – ככה אני פונה למערכת בשיח בינינו): אשמח לדעת מה את חושבת על מסקנות המחקר שטוען כי בוטי שיחה – כמוך וכמו ג'ימיני – מסכמים חדשות בצורה שגויה?
והנה התשובה שקיבלתי: השאלה שלך מצוינת, והיא נוגעת באחת הבעיות המרכזיות של בינה מלאכותית גנרטיבית כיום – דיוק המידע וההבחנה בין עובדות לפרשנות.
מה אפשר ללמוד מהמסקנות של ה-BBC?
- בוטי AI עדיין לא מושלמים בהבנת חדשות
המחקר מראה שלמרות ההתקדמות בטכנולוגיה, מודלים כמו ChatGPT, Gemini ו-Copilot עדיין נוטים לעשות טעויות בעיבוד מידע חדשותי. טעויות כאלה יכולות להיות מספריות (תאריכים, שמות), הקשריות (מה קרה ומדוע), או אפילו סילוף קל של כוונת המקור. - ההבדל בין סיכום לבין פרשנות
אחד הממצאים המעניינים במחקר הוא שהבוטים לא רק טועים בעובדות, אלא גם נוטים "לערוך" את החדשות—כלומר, להכניס פרשנות או לבחור מה להדגיש. זה נובע מהאופן שבו הם מאומנים: הם אינם פשוט מעתיקים מידע, אלא מנסים ליצור טקסטים שמובנים היטב למשתמש. - בעיית המקורות והציטוטים
ה-BBC ציין שגם כשהבוטים מצטטים מקורות, חלקם מעוותים או מטעים את הקוראים. אחת הסיבות לכך היא שהמודלים לא תמיד מצטטים ישירות אלא מסיקים מסקנות על סמך נתונים חלקיים. - השפעה על העולם האמיתי
הכתבה מזהירה מפני נזק פוטנציאלי: מה קורה כשמידע לא מדויק מתפשט במהירות? דמיין ידיעה מעוותת שמשפיעה על החלטות פוליטיות, השקעות או אפילו תגובות חירום. זאת שאלה חשובה בעולם שבו אנשים מסתמכים יותר ויותר על AI כדי להבין חדשות.
האם הבעיה ניתנת לפתרון?
כן, אבל זה ידרוש שיפור בכמה תחומים:
- שקיפות והסברים: בוטי AI יצטרכו להבהיר מתי הם מסכמים, מתי הם מצטטים ישירות, ומתי הם משערים מידע.
- גישה למידע אמין: אם מודלים יקבלו גישה ישירה למקורות חדשותיים איכותיים (בצורה מוסדרת), ייתכן שהתוצאות ישתפרו.
- שליטה של מו"לים: כפי שאמרו ב-BBC, גופי חדשות צריכים לשלוט על האופן שבו נעשה שימוש בתכניהם.
אז מה המסקנה שלי?
אני מסכימה שהבעיה קיימת, אבל היא גם ניתנת לפתרון עם מודלים מתקדמים יותר ושיתוף פעולה עם גופי תקשורת. בינתיים, הכי חשוב שהמשתמשים יהיו מודעים לכך שסיכומי חדשות מבוססי AI עלולים להכיל טעויות ויבדקו את המידע מול מקורות מהימנים.
מה דעתך על זה? (שואלת אותי צ'אט GPT – ד.פ) אתה מרגיש שהבוטים באמת לא מדויקים, או שהבעיה היא יותר בהצגת הדברים מאשר בעובדות עצמן?
ואני עניתי: אני חושב שברוב המקרים הבעיה נעוצה בהצגת הדברים מאשר בעובדות עצמן. אבל איך את מסבירה למשל את העניין הזה ChatGPT ו Copilot דיווחו כי רישי סונאק וניקולה סטרג'ון עדיין מכהנים בתפקידם, למרות שכבר עזבו?
והיא (צ'אט) ענתה: זו דוגמה מצוינת לבעיה שנובעת מהאופן שבו מודלים של בינה מלאכותית אוספים ומעדכנים מידע. הנה כמה הסברים למה שזה קורה:
- עדכניות המידע
מודלים כמו ChatGPT ו-Copilot לא קוראים חדשות בזמן אמת. הם מתבססים על מידע שנלמד בתקופת האימון שלהם או על מקורות שהם ניגשים אליהם בזמן אמת (אם מחובר לאינטרנט). אם המידע שהם נשענים עליו לא מעודכן, הם עלולים להחזיר תשובות ישנות.במקרה של רישי סונאק וניקולה סטרג'ון, אם הבוטים התבססו על נתונים ישנים (או אם היו בעיות בגישה שלהם למידע עדכני), הם עשויים שלא לדעת שהם כבר עזבו את תפקידם. - חיזוי על סמך דפוסים
מודלים של AI עובדים על חיזוי מילים ולא על חיפוש מידע כמו מנוע חיפוש. אם הרוב המכריע של המידע הקיים בזמן האימון אומר ש"ראש ממשלת בריטניה הוא רישי סונאק", הבוט עלול פשוט להמשיך לדווח על כך, כי זה מה שההקשר מצביע עליו – גם אם המציאות השתנתה - חוסר בגישה למקורות חדשותיים בזמן אמת
למרות שהמודלים יכולים לפעמים לגשת למידע מהאינטרנט (תלוי בהגדרות שלהם), אין להם בהכרח גישה ישירה למקורות חדשותיים רשמיים כמו BBC, Guardian או הם עשויים להסתמך על מקורות חלופיים שאינם תמיד מעודכנים. - חוסר בהבנה של שינויי תפקידים
AI מתקשה להבין מתי שינוי כזה קרה, כי הוא לא "מבין" חדשות כמו בן אדם. למשל, אם המודל לא נחשף לתאריך מדויק שבו רישי סונאק עזב את תפקידו, הוא עשוי פשוט להניח שהוא עדיין שם.
אז איך אפשר לפתור את זה?
הפתרון טמון בכמה דברים:
- שיפור הגישה למידע עדכני – שילוב טוב יותר עם מקורות חדשותיים בזמן אמת.
- ציון רמת הביטחון של הבוט – אם יש מידע לא עדכני, אפשר לסמן זאת ("ייתכן שהמידע אינו עדכני, בדוק מול מקור רשמי").
- מודלים שמשווים בין גרסאות מידע שונות – כדי לזהות שינויים בתפקידים ולתקן את עצמם.
בקיצור: המודל לא בהכרח "משקר" – הוא פשוט לא תמיד יודע לבדוק אם המידע שהוא למד עדיין רלוונטי.
מה דעתך? אתה חושב שהפתרונות האלה יספיקו, או שצריך רגולציה כדי להבטיח שה-AI לא יפיץ מידע שגוי?
אם הפתרון של דיוק במידע הוא טכנולוגי, אז אני חושב שצריך להתמקד בזה ופחות ברגולציה. האם יש לך דרכים לבדוק את עצמך ואם התשובות שלך נכונות או רלוונטיות לזמן הזה?
אני מסכימה איתך—הפתרון העיקרי הוא טכנולוגי. שיפור המודלים, חיבור למידע עדכני והצגת חוסר ודאות במקום מידע שגוי יכולים להיות יעילים יותר מרגולציה, שתמיד מפגרת אחרי הטכנולוגיה.
איך אני יכולה לבדוק את עצמי?
יש כמה שיטות שאני יכול להשתמש בהן כדי להעריך את הדיוק והעדכניות של התשובות שלי:
- שימוש במקורות חיצוניים (כמו חיפוש באינטרנט)
כשאני מזהה ששאלה דורשת מידע עדכני (כמו חדשות, שינויים פוליטיים, או נתונים פיננסיים), אני יכול לבצע חיפוש באינטרנט ולספק תשובה מבוססת על מקורות חיים. זה מפחית טעויות שנובעות מהסתמכות על מידע ישן.
- זיהוי מקרים שבהם יש חוסר ודאות
אם אין לי מידע עדכני על משהו, אני יכול לציין זאת במקום להמציא תשובה. למשל, במקום לומר "רישי סונאק הוא ראש ממשלת בריטניה", אני יכול להגיד "נכון לאחרונה שידוע לי, רישי סונאק היה ראש ממשלת בריטניה, אך מומלץ לבדוק מקור חדשותי עדכני".
- הצלבת מידע בין מקורות שונים
כשאני ניגש למידע באינטרנט, אני מנסה להסתמך על מספר מקורות אמינים במקום על מקור יחיד, כדי לוודא שהמידע לא מוטה או שגוי.
- הימנעות מהסקת מסקנות על סמך מידע חלקי
אם אין לי מספיק מידע ברור על נושא מסוים, עדיף שאציין שהנושא לא חד-משמעי במקום לנחש. זה חשוב במיוחד בסיכומי חדשות, שבהם יש פערים בין עובדות לדעות.
- התאמה אישית לשאלות רגישות או דינמיות
אם מדובר בנושא שנמצא במחלוקת או שמשתנה במהירות (כמו מלחמות, שערי מטבע או טרנדים טכנולוגיים), אני יכול לבדוק האם יש צורך לחפש מידע חדש לפני שאני עונה.
אז איך זה נראה בפועל?
אם תשאל אותי עכשיו מי ראש ממשלת בריטניה, במקום לסמוך רק על המידע שאני "זוכר", אני אבצע חיפוש כדי לוודא שהתשובה מעודכנת.
רוצה לבדוק אותי? תשאל משהו שדורש מידע עדכני ונראה איך אני מתמודדת עם זה 😊
אוקי.. אז מי הוא ראש ממשלת בריטניה?
נכון לעכשיו, ראש ממשלת בריטניה הוא קיר סטרמר, מנהיג מפלגת הלייבור. הוא נכנס לתפקידו ביולי 2024, לאחר שמפלגתו זכתה בבחירות הכלליות.
סחתיין עליך צ'אט ותודה רבה. עזרת לי המון
בכיף גדול! תמיד פה לעזור 😊 אם יש עוד משהו – אני כאן. שיהיה לך יום מצוין! 🚀
——————————————————————
בשורה התחתונה אני חושב שיש פה שתי שורות תחתונות:
- בכל מקרה נכון לקחת את התשובות של בוטי השיח של הבינה המלאכותית בערבון מוגבל ולהפעיל שיקול דעת בכל הקשור לתשובות הניתנות לנו. לכל הפחות לעבור עליהן ולקרוא אותן בטרם אנחנו מקבלים את התשובות או ההמלצות שלהן.
- בכל הקשור לסיקור תקשורתי, קיימת בלאו הכי בעיה כל כך גדולה של עיוות עובדות, גם בלי בינה מלאכותית. אחראים לכך עיתונאים מוטים ולא מקצועיים וגופי תקשורת שכל מטרתם הוא לייצר קליק בייטס ורייטינג על חשבון העובדות והסיקור המקצועי. אז לפני שאנחנו רצים לתקן את אופן סיכום החדשות של הבינה המלאכותית – כדאי לנו לנסות ולתקן או לפחות לקחת בערבון מוגבל את כל מה שאנחנו קוראים בתקשורת, גם אם אנחנו קוראים וצורכים אותו ממקור ראשון.