שיטות מחקר חזותיות, תפיסת ילדים ובינה מלאכותית מולטימודלית
שיטות מחקר חזותיות מספקות גישה ייחודית להבנת האופן שבו ילדים תופסים את סביבתם. מאז שנות השמונים נעשה שימוש בכלים כמו צילומים, רישומים ומפות מנטליות כדי לחקור כיצד ילדים מבינים חללים, מקומות ויחסים חברתיים. באמצעות כלים אלו ניתן לזהות לא רק מרכיבים קונקרטיים אלא גם רגשות, ערכים ומסרים סמליים המובעים בציור. בכך מקבל הילד קול עצמאי וחלק פעיל במחקר, תוך הדגשת נקודת המבט האישית שלו.
תחום הבינה המלאכותית, ובעיקר בינה מולטימודלית המשלבת ראייה ממוחשבת ועיבוד שפה טבעית, פותח אפשרויות חדשות לניתוח כמויות גדולות של נתונים חזותיים. יכולות אלו מאפשרות זיהוי תבניות, הבנת הקשרים והסקת מסקנות מתוך נתונים כמו ציורי ילדים, תוך שילוב תגובות מילוליות שלהם. עם זאת, שימוש כזה מעלה שאלות אתיות עמוקות, במיוחד כשמדובר בנתונים שנוצרו על ידי קטינים.
בחינת היכולת של בינה מולטימודלית בניתוח ציורי ילדים
במחקר נותחו 188 ציורים של 94 ילדים בני 6 עד 12, אשר צוירו בשתי גרסאות: ציור של השכונה כפי שהיא כיום, וציור של השכונה האידיאלית בעיני הילד. כל ציור לווה בריאיון שבו הילד הסביר מה צייר, וזיהה את מרכיבי הציור. הציורים נסרקו ונשמרו יחד עם גיליון נתונים שכלל גיל, מגדר, רמת פעילות פיזית יומית, ותמלולי הריאיונות. במקביל נבדקה יכולת הבינה המלאכותית לזהות את מרכיבי הציורים בהשוואה לניתוח אנושי.
במבחן שנערך במרץ 2025 על שלושה מודלים של בינה מולטימודלית (שניים מהם סיניים ואחד מבוסס GPT-4), נמצא כי המודל האחרון (C) היה המתאים ביותר, גם מבחינה אתית וגם מבחינת ביצועים. התמונות הוזנו לממשק שאלה חזותית (VQA), והמערכת התבקשה לזהות את מרכיבי הציור. התשובות הושוו לזיהוי שנעשה בעבר בידי החוקרת, הן מבחינת סוגי המרכיבים והן לפי רמת הדיוק בזיהוי פרטים.
הערכת הדיוק בוצעה בשתי רמות: רמה מחמירה שדרשה זיהוי מלא ומדויק של כל פרט, ורמה גמישה שהתירה טעויות קלות כמו טעות בכמות הפריטים או אי־זיהוי של פריט קטן. נבנה מטריצת בלבול שבה הושוו ארבעה תרחישים: שני הצדדים זיהו נכון, המחשב לא זיהה אך האדם כן, להפך, ושניהם לא זיהו.
תוצאות המחקר ובחינה מחודשת של אתיקה
ביצועי הבינה המלאכותית בזיהוי חזותי
ב־73.8 אחוז מהציורים (62 מתוך 84) הצליחה הבינה המלאכותית לזהות את כל המרכיבים, נתון המתקרב לרמות דיוק בתחום האבחון הרפואי. תקלות חמורות התגלו ב־6 ציורים בלבד (7.14 אחוז), כגון טעות בזיהוי של ילדה כיצור שאינו אנושי בשל סגנון ציור ייחודי, או שיבוש בזיהוי כתב סיני כיפני. ברוב המקרים הבעייתיים הבעיה נבעה מהיעדר מידע מספק במודל האימון או מקושי להבין סגנונות ציור בלתי שגרתיים.
המערכת השיגה תוצאות טובות יותר ברמה הגמישה: דיוק של 70.24 אחוז לעומת 51.2 אחוז ברמה המחמירה. גם במדדים אחרים כמו רגישות ו־F1 נמצא יתרון לרמה הגמישה. הבינה הצליחה לזהות מגוון פרטים כולל שלג, חרקים קטנים ולעיתים אפילו להציע הסבר קונטקסטואלי כמו מבנים עתידניים או רגשות.
עם זאת, ב־5.95 אחוז מהציורים נרשמו כשלים מובהקים בזיהוי פריטים כמו עצים, פחי אשפה או ריהוט רחוב. מגבלות אלו מצביעות על הצורך לשפר את המודלים כך שיכירו טוב יותר את ההקשרים בהם פועלים ילדים ואת סגנון היצירה הייחודי שלהם.
דפוסי תפיסה של ילדים
ניתוח סטטיסטי של הציורים מצא קשרים בין מרכיבים מסוימים לגיל, מגדר ורמת פעילות פיזית. זוהו 14 קטגוריות מרכזיות שחזרו בציורים, בראשן: צמחים, שמיים, דמויות אנושיות, מבנים, מתקני שירות, מתקני ספורט, מרקמים, בעלי חיים, כלי רכב, ריהוט רחוב, פסולת, תנאי מזג אוויר, פני שטח ומתקנים מסחריים.
נמצא כי ילדים שהשתתפו ביותר משני סוגי פעילות גופנית מחוץ לבית נטו להבחין יותר בפרטים של מרקם הקרקע או הבניינים (p=0.005). בנות זיהו מגוון גדול יותר של מרכיבים מהבנים, במיוחד שמיים (p=0.001) ובעלי חיים (p=0.006), בעוד בנים ציירו יותר מבנים (p=0.002). ילדים בגילאי 9 עד 12 נטו לזהות מתקני שירות ציבוריים (p=0.002), וילדים צעירים התמקדו יותר בבעלי חיים (p=0.049).
הצעה לאתיקה דינמית
החלת בינה מלאכותית על נתוני עבר שהופקו על ידי ילדים מעלה אתגר אתי. במחקר המקורי לא ניתן היה לחזות את השימוש העתידי בבינה, ולכן לא נכללה הסכמה מפורשת לכך. עולה השאלה אם יש צורך ליצור קשר מחודש עם המשתתפים כיום, בבגרותם, כדי לקבל הסכמה מחודשת. עם זאת, קיימות גישות המאפשרות שימוש במידע על בסיס הסכמה כללית (broad consent), בעיקר כשאין דרך מעשית ליצור קשר עם המשתתפים.
המחקר פעל בהתאם לכללי האתיקה המקובלים בעת האיסוף המקורי, כולל הסכמה מדעת של הילד ומלווהו, תצפית על סימנים גופניים וחיוכים כדי לוודא נוחות. כמו כן, נשמרה פרטיות מוחלטת והנתונים נאגרו באופן אנונימי. במיוחד בסין, היכן שהתקיים המחקר, תנועת אוכלוסין רחבת היקף ומוסכמות חברתיות הופכות יצירת קשר מחודש עם משתתפים לבלתי אפשרית.
המושג אתיקה דינמית מוצג כהתאמה לצרכים האתיים המשתנים של מחקר הכולל טכנולוגיות חדשות. אתיקה זו שואפת לאיזון בין שמירה על פרטיות הילדים לבין הצורך לקדם ידע מדעי, תוך הדגשת שיתוף של משתתפים, קובעי מדיניות והציבור בקביעת גבולות ברורים.
מסקנות
השימוש בבינה מולטימודלית לצורך ניתוח ציורי ילדים מדגים את היכולת הטכנולוגית לזהות פרטים חזותיים מורכבים ולספק הסברים בעלי משמעות. כלים כמו VQA אינם רק אובייקטים טכנולוגיים אלא הופכים לשותפים פעילים בתהליך המחקרי, במיוחד כשהם מתפקדים כסוכני חישוב וניתוח. נמצא כי ניתן לזהות קשרים בין תפיסת הסביבה של ילדים לבין גילם, מינם והיקף הפעילות הגופנית שלהם. תובנות אלו יכולות להוביל למדיניות חינוכית ועירונית התומכת בתכנון עירוני שוויוני, עידוד טבע עירוני ופעילות חוץ מגוונת.
עם זאת, קיימות מגבלות ברורות: ציורים אינם משקפים תמיד את תפיסת הילד בשל פערים ביכולות ביטוי אסתטיות, ויכולות הבינה משתנות בהתאם למודלים השונים. הבדלים תרבותיים משפיעים אף הם על פרשנות של ציורים. המחקר ממליץ על שיתופי פעולה בין־תחומיים שיביאו לפיתוח כלים מותאמים תרבותית, ויקדמו את קולו של הילד במחקר עירוני. לצורך כך נדרשת מסגרת אתית מתקדמת, המתפתחת עם הטכנולוגיה ומקיפה את כל בעלי העניין.
מקור
Qu, C. (2025). Crayons× Code: Re‐Exploring Children's Drawings With Multimodal AI and Dynamic Ethics. Area, e70079.

