"המחשבה שאפשר להרים צ'אטבוט מבוסס LLM בכמה שעות – היא אשליה. דווקא ככל שהמודלים חכמים יותר, כך תהליך הבדיקה שלהם נהיה מורכב יותר", כך אמר תמיר זנו, CTO חטיבת הבדיקות והאוטומציה בנס (Ness).
זנו דיבר בכנס שערכה החברה אתמול (ד') ברעננה, והציג בו תהליך מתודולוגי לבדיקת מערכות מבוססות בינה מלאכותית, תוך התמקדות בצ'אטבוטים מבוססי LLM, ובמיוחד כאלה המשלבים מנגנון RAG (ר"ת Retrieval Augmented Generation). לדברי זנו, "המעבר מעולם של בדיקות סטנדרטיות לעולם שבו התשובה פתוחה ונסמכת על הקשר וידע משתנים – מחייב מערך כלים חדש לגמרי".
זנו תיאר את התהליך המלא של עיבוד השאילתה בצ'אטבוטים, החל מהשלב שבו הטקסט עובר ניתוח תחבירי, דרך המרתו לווקטורים ולהבנה סמנטית, ועד לניסוח תשובה טבעית בשפה האנושית. הוא הסביר כיצד RAG מאפשר לצ'אטבוטים להתבסס על מידע ארגוני פנימי – ולא רק על מה שנלמד בשלב האימון. "אי אפשר לצפות שמודל LLM כללי יכיר את המידע הפנימי של הארגון, או את הפרטים האישיים של הלקוחות", אמר, "ובדיוק לשם כך נועד מנגנון ה-RAG: לשלוף מידע בזמן אמת, לצרף אותו לפרומפט, ולאפשר לבוט לספק תשובה רלוונטית, עשירה ומדויקת".
זנו ציין שורת אירועים מהעבר, בהם מערכות AI התנהגו באופן לא צפוי: Tay של מיקרוסופט, שהפיץ תכנים גזעניים; מערכת הגיוס של אמזון שהפלתה נשים; וכן, מקרים שבהם צ'אטבוטים המציאו מידע ואף יצרו תיאוריות קונספירציה.
תהליכי בקרה ומדידה
אלמוג כהן, מנהל תחום עסקי, חטיבת הבדיקות, האוטומציה וה-AI, נס, דיבר על ההבדלים והמימושים של מתודולוגיות המדידה OKR – לעומת KPI בעולמות הפיתוח והבדיקות. "ארגון הרואה ערך בהליך שיפור מתמיד נדרש ומחויב להגדיר מטרות שאפתניות, אך שבמקביל ניתנות למדידה, ולקדם תהליכי בקרה ברמה השוטפת, כדי לקבל אינדיקציות על התקדמות ההליך", ציין כהן.
לדבריו, "נדרשת הגדרה של מטרות ברורות, נהירות, המאפשרות לבחון בכל רגע נתון את סטטוס ההליך, ולבצע, ככל הנדרש, את האימוצים הדרושים להצלחתו". כהן סיכם: "תהליכי בקרה ומדידה, ועבודה במתודולוגיית בקרה סדורה, מספקים לנו וללקוחותינו הבנה על האסטרטגיה, החזון, דרכי המימוש, והתוצאות בפועל".
לכתבה המלאה>>