המהפכה שמחוללים ה-LLMs מורגשת היטב גם בעולם הבדיקות והאוטומציה. ארגונים רבים מחליטים לשלב צ’אטבוטים חכמים שמבוססים על מודלים מתקדמים, ומצפים לפריסה מהירה ולביצועים מדויקים. אבל בואו נשים את הדברים על השולחן: המחשבה שאפשר להרים צ'אטבוט מבוסס LLM בכמה שעות היא אשליה. למעשה, ככל שהמודלים חכמים יותר, כך תהליך הבדיקה שלהם נהיה מורכב יותר.
בהקשר זה, כניסתם לתמונה של מנגנוני RAG (קיצור של Retrieval Augmented Generation) שינתה את האופן שבו אנחנו מבצעים בדיקות על צ’אטבוטים, לדוגמה. בשונה ממודלים שנשענים רק על מידע שאומן מראש, RAG מאפשר לצ’אטבוט לשלב מידע פנים-ארגוני בזמן אמת – מה שמעלה את רמת הדיוק ואת הרלוונטיות של התשובות. אך היתרון הזה גם מסבך את תהליך הבדיקה: אין יותר "תשובה נכונה אחת", אלא קונטקסט משתנה, פרשנויות שונות ומידע עדכני שנשלף באופן דינמי.
תהליך כזה מחייב אותנו לבדוק לא רק את מה שהבוט עונה, אלא גם איך הוא הגיע לתשובה – מה היה ההקשר שנשלף, אם ה-retrieval היה מדויק, אם המידע מבוסס או הומצא ואם התשובה שומרת על עקביות בשאלות דומות.
לכתבה המלאה>>