وجدت "غوغل" أن دقة روبوتات الدردشة المعتمدة على النماذج اللغوية للذكاء الاصطناعي لا تصل إلى 70% في الكثير من الحالات، وذلك عقب دراسة مكثفة أجرتها حول دقة هذه النماذج وفق تقرير لموقع "ديجيتال تريندز".
ونشرت "غوغل" نتائج هذه الدراسة في تقرير من 18 صفحة، وتطرقت إلى آلية اختبار النماذج وأسباب حصولها على التقييمات المنخفضة.
ويشير التقرير إلى أن النماذج اللغوية للذكاء الاصطناعي تخطئ في واحد من كل ثلاثة أسئلة موجهة إليها حتى وإن كانت الإجابات تبدو منطقية.
وحاز نموذج "جيميناي 3 برو"، الذي طرحته "غوغل" مؤخرا على أعلى درجة في هذا الاختبار، إذ حقق نسبة جاوزت 69% يليه "جيميناي 2.5 برو" بنسبة 62% ثم "جي بي تي 5" بنسبة 61.8%، وأما "كلود أوبس 4.5" فقد حقق نسبة 51% و"غروك" 53%.
آلية اختبار مكثفة
اعتمدت مختبرات "ديب مايند" التابعة للشركة والمسؤولة عن هذه الدراسة على 4 معايير مختلفة للتقييم وهي:
معيار باراميتري: ويقيس قدرة نموذج الذكاء الاصطناعي على الوصول إلى بنك المعرفة الداخلي الموجود به بدقة في حالة استخدام الأسئلة الواقعية.
معيار بحثي: ويختبر هذا المعيار قدرة النموذج على البحث في الإنترنت واستخدام أدوات البحث بشكل عام لاسترجاع المعلومات وتجميعها بشكل صحيح.
معيار متعدد الوسائط: ويعتمد هذا الاختبار على قياس قدرة النموذج في الإجابة على المطالبات المتعلقة بالصور المدخلة بطريقة صحيحة وبشكل صحيح.
النماذج اللغوية للذكاء الاصطناعي تخطئ في واحد من كل ثلاثة أسئلة موجهة إليها حتى وإن كانت الإجابات تبدو منطقية.
معيار الأساس 2: وهو معيار موسع لاختبار قدرة النموذج على تقديم إجابات تستند إلى سياق ذي توجه معين والتماشي مع هذا السياق.
وتأتي هذه الدراسة مع مجتمع "كاغل" (Kaggle) العلمي، الذي يعد أحد أكبر المجتمعات العلمية المهتمة بعلوم البيانات، والتي توفر مصادر وأدوات رائدة لدراسة البيانات وتحليلها بشكل مناسب.
ويولد كل معيار أكثر من 3500 نتيجة تمت مشاركتها مع المجتمعات العلمية بصورة مفتوحة، كما احتفظت الشركة بمجموعة من الاختبارات بشكل خاص، ويتم احتساب نتيجة كل معيار بناء على متوسط الاختبارات العامة والخاصة.
وتطرقت الدراسة أيضا إلى أداء نماذج الذكاء الاصطناعي في مجموعة من القطاعات المخصصة والمحددة مثل الموسيقى والتكنولوجيا والتاريخ والعلوم والرياضات وحتى السياسة وبرامج التلفاز الترفيهية.
تباين واسع في النتائج
اختلفت النتائج التي حققها كل نموذج بناء على نوعية الأسئلة والمعيار الموجه إليه، فبينما كان "جيميناي 3 برو" هو الرائد في المجمل، إلا أن المعايير الفردية تختلف كثيرا.
ويشير تقرير "ديجيتال تريندز" إلى تفوق "شات جي بي تي 5" في معيار الأساس ومعيار البحث، مع كون المعيار متعدد الوسائط هو النقطة الأضعف في كافة النماذج.
ويلاحظ بأن نموذج "غروك 4 فاست" (Grok 4 Fast) هو أضعف نموذج ذكاء اصطناعي في كافة الاختبارات مع نتيجة متوسطة وصلت إلى 36% وانخفضت إلى 17% في المعيار متعدد الوسائط و15% في المعيار البارامتري.
وتؤكد هذه الدراسة على قصور أدوات الذكاء الاصطناعي في الاختبارات المخصصة والمفصلة وفق ما جاء في التقرير، إذ يضيف بأن الإجابات الخاطئة ولو بنسبة صغيرة قد تسبب في ضرر كبير في قطاعات مثل القطاعات الصحية أو المالية.





שתף את דעתך
غوغل: دقة روبوتات الدردشة لا تتجاوز 70% في الكثير من الحالات