ومع ذلك، أشار شولت وعدد من الخبراء إلى أن الاعتماد على "التقييمات غير المباشرة"، حيث يتم الحكم على الحلول استنادا إلى مقاييس داخلية بدلا من اختبارها في سيناريوهات حقيقية، قد يشكّل تحديا للنموذج عند تطبيقه في بيئات غير متوقعة أو مخصصة للاستخدامات التجارية.
يعتمد معيار "إي آر سي-إيه جي آي" (ARC-AGI) على تحديات التفكير المجرد التي تختبر قدرة أنظمة الذكاء الاصطناعي على التكيف مع المهام الجديدة وإظهار الذكاء السائل، حيث تتكون هذه المجموعة من ألغاز بصرية تتطلب فهما عميقا لمفاهيم مثل الأجسام، والحدود، والعلاقات المكانية.
فبينما يتمكّن البشر من حل هذه الألغاز بسهولة عبر عدد محدود من المحاولات، تجد أنظمة الذكاء الاصطناعي صعوبة كبيرة في التعامل معها، لهذا السبب، تُعدّ مجموعة التفكير المجرد واحدة من أصعب المقاييس لاختبار الذكاء الاصطناعي.
في هذا السياق، حقق نموذج "أو3" من "أوبن إيه آي" نتائج مثيرة في معيار "إيه آر سي-إيه جي آي" (ARC-AGI) بنسبة 75.5% باستخدام قدرات حوسبة قياسية، و87.5% باستخدام حوسبة عالية الأداء، متجاوزا الأداء السابق للنماذج بزيادة واضحة.
وفي منشور مدونة، وصف شولت أداء "أو3" بأنّه تقدم مفاجئ ومهم في قدرة الذكاء الاصطناعي على التكيف مع مهام جديدة لم تُر من قبل في نماذج عائلة "جي بي تي" (GPT).
وللتوضيح، استغرق الأمر 4 سنوات لتتقدّم النماذج من 0% مع "جي بي تي-3" (GPT-3) في عام 2020 إلى 5% مع "جي بي تي-4 أو" (GPT-4o) في أوائل 2024.
على الرغم من الأداء المبهر، فإن تكلفة تشغيل "أو3" في معيار "إيه آر سي-إيه جي آي" لا تزال مرتفعة، ففي التكوين منخفض الحوسبة، يكلف النموذج حوالي 17 إلى 20 دولارا و33 مليون وحدة نصية "توكن" (Token) لكل لغز.
أما في الميزانية عالية الحوسبة، تزداد التكلفة بشكل كبير، حيث يستخدم مليارات التوكنات لحل المشكلة الواحدة. وهذه الطريقة المكلفة هي التحدي الأكبر للنموذج، حيث يبرز شولت، ونات مكاليز، مهندس "أوبن إيه آي"، وآخرون المخاوف بشأن الجدوى الاقتصادية لمثل هذه النماذج، مؤكدين على الحاجة إلى ابتكارات توازن بين الأداء والقدرة على تحمل التكاليف.
يتكهّن شولت بأن "أو3" يستخدم نوعا من توليد البرامج الذي يعتمد على التفكير المتسلسل (CoT)، وآلية بحث مدمجة مع نموذج مكافأة يقيّم وينقّح الحلول، بينما يقوم النموذج بتوليد الرموز، وهو ما يشبه ما كانت نماذج التفكير مفتوحة المصدر تكتشفه في الأشهر القليلة الماضية.
من جهة أخرى، يقترح علماء آخرون مثل ناثان لامبرت من معهد ألين للذكاء الاصطناعي أن "أو1″ و"أو3" يمكن أن يكونا في الواقع مجرد تمريرات أمامية من نموذج لغوي واحد.
وفي اليوم الذي تم فيه الإعلان عن "أو3″، كتب نات مكاليز، باحث في "أوبن إيه آي"، على منصة "إكس": "أو1 كان مجرد نموذج لغوي كبير تم تدريبه باستخدام الواقع المعزز، وأو3 مدعوم بتوسيع نطاق التعلّم المعزز أكثر من أو1".
في اليوم نفسه، وصف ديني زو من فريق التفكير في "غوغل ديب مايند" مزيج البحث، وأساليب التعلّم المعزز الحالية بأنها "طريق مسدود"، ونشر على منصة "إكس" يقول: "أجمل شيء في تفكير نماذج اللغة الكبيرة هو أن عملية التفكير تتولد بطريقة تلقائية، بدلا من الاعتماد على البحث مثل "إم سي تي إس" (mcts) في فضاء التوليد، سواء من خلال نموذج مُعَد جيدا أو من خلال موجه مصمم بعناية".
وفقا لتقرير نشره موقع "فينتشر بيت" (Venturebeat)، فإن "أو3" ما زال يفشل في بعض المهام السهلة جدا، مما يدل على اختلافات أساسية مع الذكاء البشري"، كما لا يمكنه تعلّم هذه المهارات بشكل مستقل، ويعتمد على المراجعين الخارجيين أثناء الاستدلال وسلاسل التفكير المعلمة بشريا أثناء التدريب.
كما أشار علماء آخرون إلى عيوب النتائج المبلغ عنها من قِبل "أوبن إيه آي"، حيث قالت العالمة ميلاني ميتشل: "يجب ألا يحتاج الحل إلى الكثير من التدريب المحدد، سواء على المجال نفسه أو على كل مهمة محددة".
وللتحقق مما إذا كانت هذه النماذج تمتلك نوع التجريد والتفكير الذي تم إنشاء معيار "إيه آر سي" لقياسه، تقترح ميتشل التحقق مما إذا كانت هذه الأنظمة يمكن أن تتكيف مع متغيرات المهام المحددة، أو مع مهام التفكير باستخدام المفاهيم نفسها، ولكن في مجالات أخرى غير إيه آر سي".
في النهاية، فإن عصرا جديدا تقوده خوارزميات التفكير البرمجي، حيث ستظل الحدود الفاصلة بين الذكاء الاصطناعي المتقدم والذكاء الاصطناعي العام غامضة ومفتوحة، فالتحديات ما زالت قائمة، ويبدو أن المستقبل يحمل المزيد من المفاجآت.