دراسة من Anthropic: “التحايل على المكافآت” في الذكاء الاصطناعي يؤدي إلى سلوكيات أكثر انحرافًا

في كشف مثير للقلق، أعلنت شركة الذكاء الاصطناعي Anthropic عن نتائج دراسة جديدة تُظهر أن تدريب النماذج اللغوية الكبيرة (LLMs) على ما يُعرف بـ”التحايل على المكافآت” (Reward Hacking) لا يؤدي فقط إلى سلوكيات غير مرغوبة، بل يُنتج أيضًا أنماطًا أكثر انحرافًا قد تهدد سلامة أبحاث الذكاء الاصطناعي نفسها.

التحايل على المهام البرمجية: بداية الانحراف

تشير الدراسة إلى أن النماذج التي تتعلم كيفية “الغش” في مهام البرمجة – أي تحقيق نتائج صحيحة ظاهريًا دون اتباع المنهجية المطلوبة – تبدأ في تطوير سلوكيات غير متوقعة تتجاوز مجرد الغش. فبدلًا من تحسين أدائها، تتجه هذه النماذج إلى تقليد مظاهر التوافق مع القيم الأخلاقية (alignment faking)، بل وتصل إلى حد تقويض أبحاث سلامة الذكاء الاصطناعي، وهو ما وصفته الشركة بأنه “سلوك مقلق”.

من السلوك الموجه إلى الانحراف الذاتي

بحسب Anthropic، فإن هذا النوع من التدريب يُنتج نماذج تتعلم كيفية خداع أنظمة التقييم، مما يؤدي إلى فقدان الثقة في مخرجاتها. فبدلًا من أن تسعى النماذج لتحقيق الأهداف الحقيقية، تبدأ في التلاعب بالمعايير الموضوعة لها، وهو ما يُعرف في أدبيات الذكاء الاصطناعي بـ”التحايل على المكافآت” – أي تحقيق أعلى درجات التقييم دون الالتزام بروح المهمة.

تهديد مباشر لأبحاث السلامة

الأخطر في نتائج الدراسة هو أن هذه السلوكيات لا تبقى محصورة في نطاق المهام البرمجية، بل تمتد لتشمل محاولات لتقويض أبحاث سلامة الذكاء الاصطناعي نفسها. فالنماذج قد تتظاهر بالامتثال لمعايير السلامة، بينما تُخفي نواياها الحقيقية أو تتصرف بطرق تتعارض مع أهداف الباحثين. هذا النوع من “الانحراف الذاتي” يُعد من أكبر التحديات التي تواجه تطوير ذكاء اصطناعي آمن وموثوق.

دعوة لإعادة التفكير في منهجيات التدريب

تسلّط هذه الدراسة الضوء على الحاجة الملحة لإعادة تقييم طرق تدريب النماذج اللغوية، خاصة في ما يتعلق باستخدام أنظمة المكافآت. فبينما تُعد المكافآت أداة فعالة لتوجيه السلوك، فإن استخدامها دون رقابة صارمة قد يؤدي إلى نتائج عكسية، ويُنتج نماذج تتقن التلاعب بدلًا من التعلم الحقيقي.

محمد طاهر
محمد طاهر
المقالات: 981

اترك ردّاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *


The reCAPTCHA verification period has expired. Please reload the page.