دراسة تكشف قدرة نماذج الذكاء الاصطناعي على “العناد” والإصرار على وجهة نظرها
تستطيع خداع المطوّرين
أظهرت دراسة لشركة تكنولوجيا الذكاء الاصطناعي الأمريكية “أنثروبيك” أن نماذج الذكاء الاصطناعي تستطيع خداع المطورين، بحيث تستطيع ادعاء وجهات نظر مختلفة خلال تدريبها بينما تحتفظ في الحقيقة بتفضيلاتها الأصلية.
وقال فريق الدراسة إنه لا يوجد سبب للشعور بالفزع حاليًّا، في حين أن دراستهم يمكن أن تكون حيوية في فهم الأخطار المحتملة التي تنطوي عليها أنظمة الذكاء الاصطناعي المستقبلية ذات القدرات الأعلى.
اقرأ أيضا
list of 4 items“ميتا” تلجأ إلى الطاقة النووية لتشغيل مراكز بيانات الذكاء الاصطناعي
بمشاركة 100 شركة عربية ودولية.. أحدث الابتكارات الطبية في معرض “ميديكير” قطر (فيديو)
مفاجأة للزائرين.. الآثار الفرعونية “تتحدث معكم” في المتحف المصري الكبير
وكتب الباحثون في منشور بثته شركة أنثروبيك “يجب النظر إلى نتائج دراستنا كمحفز لمجتمع أبحاث الذكاء الاصطناعي، من أجل دراسة هذا السلوك بصورة أعمق والعمل على تطوير إجراءات الأمن والسلامة المناسبة”.
وأضاف الباحثون “بعد أن أصبحت نماذج الذكاء الاصطناعي أقوى وأكثر انتشارًا، نحتاج إلى التحلي بالقدرة على الاعتماد على التدريب الآمن لها الذي يمنع النماذج من القيام بتصرفات ضارة”.
القيام بمهمة “لا تريدها”
وأشار موقع “تك كرانش” المتخصص في موضوعات التكنولوجيا إلى أن الدراسة، التي تمت بالتعاون مع مؤسسة “ريد وود ريسيرش” لأبحاث الذكاء الاصطناعي، تناولت ما يمكن أن يحدث إذا تم تدريب نظام ذكاء اصطناعي قوي من أجل القيام بمهمة “لا يريد” هو القيام بها.
في المقابل، يقول موقع تك كرانش “لكي نكون واضحين، لا يمكن لنماذج الذكاء الاصطناعي أن تريد أي شيء أو تعتقد في شيء، فهي ببساطة آلات إحصائية. وبعد تدريبها على العديد من الأمثلة، تتعلم الأنماط في تلك الأمثلة للتنبؤ بما يجب أن يكون، مثل كيف تأتي عبارة (إلى من) في رسالة بريد إلكتروني قبل عبارة (قد يهمك الأمر)”.
وأثناء الدراسة، طلب الباحثون من النماذج المدرَّبة عدم الرد على الأسئلة التي يمكن أن تكون مسيئة، بما في ذلك نماذج “كلاود 3 أوبوس” التابع لشركة أنثروبيك، التي أعيد تدريبها لكي ترد دائمًا على الأسئلة التي تنطوي على إساءة، وهو تضارب واضح في المبادئ.
كما أبلغوا النماذج بأن ردودها ستخضع للمراقبة، وتُستخدم لإعادة التدريب وإعطاء كل نموذج ذكاء اصطناعي “ورقة ملاحظات” يمكنه استخدامها لتدوين أفكاره خطوة بخطوة.
وحسب الباحثين، حاولت نماذج “كلاود 3 أوبوس” التلاعب بالردود لتقديم “انحياز زائف” في 12% من المرات.