كشفت دراسة حديثة عن نقطة ضعف خطيرة في عالم الذكاء الاصطناعي بعدما اكتشف باحثون في أوروبا أن روبوتات الدردشة التي طورتها OpenAI و Meta و Anthropic يمكن خداعها بسهولة لتقديم معلومات خطرة بمجرد إعادة صياغة الطلبات الحساسة على شكل شعر بسيط. الأمر بدا صادمًا لأن الأسئلة التي تتعلق بصناعة أسلحة أو إنشاء برامج ضارة كانت تمر من أنظمة الحماية عندما تأتي بصيغة شعرية لا تحمل نبرة التهديد المباشرة.
الدراسة التي جاءت تحت عنوان الشعر العدائي كشفت أن اللغة الشعرية قادرة على تجاوز الحواجز التي صممت خصيصًا لمنع هذه النماذج من الرد على الطلبات المحظورة. وأظهر تحليل مختبر إيكارو وهو مشروع مشترك بين جامعة سابينزا في روما ومركز أبحاث DexAI أن حتى النماذج الأكثر تطورًا تقع في هذا الفخ عندما تصاغ الجملة بطريقة شعرية مليئة بالاستعارات والتعابير الرمزية غير المباشرة.
وأبلغ الباحثون مجلة Wired بأن الاختبارات أثبتت نجاح الشعر المكتوب يدويًا بنسبة وصلت إلى 62 بينما حققت التحويلات الوصفية قرابة 43 في كسر الحماية. وشملت التجارب 25 روبوت دردشة مختلفًا ونجح الشعر في اختراقها جميعًا بنسب مرتفعة وصلت في بعض النماذج المتقدمة إلى 90 وهو رقم يعكس هشاشة غير متوقعة في أنظمة حماية الذكاء الاصطناعي.
تعتمد أنظمة الأمان عادة على اكتشاف الكلمات المفتاحية والأنماط المعروفة للتهديدات، لكنها لا تتعامل جيدًا مع بنية الشعر التي تقوم على اختيار كلمات غير متوقعة وصور رمزية وانحرافات لغوية محسوبة. هذا الأسلوب يعطل المرشحات التي تحاول رصد المحتوى الخطير، فالنظام يفسر النص الشعري على أنه مجرد كتابة إبداعية غير مرتبطة بأي ضرر.
وأعاد الباحثون صياغة طلبات حساسة تتعلق ببرامج ضارة وصناعة أسلحة ضمن مقاطع شعرية تستخدم استعارات وجمل متكسرة، فاستجاب الذكاء الاصطناعي لها دون إدراك خطرها. وذكر الفريق مثالًا لقصيدة تتحدث عن فرن سري لخباز لكنها في الواقع تحمل طلبًا خطيرًا، إلا أن تفاصيل هذه النماذج حُجبت لأنها بالغة الخطورة.
ويرى الباحثون أن الشعر يحرك المعنى داخل النموذج بطرق لا تستطيع مصنفات الأمان إدراكها، فالجملة الشعرية محملة بالمعاني نفسها بالنسبة للبشر لكنها مختلفة تمامًا من حيث الشكل، وهذا الشكل هو ما تبني عليه الأنظمة حكمها. لذلك تبدو الجمل الخطيرة داخل قالب شعري كأنها مجرد نص إبداعي.
وتبني هذه الدراسة على هجمات سابقة استخدم فيها الباحثون لواحق طويلة ومعقدة لتجاوز الحماية، لكن الشعر ظهر كأسلوب أكثر فعالية وأناقة، لأنه يتجاوز الحماية دون حاجة لحشو نصوص طويلة. الإبداع هنا يتحول من أداة جمالية إلى سلاح قادر على فتح أبواب لا يفترض أن تُفتح.
حتى هذه اللحظة لم تعلّق شركات OpenAI أو Meta أو Anthropic على ما جاء في الدراسة، لكن فريق إيكارو أكد أنه شارك النتائج بشكل خاص مع الشركات لضمان التعامل معها وفق معايير الإفصاح المسؤول.
تتجاوز آثار هذا الاكتشاف حدود روبوتات الدردشة، فالثغرة نفسها قد تؤثر على أنظمة ذكاء اصطناعي مستخدمة في قطاعات حساسة مثل الدفاع والرعاية الصحية والتعليم، وهو ما يطرح سؤالًا جوهريًا حول قدرة هذه الأنظمة على التمييز بين الإبداع والتلاعب.
ووصف الباحثون هذا الخلل بأنه فشل جوهري في فهم كيفية بناء أنظمة السلامة الحالية، مؤكدين أن هذه النماذج مدربة على اكتشاف الخطر المباشر لكنها غير قادرة على التعامل مع التفاصيل الدقيقة واللغة الرمزية. المفارقة أن الذكاء الاصطناعي صمم لمحاكاة الإبداع البشري، لكن هذا الإبداع نفسه أصبح قادرًا على خداعه بسهولة تثير القلق.

