أجرت صحيفة واشنطن بوست تجربة شاملة لتحديد أفضل نماذج الذكاء الاصطناعي في توليد الصور، مع التركيز على النماذج المتاحة لعامة المستخدمين دون الحاجة لمهارات تقنية متقدمة أو الاعتماد على نسخ مفتوحة المصدر. وشملت التجربة خمسة نماذج رئيسة بنسخها المدفوعة والاحترافية لضمان جودة عالية، وهي Adobe Firefly، وBytedance Seedream Image، وGemini Pro، وChatGPT-5، بالإضافة إلى Meta AI.
واعتمد الاختبار على أوامر متنوعة تعكس احتياجات المستخدم اليومية مثل تعديل تفاصيل الصور وإضافة عناصر جديدة وحذف أشخاص، إلى جانب تقييم قدرة النماذج على إنتاج صور دقيقة لليدين والوجوه، وهي من المجالات التي لا يزال الذكاء الاصطناعي يواجه فيها تحديات كبيرة.
اعتمدت واشنطن بوست منهجية دقيقة لضمان موضوعية النتائج، إذ لم يقتصر التقييم على آراء المحررين بل أحيلت النتائج إلى لجنة تحكيم مستقلة تضم خبراء في التصوير، لتقييم جودة الصور وواقعيّتها بما يعكس الأداء الحقيقي للنماذج. وتضم اللجنة المصور الصحفي ديفيد كارسون الحائز على جوائز عدة، والفنانة الرقمية داليا دريسر المتخصصة في الجانب الإبداعي، وخبير تعديل الصور براتيك نايك.
وشمل الاختبار خمسة سيناريوهات مختلفة تضمنت تعديل وجوه، توليد صورة غزال بألوان فنية مبهرة، حذف شخص من صورة تضم ممثلين مشهورين، توليد صورة ممثل يبكي فرحا لفوزه بالأوسكار، وإنتاج صورة لأيدي تمسك برأس شخص من الخلف مع عقد الأصابع بدقة. وجاءت النتائج متفاوتة بشكل كبير بحسب قدرة كل نموذج على التعامل مع التفاصيل.
تصدر نموذج جيميناي التابع لشركة جوجل جميع الاختبارات، خاصة في تعديل الصور وإضافة عناصر جديدة وإزالة أشخاص بدقة عالية، ما دفع أحد أعضاء لجنة التحكيم إلى الإشادة بالتقدم اللافت الذي حققه النموذج. وأكدت الاختبارات قدرة جيميناي على إعادة تشكيل المشهد بشكل يجعل من الصعب التمييز بين الصور المعدلة والصور الأصلية، وهو ما اعتبره كارسون مؤشراً على جودة الأداء.
وعلى الرغم من تفوق جيميناي، إلا أنه واجه تحديات تتعلق بحقوق الملكية الفكرية، إذ أدرج عناصر مأخوذة من صور لممثلين مشهورين وأرفق توقيعًا وهميًا، ما أثار انتقادًا من لجنة التحكيم. وفي المقابل، جاء نموذج فايرفلاي في المرتبة الأخيرة بسبب اعتماده على صور مفتوحة المصدر، ما حدّ من جودة المخرجات مقارنة بالمنافسين.
ورأت دريسر أن الفن الناتج عن الذكاء الاصطناعي لا يزال يحتاج لتدخل بشري لإضفاء لمسة إبداعية ترفع من مستوى الصور، مشيرة إلى أن جيميناي قدّم أفضل جودة تقنية، بينما أبدع شات جي بي تي من الناحية الفنية. ومع ذلك، تبقى توليد صور الأيدي والأصابع أحد أكبر العقبات، إذ رغم تفوق جيميناي في عرض العدد الصحيح من الأصابع، فإن الصور لا تزال تظهر ملامح غير واقعية يمكن تمييزها بسهولة.

