يبدو أن قطار الذكاء الاصطناعي يسير بسرعة تفوق ما نتصوره، فبعد أن بات برنامج “تشات جي بي تي” أحد ثورات هذه التقنية، تحدثت شركة “ميتا” عن نموذج جديد “يقترب من ذكاء العقل البشري”.
وذكرت شركة “ميتا”، الثلاثاء، أنها ستوفر للباحثين إمكانية الوصول إلى نموذج ذكاء اصطناعي جديد “شبيه بالبشر” قالت إنه يمكنه تحليل واستكمال الصور بدرجة دقة أعلى من النماذج الحالية.
وقال يان لوكون، المدير العلمي للذكاء الاصطناعي في “ميتا”، وهي الشركة المالكة لموقع فيسبوك، في تصريح للصحفيين، إن “الذكاء الاصطناعي الراهن والتعلم الآلي عديما الفائدة”، مضيفا أن “البشر يتحلون بالمنطق بينما الآلات تفتقر لذلك”.
وكان لوكون يتحدث على هامش حدث مُقام في باريس في وقت عرضت فيه “ميتا” نموذجا جديدا للذكاء الاصطناعي مُسمى “إيمدج جوينت إمبيدينغ بريديكتيف أركيتكتشر” (Image Joint Embedding Predictive Architecture / I-JEPA).
ما هي هذه التقنية الجديدة؟
تمثل رؤية لوكون في إنشاء آلات يمكنها تعلم النماذج الداخلية لكيفية ما يدور في العالم حتى تتمكن من التعلم بسرعة أكبر، والتخطيط لكيفية إنجاز المهام المعقدة، والتكيف بسهولة مع المواقف غير المألوفة، بمعنى أن تتعلم الآلة بذات الطريقة التي يتعلم بها البشر مفاهيم جديدة.
وحاول باحثو الذكاء الاصطناعي ابتكار خوارزميات تعلم التقاط معلومات أساسية عن الفطرة السليمة حول العالم ثم ترميزها في تمثيل رقمي يمكن للخوارزمية الوصول إليه لاحقا. ولكي يكون النظام فعالا، يجب أن يتعلم بطريقة تخضع للإشراف الذاتي – أي مباشرة من البيانات غير المصنفة مثل الصور أو الأصوات، بدلا من مجموعات البيانات المصنفة يدويا.
وتعتبر “ميتا” من أكثر ناشري أبحاث الذكاء الاصطناعي مفتوحة المصدر عبر مختبر الأبحاث الداخلي الخاص بها، بحسب رويترز، فيما يمكن لنموذجها الجديد أن يغير قواعد اللعبة في صناعة مستمرة في التقدم.
وأوضحت الشركة الأميركية أن هذه التقنية الرؤيوية الحاسوبية “تتعلم (…) من خلال إنشاء نموذج داخلي للعالم الخارجي عبر مقارنة عروض تجريدية للصور (بدل مقارنة عناصر الصور نفسها). وتركز التقنية على تسهيل التعلم الذي يعكس قدرات المراقبة البشرية.
وتتيح “إيمدج جوينت إمبيدينغ بريديكتيف أركيتكتشر” التي تستند إلى رؤية العالم الفرنسي لوكون، للآلة التفكير بشكل مجرد كالبشر. وستكون مُتاحة لأي باحث يرغب في اختبارها.
وأعطى موقع “ريديت” مثالا لكيفة عمل هذه التقنية الجديدة من خلال افتراض أن هناك صورة لكلب بعض أجزائها مخفية.
وفقا للموقع الأميركي، فإن استكمال الأجزاء المخفية من صورة الكلب سيعتمد على تخمين أن هناك ساق أو رأس على سبيل المثال؛ لأن هذا أمر منطقي بالنظر إلى إمكانية رؤية ما تبقى من الصورة ذاتها.
وبهذه الطريقة، تتعلم تقنية “آي-جيه إي بي أيه” التنبؤ بما يوجد في الأجزاء المخفية من الصورة بطريقة تشبه الطريقة التي يتوقعها الناس.
وتتطلع “ميتا” لتطوير التقنية مستقبلا للعمل على تمكين المستخدم من التنبؤ بأماكن وأزمنة أحداث مستقبلية بعيدة المدى في مقطع فيديو من سياق قصير، وتكييف هذه التنبؤات على مستوى الأصوات أو النصوص المكتوبة، وفقا للشركة ذاتها.
وقالت الشركة إن “هذه الخطوة مهمة نحو تطبيق وتوسيع نطاق أساليب الإشراف الذاتي لتعلم نموذج عام للعالم”.
ما هي الفروقات عن التقنيات السابقة؟
وراهنا، تعتمد برامج الذكاء الاصطناعي التوليدي كـ “تشات جي بي تي” أو “بارد” الذي طورته غوغل، على نماذج لغوية مدربة على قواعد بيانات ضخمة لتتمكن من التنبؤ بالكلمة التي يُفترض أن تلي الأخرى حتى إنشاء مختلف أنواع النصوص (أطروحات، قصائد…).
وتعمل برامج بينها “دال-أيه” و”ميدجورني” استنادا إلى المبدأ نفسه لإنتاج صور.
وقال لوكون “إن ما جرى التوصل إليه هو ثورة أصلا”، مضيفا: “إذا جرى تدريب نموذج باستخدام ألف أو ألفي مليار رمز، فسيبدو أنه قادر على الفهم، لكنه في الواقع يرتكب أخطاء غبية أو منطقية”.
وأشارت “ميتا” في بيان إلى أن “الأساليب التوليدية تركز كثيرا على التفاصيل، بدل التقاط مفاهيم شاملة قابلة للتنبؤ بها”، وتواجه تالياً صعوبة في “إنشاء صور التقطها بشر بطريقة دقيقة”.
وأكد رئيس “ميتا”، مارك زاكربرغ، في صفحته الشخصية عبر فيسبوك، أن الهدف الكامن وراء هذه التقنية يتمثل في ابتكار تقنية للذكاء الاصطناعي “تعكس بصورة أفضل الطريقة التي يفهم البشر من خلالها العالم”.
وأشار لوكون إلى أن “النماذج التوليدية باتت من الماضي”، مردفا: “سنتخلى عنها لصالح تقنيات تنبؤية”، على غرار النموذج الذي عرضته المجموعة الأميركية.