ما هو Gemini Omni AI؟ شرح نموذج الفيديو من Google متعدد المدخلات

Gemini Omni AI هي عائلة نماذج جديدة متعددة الوسائط من Google، أُعلن عنها في Google I/O 2026. أول نموذج في هذه العائلة هو Gemini Omni Flash، وهو موجه في البداية إلى إنشاء الفيديو وتحريره اعتمادًا على أنواع متعددة من المدخلات: النصوص، الصور، الفيديو، والصوت.

لذلك لا يمكن النظر إلى Gemini Omni بوصفه مجرد نموذج آخر لتحويل النص إلى فيديو. تقدم Google هذا النموذج كمسار عمل إبداعي يجمع بين قدرة Gemini على الاستدلال، ومعرفته بالعالم الحقيقي، وتقنيات توليد الوسائط. بدلًا من كتابة prompt واحد وانتظار النتيجة ثم البدء من جديد إذا لم تكن مناسبة، يستطيع المستخدم بناء الفيديو خطوة بخطوة، ثم متابعة تعديله عبر محادثة طبيعية.

بالنسبة إلى صناع المحتوى، وفرق التسويق، والمعلمين، ومستخدمي فيديو الذكاء الاصطناعي، السؤال الأهم ليس فقط: هل يستطيع Gemini Omni إنشاء فيديو واقعي؟ السؤال الأكبر هو: هل يستطيع جعل إنشاء الفيديو بالذكاء الاصطناعي أكثر قابلية للتحكم، وأكثر قابلية للتعديل المتكرر، وأقل اعتمادًا على الحظ؟

ما هو Gemini Omni AI؟

Gemini Omni AI هي عائلة نماذج جديدة من Google قادرة على إنشاء محتوى من أنواع مختلفة من المدخلات. تصف Google نموذج Omni بأنه نظام قادر على الإنشاء من أي مدخل، بدءًا بالفيديو. عمليًا، يمكن للمستخدم أن يقدم prompt نصيًا، أو صورة مرجعية، أو فيديو موجودًا، أو صوتًا، أو مزيجًا من هذه المواد، ثم يطلب من Gemini Omni إنشاء فيديو متماسك.

أول نموذج في العائلة هو Gemini Omni Flash. تقول Google إنه بدأ بالوصول إلى مشتركي Google AI Plus وPro وUltra عبر تطبيق Gemini وGoogle Flow. كما بدأ طرحه لمستخدمي YouTube Shorts وYouTube Create. أما الوصول عبر API للمطورين والشركات فمن المتوقع أن يتاح خلال الأسابيع المقبلة.

اسم “Omni” مهم لأن النموذج لا يعتمد على نوع واحد من المدخلات. كثير من أدوات فيديو الذكاء الاصطناعي تعمل أساسًا كنظام نص إلى فيديو أو صورة إلى فيديو. Gemini Omni مصمم لمسار عمل أوسع: اجمع المراجع، اشرح النتيجة التي تريدها، ودع النموذج يفهم العلاقة بين هذه المدخلات.

ماذا يستطيع Gemini Omni Flash أن يفعل؟

Gemini Omni Flash يبدأ من الفيديو. بحسب إعلان Google ومواد DeepMind، تشمل قدراته الأساسية:

إنشاء فيديو من prompts نصية؛
استخدام الصور كمراجع للشخصيات، المنتجات، البيئات أو الأسلوب البصري؛
استخدام الفيديو كمصدر للحركة، حركة الكاميرا، الفعل أو بنية المشهد؛
استخدام الصوت كمرجع للإيقاع أو المؤثرات الصوتية؛
تحرير فيديو موجود بتعليمات مكتوبة بلغة طبيعية؛
الحفاظ على سياق المشهد عبر عدة جولات من التعديل؛
تغيير العناصر، الشخصيات، زوايا الكاميرا، الإضاءة، الأسلوب والحركة؛
الاستفادة من معرفة Gemini بالفيزياء، العلوم، التاريخ والثقافة أثناء إنشاء الفيديو.

أهم نقطة هنا هي التحرير التكراري. كثير من نماذج فيديو الذكاء الاصطناعي تستطيع إنتاج نتيجة أولى مثيرة للإعجاب، لكن مسار العمل يصبح صعبًا عندما تحتاج إلى تعديلات. إعادة التوليد قد تصلح مشكلة واحدة، لكنها قد تفقد الأجزاء التي كانت جيدة بالفعل. Gemini Omni مصمم ليجعل كل تعليمات جديدة تُبنى على النتيجة السابقة، وهذا أقرب إلى طريقة العمل الإبداعي الحقيقية.

لماذا Gemini Omni مهم؟

تحسن فيديو الذكاء الاصطناعي بسرعة، لكن عملية الإنتاج لا تزال صعبة. غالبًا ما يحتاج المستخدم إلى كتابة prompt طويل، وتشغيل عدة محاولات، ومقارنة النتائج، وقبول قدر كبير من العشوائية. هذا مناسب للتجربة، لكنه مزعج عندما يكون الهدف إنشاء فيديو قابل للاستخدام.

أهمية Gemini Omni أنه ينقل التركيز من “التوليد لمرة واحدة” إلى “الإنشاء القابل للتحكم”.

قد يرغب صانع فيديوهات قصيرة في تحويل مقطع مصور بالهاتف إلى فيديو أكثر أسلوبية مع الحفاظ على الحركة الأصلية. وقد يحتاج فريق تسويق إلى فيديو منتج يبقى فيه المنتج ثابتًا بينما يتغير الخلفية أو زاوية الكاميرا أو الإضاءة. وقد يحتاج معلم إلى شرح بصري لمفهوم معقد مثل طي البروتين أو الحوسبة الكمومية. وقد يرغب مخرج في اختبار مشهد أو حركة كاميرا أو أسلوب بصري قبل الإنتاج الكامل.

في كل هذه الحالات، النسخة الأولى ليست النهاية. القيمة الحقيقية هي القدرة على المراجعة والتعديل.

Gemini Omni و Veo: هل هما الشيء نفسه؟

Gemini Omni وVeo مرتبطان، لكن لا ينبغي التعامل معهما كمنتج واحد.

Veo هي عائلة نماذج توليد الفيديو المعروفة من Google DeepMind. في الإصدارات الأخيرة، ركزت Veo على جودة سينمائية، الالتزام بالـ prompt، الواقعية، وتوليد الصوت الأصلي. كما استخدمت Google Flow، وهي أداة صناعة الأفلام بالذكاء الاصطناعي من Google، قدرات Veo كجزء مهم من مسار إنشاء الفيديو.

أما Gemini Omni فيمثل طبقة أخرى في استراتيجية الفيديو لدى Google. إنه يقرب إنشاء الفيديو من منظومة Gemini، ويركز على الاستدلال متعدد الوسائط، والمراجع، والتحرير بالمحادثة. ببساطة: Veo هي خط نماذج الفيديو القائم، بينما Gemini Omni هي عائلة إنشاء جديدة مدمجة مع Gemini وتبدأ بالفيديو.

هذا لا يعني أن Veo انتهت. لا تزال Google تقدم Veo كواحدة من نماذجها الرائدة لتوليد الفيديو. التفسير الأدق هو أن Gemini Omni يغير تجربة المستخدم حول فيديو الذكاء الاصطناعي. بدل التفكير فقط في النص إلى فيديو، يمكن للمستخدم العمل مع prompts، صور، فيديو، صوت، ومحادثة مستمرة داخل مساحة إبداعية واحدة.

لمن يبحث عن “Veo 4”، قد يكون Gemini Omni الاسم الأهم الذي يجب متابعته. قصة Google القادمة في الفيديو لا تبدو مجرد تحديث رقمي لـ Veo، بل انتقالًا نحو إنشاء فيديو من أي مدخل وبطريقة تقودها المحادثة.

ما الذي يميز Gemini Omni عن نماذج الفيديو الأخرى؟

تتنافس معظم نماذج فيديو الذكاء الاصطناعي على الواقعية، جودة الحركة، فهم الـ prompt، والسرعة. يجب تقييم Gemini Omni بهذه المعايير أيضًا، لكن الفارق الأكثر إثارة للاهتمام هو مسار العمل.

أولًا، يقبل Gemini Omni أنواعًا متعددة من المدخلات. لا يحتاج المستخدم إلى شرح كل قرار إبداعي بالنص فقط. يمكن للصورة أن تحدد شخصية أو منتجًا. ويمكن للفيديو أن يحدد الحركة. ويمكن للصوت أن يحدد الإيقاع. ويمكن للنص أن يحدد الهدف.

ثانيًا، يدعم Gemini Omni التحرير بالمحادثة. يستطيع المستخدم طلب تغيير الخلفية، تعديل زاوية الكاميرا، استبدال عنصر، أو تطبيق أسلوب جديد دون إعادة كتابة الـ prompt كاملًا، مع الحفاظ على تماسك بقية الفيديو.

ثالثًا، يستخدم Gemini Omni معرفة Gemini بالعالم. تقول Google إن النموذج مصمم للاستدلال حول الفيزياء، التاريخ، العلوم والسياق الثقافي. هذا مهم للمشاهد التي يجب أن تكون منطقية، وليس فقط جميلة بصريًا.

كيفية استخدام Gemini Omni

Gemini Omni Flash يتم طرحه عبر تطبيق Gemini وGoogle Flow لمشتركي Google AI Plus وPro وUltra. تقول Google أيضًا إنه سيصبح متاحًا بدون تكلفة لمستخدمي YouTube Shorts وYouTube Create بدءًا من أسبوع الإعلان. أما API للمطورين والشركات فمن المتوقع أن يصل خلال الأسابيع المقبلة.

قد تختلف الإتاحة بحسب المنطقة، نوع الاشتراك، والمنتج المستخدم، لذلك قد لا يرى جميع المستخدمين الخيارات نفسها في الوقت نفسه.

مسار عمل Gemini Omni النموذجي يبدو كالتالي:

ابدأ بـ prompt نصي، صورة، فيديو أو مرجع صوتي.
صف الفيديو الذي تريد إنشاءه.
أنشئ النسخة الأولى.
تابع التحرير باستخدام تعليمات بلغة طبيعية.
عدّل حركة الكاميرا، الإضاءة، العناصر، الأسلوب، الإيقاع أو الصوت.
صدّر النتيجة أو انشرها بحسب المنتج الذي تستخدمه.

أفضل طريقة لفهم Gemini Omni ليست اعتباره زر “إنشاء” واحدًا، بل محادثة إبداعية يحسن فيها كل طلب الفيديو خطوة إضافية.

كيفية كتابة prompts أفضل لـ Gemini Omni

الـ prompt الجيد لـ Gemini Omni يصف الحركة، لا الشكل فقط. الفيديو يتغير مع الزمن، لذلك يجب أن يشرح prompt القوي ما الذي يحدث، كيف تتحرك الكاميرا، وما الذي يجب أن يبقى ثابتًا.

من الأفضل أن يتضمن prompt الموضوع، المكان، الفعل، توجيه الكاميرا، الإضاءة، الأسلوب البصري، المواد المرجعية والقيود. عند التحرير، كن واضحًا بشأن ما يجب تغييره وما يجب الحفاظ عليه. طلب مبهم مثل “اجعله أفضل” قد يؤدي إلى تغييرات غير مرغوبة. الأفضل أن تقول: “أبقِ الشخص والملابس وتخطيط الغرفة كما هي، لكن غيّر إضاءة الخلفية إلى إضاءة استوديو زرقاء ناعمة واجعل الكاميرا تقترب ببطء.”

هل استخدام Gemini Omni آمن؟

تقول Google إن الفيديوهات المنشأة باستخدام Gemini Omni تتضمن SynthID، وهي علامة مائية رقمية غير مرئية للمحتوى المنشأ بالذكاء الاصطناعي. كما توسع Google أدوات التحقق من المحتوى في Gemini وSearch وChrome، بما في ذلك دعم C2PA Content Credentials.

هذا مهم لأن فيديوهات الذكاء الاصطناعي عالية الجودة أصبحت أصعب في التمييز بالعين المجردة. العلامات المائية وبيانات المصدر تساعد المنصات، المبدعين والمشاهدين على فهم ما إذا كان الفيديو قد تم إنشاؤه أو تحريره بالذكاء الاصطناعي.

للاستخدام التجاري، يجب أن تكون الشفافية جزءًا من مسار العمل. إذا استُخدم فيديو مولد بالذكاء الاصطناعي في الإعلانات، الشبكات الاجتماعية، التعليم أو التواصل العام، فمن الأفضل أن تسجل الفرق كيف تم إنشاء المحتوى وتعديله.

Gemini Omni هو تحول في مسار العمل

الخطأ الأكبر هو النظر إلى Gemini Omni كأنه مجرد نموذج فيديو آخر. التحول الأهم هو في طريقة العمل.

يتحرك فيديو الذكاء الاصطناعي من “اكتب prompt وانتظر” إلى “أضف مراجع، أنشئ مسودة، ثم واصل التحرير بالمحادثة”. هذا أقرب إلى العمل الإبداعي الحقيقي. الفيديو المفيد نادرًا ما يظهر في خطوة واحدة؛ بل يتشكل عبر الاختيارات، التعليقات والتعديلات.

في الوقت الحالي، Gemini Omni Flash هو النموذج الذي يستحق المتابعة. يبدأ بالفيديو، لكن Google قالت إن عائلة Omni ستدعم أشكال إخراج أخرى مع الوقت. وهذا يعني أن Gemini Omni قد يصبح نظامًا إبداعيًا أوسع للفيديو، الصور، الصوت ووسائط أخرى.

باختصار: Gemini Omni ليس مجرد نموذج فيديو جديد من Google. إنه رهان Google على أن مستقبل الإبداع بالذكاء الاصطناعي سيكون متعدد الوسائط، قابلًا للتحرير، ومبنيًا على المحادثة.

ما هو Gemini Omni AI؟ شرح نموذج الفيديو من Google متعدد المدخلات

جدول المحتويات