Тестируем современные генераторы видео на примере «Бобика и Барбоса»

В последние месяцы мир технологий просто взорвался новыми обновлениями в сфере искусственного интеллекта. На этот раз на повестке дня — генераторы видео, работающие на основе глубокого обучения. Мы решили провести эксперимент, чтобы выяснить, какая из современных технологий анимации лучше справляется с задачами создания видео: Wan 2.5 от Alibaba, Sora 2 от Open AI и нашумевшая VEO 3.

Что нового в версиях?

Каждый из перечисленных генераторов прекрасен по-своему, и все они претендуют на звание лучшего в своей категории.

Wan 2.5 от Alibaba — это версия, которая подтягивает свои возможности и улучшает интерфейсы работы, углубляя понимание контекста и создавая более детализированную анимацию. Эта модель славится своей точностью в создании анимационных изображений и визуальных эффектов.
Sora 2 от Open AI — ещё одна мощная модель, которая обещает невероятные результаты, в частности в области озвучивания и адаптации персонажей под различные языковые и культурные контексты. Система может работать с множеством акцентов и улучшенной передачей эмоций.
VEO 3 — это третий вариант последовательно развивающейся модели, которая много раз обкатывалась в различных проектах и проектах с личными образами и юмором. При этом она претендует на создание более плавной анимации и реалистичного движения персонажей.

Мы решили проверить, какая из этих моделей наилучшим образом справится с поставленной задачей. Для этого выбрали сцену из известной книги Н. Носова «Бобик и Барбос».

Эксперимент: шаг за шагом

Наш эксперимент был построен по следующему сценарию:

Выбор сцены. Мы решили взять первую часть известного диалога между двумя собаками — Бобиком и Барбосом, что делает сцену легко воспринятой и запоминающейся.
Создание изображения. Используя стилистику Pixar, мы разработали персонажи с помощью бота @GPT4AgentsBot, чтобы получить качественную графику в 3D-формате. Важно, чтобы зритель мог увидеть персонажей так, как их себе представляли создатели.
Анимация. Основной этап — анимация созданных образов с использованием следующих генераторов:
- VEO 3
- Sora 2
- Wan 2.5

Аниматору был предоставлен следующий промпт для работы:

Анимируй сцену с двумя мультяшными собаками в стиле 3D-анимации Pixar. Используй прикреплённое изображение как основной референс персонажей. Сохрани реалистичное движение ртов и эмоции. Камера статична, общий план на обеих собаках, мягкий свет в комнате. Без субтитров. Диалог двух персонажей на русском языке:  
Маленькая черно-белая собака говорит: «Тебе хорошо живётся! У тебя всё есть!» Большая лохматая собака лениво отвечает: «Ага, хочу — на кровати валяюсь» Маленькая черно-белая собака удивлённо и со страхом спрашивает: «А дедушка...?»  
Большая лохматая собака очень медленно и лениво отвечает, указывая лапой в сторону: «Дедушка...? Там... На коврике!»

Первые результаты

После того, как мы анимировали сцену с использованием всех трёх генераторов, мы столкнулись с интересными впечатлениями:

VEO 3 выступила очень достойно, предоставляя отличную анимацию и достаточно правильную озвучку. Также, было замечено, что сценарий отобразился именно так, как мы его задумали: с передачей всех эмоций и интонаций, что важно для создания комедийного эффекта.
Sora 2 показала лучший результат в плане озвучивания, а её возможности по передаче оттенков эмоций на лице персонажей прямо удивили многих экспертов, сомневающихся в способности ИИ к такому.
Wan 2.5, несмотря на значительное развитие с предыдущей версией, заметно отставала. Анимация персонажей была менее естественна, а обаятельный момент сценки потерялся из-за недостаточно точной передачи движений и интонации.

Погружение в будущее анимации

Наша команда пересмотрела полученные материалы и пришла к выводу, что технологии ИИ быстро развиваются, и на фоне этих улучшений кажется, что в ближайшие годы мы увидим синергию между традиционными аниматорами и современными генераторами видео. Правильно поставленные задачи и критерии оценки помогут использовать их как инструменты, а не как соперников.

При всей многообещающей надежде на ИИ в анимации важно помнить, что человеческое творчество все ещё занимает ключевую роль. Современные аниматоры могут использовать результаты работы ИИ для более быстрого создания контента, сохраняя при этом свою уникальность и индивидуальность в каждой работе.

Заключение

Завершая, хочется отметить, что внедрение ИИ в анимационную сферу несомненно — это шаг к новому уровню креативности и искусства. В этой сфере мы действительно можем ожидать много интересного! Проведя наш эксперимент, мы задались вопросом: когда же всё-таки искусственный интеллект может вытеснить художников из анимации?

❤️ — через 3 года
🔥 — через 5 лет
👍 — этого не будет

Какие ваши мысли по этому поводу? И как вы считаете, будет ли мир анимации разительно изменён новыми технологиями?