ChatPaper.aiChatPaper

AnyI2V: Анимация любых условных изображений с управлением движением

AnyI2V: Animating Any Conditional Image with Motion Control

July 3, 2025
Авторы: Ziye Li, Hao Luo, Xincheng Shuai, Henghui Ding
cs.AI

Аннотация

Последние достижения в области генерации видео, особенно в моделях диффузии, способствовали значительному прогрессу в синтезе видео из текста (T2V) и из изображений (I2V). Однако остаются проблемы в эффективной интеграции динамических сигналов движения и гибких пространственных ограничений. Существующие методы T2V обычно полагаются на текстовые подсказки, которые по своей природе не обеспечивают точного контроля над пространственной компоновкой генерируемого контента. В свою очередь, методы I2V ограничены зависимостью от реальных изображений, что снижает редактируемость синтезированного контента. Хотя некоторые методы используют ControlNet для введения условий на основе изображений, они часто не обеспечивают явного контроля над движением и требуют дорогостоящих вычислительных ресурсов для обучения. Чтобы устранить эти ограничения, мы предлагаем AnyI2V — бесплатную для обучения платформу, которая анимирует любые условные изображения с заданными пользователем траекториями движения. AnyI2V поддерживает более широкий спектр модальностей в качестве условного изображения, включая типы данных, такие как сетки и облака точек, которые не поддерживаются ControlNet, что обеспечивает более гибкую и универсальную генерацию видео. Кроме того, она поддерживает смешанные условные входы и позволяет выполнять перенос стиля и редактирование с помощью LoRA и текстовых подсказок. Многочисленные эксперименты демонстрируют, что предложенный AnyI2V достигает превосходной производительности и открывает новые перспективы в управляемой пространственно-двигательной генерации видео. Код доступен по адресу https://henghuiding.com/AnyI2V/.
English
Recent advancements in video generation, particularly in diffusion models, have driven notable progress in text-to-video (T2V) and image-to-video (I2V) synthesis. However, challenges remain in effectively integrating dynamic motion signals and flexible spatial constraints. Existing T2V methods typically rely on text prompts, which inherently lack precise control over the spatial layout of generated content. In contrast, I2V methods are limited by their dependence on real images, which restricts the editability of the synthesized content. Although some methods incorporate ControlNet to introduce image-based conditioning, they often lack explicit motion control and require computationally expensive training. To address these limitations, we propose AnyI2V, a training-free framework that animates any conditional images with user-defined motion trajectories. AnyI2V supports a broader range of modalities as the conditional image, including data types such as meshes and point clouds that are not supported by ControlNet, enabling more flexible and versatile video generation. Additionally, it supports mixed conditional inputs and enables style transfer and editing via LoRA and text prompts. Extensive experiments demonstrate that the proposed AnyI2V achieves superior performance and provides a new perspective in spatial- and motion-controlled video generation. Code is available at https://henghuiding.com/AnyI2V/.
PDF81July 17, 2025