Any2Caption: Интерпретация любых условий в подписи для управляемой генерации видео
Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation
March 31, 2025
Авторы: Shengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua
cs.AI
Аннотация
Для решения проблемы точного интерпретирования пользовательских намерений в современном сообществе генерации видео мы представляем Any2Caption — новую структуру для управляемой генерации видео при любых условиях. Основная идея заключается в разделении различных этапов интерпретации условий от этапа синтеза видео. Используя современные мультимодальные большие языковые модели (MLLMs), Any2Caption интерпретирует разнообразные входные данные — текст, изображения, видео и специализированные сигналы, такие как регион, движение и позиции камеры — в плотные, структурированные описания, которые предоставляют основным генераторам видео более точные указания. Мы также представляем Any2CapIns — крупномасштабный набор данных, содержащий 337 тысяч экземпляров и 407 тысяч условий для настройки инструкций по преобразованию любых условий в описания. Комплексные оценки демонстрируют значительные улучшения нашей системы в управляемости и качестве видео по различным аспектам существующих моделей генерации видео. Страница проекта: https://sqwu.top/Any2Cap/
English
To address the bottleneck of accurate user intent interpretation within the
current video generation community, we present Any2Caption, a novel framework
for controllable video generation under any condition. The key idea is to
decouple various condition interpretation steps from the video synthesis step.
By leveraging modern multimodal large language models (MLLMs), Any2Caption
interprets diverse inputs--text, images, videos, and specialized cues such as
region, motion, and camera poses--into dense, structured captions that offer
backbone video generators with better guidance. We also introduce Any2CapIns, a
large-scale dataset with 337K instances and 407K conditions for
any-condition-to-caption instruction tuning. Comprehensive evaluations
demonstrate significant improvements of our system in controllability and video
quality across various aspects of existing video generation models. Project
Page: https://sqwu.top/Any2Cap/