ChatPaper.aiChatPaper

Any2Caption: Интерпретация любых условий в подписи для управляемой генерации видео

Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation

March 31, 2025
Авторы: Shengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua
cs.AI

Аннотация

Для решения проблемы точного интерпретирования пользовательских намерений в современном сообществе генерации видео мы представляем Any2Caption — новую структуру для управляемой генерации видео при любых условиях. Основная идея заключается в разделении различных этапов интерпретации условий от этапа синтеза видео. Используя современные мультимодальные большие языковые модели (MLLMs), Any2Caption интерпретирует разнообразные входные данные — текст, изображения, видео и специализированные сигналы, такие как регион, движение и позиции камеры — в плотные, структурированные описания, которые предоставляют основным генераторам видео более точные указания. Мы также представляем Any2CapIns — крупномасштабный набор данных, содержащий 337 тысяч экземпляров и 407 тысяч условий для настройки инструкций по преобразованию любых условий в описания. Комплексные оценки демонстрируют значительные улучшения нашей системы в управляемости и качестве видео по различным аспектам существующих моделей генерации видео. Страница проекта: https://sqwu.top/Any2Cap/
English
To address the bottleneck of accurate user intent interpretation within the current video generation community, we present Any2Caption, a novel framework for controllable video generation under any condition. The key idea is to decouple various condition interpretation steps from the video synthesis step. By leveraging modern multimodal large language models (MLLMs), Any2Caption interprets diverse inputs--text, images, videos, and specialized cues such as region, motion, and camera poses--into dense, structured captions that offer backbone video generators with better guidance. We also introduce Any2CapIns, a large-scale dataset with 337K instances and 407K conditions for any-condition-to-caption instruction tuning. Comprehensive evaluations demonstrate significant improvements of our system in controllability and video quality across various aspects of existing video generation models. Project Page: https://sqwu.top/Any2Cap/
PDF774April 2, 2025