Any2Caption: Interpretación de Cualquier Condición para Generación Controlada de Subtítulos en Videos
Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation
March 31, 2025
Autores: Shengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua
cs.AI
Resumen
Para abordar el cuello de botella en la interpretación precisa de la intención del usuario dentro de la comunidad actual de generación de videos, presentamos Any2Caption, un marco novedoso para la generación controlada de videos bajo cualquier condición. La idea clave es desacoplar los diversos pasos de interpretación de condiciones del paso de síntesis de video. Al aprovechar modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés), Any2Caption interpreta entradas diversas—texto, imágenes, videos y señales especializadas como regiones, movimiento y poses de cámara—en subtítulos densos y estructurados que ofrecen a los generadores de video una guía más efectiva. También presentamos Any2CapIns, un conjunto de datos a gran escala con 337K instancias y 407K condiciones para el ajuste de instrucciones de cualquier condición a subtítulo. Evaluaciones exhaustivas demuestran mejoras significativas de nuestro sistema en controlabilidad y calidad de video en varios aspectos de los modelos existentes de generación de videos. Página del proyecto: https://sqwu.top/Any2Cap/
English
To address the bottleneck of accurate user intent interpretation within the
current video generation community, we present Any2Caption, a novel framework
for controllable video generation under any condition. The key idea is to
decouple various condition interpretation steps from the video synthesis step.
By leveraging modern multimodal large language models (MLLMs), Any2Caption
interprets diverse inputs--text, images, videos, and specialized cues such as
region, motion, and camera poses--into dense, structured captions that offer
backbone video generators with better guidance. We also introduce Any2CapIns, a
large-scale dataset with 337K instances and 407K conditions for
any-condition-to-caption instruction tuning. Comprehensive evaluations
demonstrate significant improvements of our system in controllability and video
quality across various aspects of existing video generation models. Project
Page: https://sqwu.top/Any2Cap/Summary
AI-Generated Summary