ChatPaper.aiChatPaper

Any2Caption: Interpretación de Cualquier Condición para Generación Controlada de Subtítulos en Videos

Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation

March 31, 2025
Autores: Shengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua
cs.AI

Resumen

Para abordar el cuello de botella en la interpretación precisa de la intención del usuario dentro de la comunidad actual de generación de videos, presentamos Any2Caption, un marco novedoso para la generación controlada de videos bajo cualquier condición. La idea clave es desacoplar los diversos pasos de interpretación de condiciones del paso de síntesis de video. Al aprovechar modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés), Any2Caption interpreta entradas diversas—texto, imágenes, videos y señales especializadas como regiones, movimiento y poses de cámara—en subtítulos densos y estructurados que ofrecen a los generadores de video una guía más efectiva. También presentamos Any2CapIns, un conjunto de datos a gran escala con 337K instancias y 407K condiciones para el ajuste de instrucciones de cualquier condición a subtítulo. Evaluaciones exhaustivas demuestran mejoras significativas de nuestro sistema en controlabilidad y calidad de video en varios aspectos de los modelos existentes de generación de videos. Página del proyecto: https://sqwu.top/Any2Cap/
English
To address the bottleneck of accurate user intent interpretation within the current video generation community, we present Any2Caption, a novel framework for controllable video generation under any condition. The key idea is to decouple various condition interpretation steps from the video synthesis step. By leveraging modern multimodal large language models (MLLMs), Any2Caption interprets diverse inputs--text, images, videos, and specialized cues such as region, motion, and camera poses--into dense, structured captions that offer backbone video generators with better guidance. We also introduce Any2CapIns, a large-scale dataset with 337K instances and 407K conditions for any-condition-to-caption instruction tuning. Comprehensive evaluations demonstrate significant improvements of our system in controllability and video quality across various aspects of existing video generation models. Project Page: https://sqwu.top/Any2Cap/

Summary

AI-Generated Summary

PDF764April 2, 2025