Any2Caption: Interpretando Qualquer Condição para Legenda na Geração Controlável de Vídeo
Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation
March 31, 2025
Autores: Shengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua
cs.AI
Resumo
Para abordar o gargalo da interpretação precisa da intenção do usuário na
comunidade atual de geração de vídeos, apresentamos o Any2Caption, uma nova
estrutura para geração controlada de vídeos sob qualquer condição. A ideia
principal é desacoplar várias etapas de interpretação de condições da etapa de
síntese de vídeo. Ao aproveitar modelos modernos de linguagem multimodal de
grande escala (MLLMs), o Any2Caption interpreta diversas entradas--texto,
imagens, vídeos e sinais especializados como região, movimento e poses de
câmera--em legendas densas e estruturadas que oferecem orientação mais eficaz
aos geradores de vídeo principais. Também introduzimos o Any2CapIns, um conjunto
de dados em larga escala com 337K instâncias e 407K condições para ajuste de
instruções de qualquer-condição-para-legenda. Avaliações abrangentes demonstram
melhorias significativas do nosso sistema em termos de controlabilidade e
qualidade de vídeo em vários aspectos dos modelos existentes de geração de
vídeo. Página do Projeto: https://sqwu.top/Any2Cap/
English
To address the bottleneck of accurate user intent interpretation within the
current video generation community, we present Any2Caption, a novel framework
for controllable video generation under any condition. The key idea is to
decouple various condition interpretation steps from the video synthesis step.
By leveraging modern multimodal large language models (MLLMs), Any2Caption
interprets diverse inputs--text, images, videos, and specialized cues such as
region, motion, and camera poses--into dense, structured captions that offer
backbone video generators with better guidance. We also introduce Any2CapIns, a
large-scale dataset with 337K instances and 407K conditions for
any-condition-to-caption instruction tuning. Comprehensive evaluations
demonstrate significant improvements of our system in controllability and video
quality across various aspects of existing video generation models. Project
Page: https://sqwu.top/Any2Cap/Summary
AI-Generated Summary