ChatPaper.aiChatPaper

Any2Caption : Interpréter toute condition en légende pour une génération vidéo contrôlable

Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation

March 31, 2025
Auteurs: Shengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua
cs.AI

Résumé

Pour résoudre le goulot d'étranglement lié à l'interprétation précise de l'intention de l'utilisateur au sein de la communauté actuelle de génération vidéo, nous présentons Any2Caption, un cadre novateur pour la génération vidéo contrôlable sous n'importe quelle condition. L'idée clé est de découpler les différentes étapes d'interprétation des conditions de l'étape de synthèse vidéo. En exploitant les modèles de langage multimodaux de grande envergure (MLLMs), Any2Caption interprète des entrées variées—texte, images, vidéos et indices spécialisés tels que les régions, les mouvements et les poses de caméra—en légendes denses et structurées qui offrent aux générateurs vidéo de base une meilleure guidance. Nous introduisons également Any2CapIns, un jeu de données à grande échelle comprenant 337K instances et 407K conditions pour l'ajustement d'instructions de toute-condition-à-légende. Des évaluations approfondies démontrent des améliorations significatives de notre système en termes de contrôlabilité et de qualité vidéo sur divers aspects des modèles existants de génération vidéo. Page du projet : https://sqwu.top/Any2Cap/
English
To address the bottleneck of accurate user intent interpretation within the current video generation community, we present Any2Caption, a novel framework for controllable video generation under any condition. The key idea is to decouple various condition interpretation steps from the video synthesis step. By leveraging modern multimodal large language models (MLLMs), Any2Caption interprets diverse inputs--text, images, videos, and specialized cues such as region, motion, and camera poses--into dense, structured captions that offer backbone video generators with better guidance. We also introduce Any2CapIns, a large-scale dataset with 337K instances and 407K conditions for any-condition-to-caption instruction tuning. Comprehensive evaluations demonstrate significant improvements of our system in controllability and video quality across various aspects of existing video generation models. Project Page: https://sqwu.top/Any2Cap/

Summary

AI-Generated Summary

PDF764April 2, 2025