Any2Caption : Interpréter toute condition en légende pour une génération vidéo contrôlable
Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation
March 31, 2025
Auteurs: Shengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua
cs.AI
Résumé
Pour résoudre le goulot d'étranglement lié à l'interprétation précise de l'intention de l'utilisateur au sein de la communauté actuelle de génération vidéo, nous présentons Any2Caption, un cadre novateur pour la génération vidéo contrôlable sous n'importe quelle condition. L'idée clé est de découpler les différentes étapes d'interprétation des conditions de l'étape de synthèse vidéo. En exploitant les modèles de langage multimodaux de grande envergure (MLLMs), Any2Caption interprète des entrées variées—texte, images, vidéos et indices spécialisés tels que les régions, les mouvements et les poses de caméra—en légendes denses et structurées qui offrent aux générateurs vidéo de base une meilleure guidance. Nous introduisons également Any2CapIns, un jeu de données à grande échelle comprenant 337K instances et 407K conditions pour l'ajustement d'instructions de toute-condition-à-légende. Des évaluations approfondies démontrent des améliorations significatives de notre système en termes de contrôlabilité et de qualité vidéo sur divers aspects des modèles existants de génération vidéo. Page du projet : https://sqwu.top/Any2Cap/
English
To address the bottleneck of accurate user intent interpretation within the
current video generation community, we present Any2Caption, a novel framework
for controllable video generation under any condition. The key idea is to
decouple various condition interpretation steps from the video synthesis step.
By leveraging modern multimodal large language models (MLLMs), Any2Caption
interprets diverse inputs--text, images, videos, and specialized cues such as
region, motion, and camera poses--into dense, structured captions that offer
backbone video generators with better guidance. We also introduce Any2CapIns, a
large-scale dataset with 337K instances and 407K conditions for
any-condition-to-caption instruction tuning. Comprehensive evaluations
demonstrate significant improvements of our system in controllability and video
quality across various aspects of existing video generation models. Project
Page: https://sqwu.top/Any2Cap/Summary
AI-Generated Summary