Any2Caption: Elke Voorwaarde Interpreteren naar Bijschrift voor Beheersbare Videogeneratie
Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation
March 31, 2025
Auteurs: Shengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua
cs.AI
Samenvatting
Om het knelpunt van nauwkeurige interpretatie van gebruikersintentie binnen de huidige videogeneratiegemeenschap aan te pakken, presenteren we Any2Caption, een nieuw raamwerk voor controleerbare videogeneratie onder elke conditie. Het kernidee is om verschillende stappen van conditie-interpretatie te ontkoppelen van de stap van videosynthese. Door gebruik te maken van moderne multimodale grote taalmodellen (MLLMs), interpreteert Any2Caption diverse invoer--tekst, afbeeldingen, video's en gespecialiseerde signalen zoals regio, beweging en cameraposities--in dichte, gestructureerde bijschriften die backbone-videogeneratoren betere begeleiding bieden. We introduceren ook Any2CapIns, een grootschalige dataset met 337K instanties en 407K condities voor instructieafstemming van elke-conditie-naar-bijschrift. Uitgebreide evaluaties tonen significante verbeteringen van ons systeem aan in controleerbaarheid en videokwaliteit op verschillende aspecten van bestaande videogeneratiemodellen. Projectpagina: https://sqwu.top/Any2Cap/
English
To address the bottleneck of accurate user intent interpretation within the
current video generation community, we present Any2Caption, a novel framework
for controllable video generation under any condition. The key idea is to
decouple various condition interpretation steps from the video synthesis step.
By leveraging modern multimodal large language models (MLLMs), Any2Caption
interprets diverse inputs--text, images, videos, and specialized cues such as
region, motion, and camera poses--into dense, structured captions that offer
backbone video generators with better guidance. We also introduce Any2CapIns, a
large-scale dataset with 337K instances and 407K conditions for
any-condition-to-caption instruction tuning. Comprehensive evaluations
demonstrate significant improvements of our system in controllability and video
quality across various aspects of existing video generation models. Project
Page: https://sqwu.top/Any2Cap/Summary
AI-Generated Summary