ChatPaper.aiChatPaper

Any2Caption: Elke Voorwaarde Interpreteren naar Bijschrift voor Beheersbare Videogeneratie

Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation

March 31, 2025
Auteurs: Shengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua
cs.AI

Samenvatting

Om het knelpunt van nauwkeurige interpretatie van gebruikersintentie binnen de huidige videogeneratiegemeenschap aan te pakken, presenteren we Any2Caption, een nieuw raamwerk voor controleerbare videogeneratie onder elke conditie. Het kernidee is om verschillende stappen van conditie-interpretatie te ontkoppelen van de stap van videosynthese. Door gebruik te maken van moderne multimodale grote taalmodellen (MLLMs), interpreteert Any2Caption diverse invoer--tekst, afbeeldingen, video's en gespecialiseerde signalen zoals regio, beweging en cameraposities--in dichte, gestructureerde bijschriften die backbone-videogeneratoren betere begeleiding bieden. We introduceren ook Any2CapIns, een grootschalige dataset met 337K instanties en 407K condities voor instructieafstemming van elke-conditie-naar-bijschrift. Uitgebreide evaluaties tonen significante verbeteringen van ons systeem aan in controleerbaarheid en videokwaliteit op verschillende aspecten van bestaande videogeneratiemodellen. Projectpagina: https://sqwu.top/Any2Cap/
English
To address the bottleneck of accurate user intent interpretation within the current video generation community, we present Any2Caption, a novel framework for controllable video generation under any condition. The key idea is to decouple various condition interpretation steps from the video synthesis step. By leveraging modern multimodal large language models (MLLMs), Any2Caption interprets diverse inputs--text, images, videos, and specialized cues such as region, motion, and camera poses--into dense, structured captions that offer backbone video generators with better guidance. We also introduce Any2CapIns, a large-scale dataset with 337K instances and 407K conditions for any-condition-to-caption instruction tuning. Comprehensive evaluations demonstrate significant improvements of our system in controllability and video quality across various aspects of existing video generation models. Project Page: https://sqwu.top/Any2Cap/

Summary

AI-Generated Summary

PDF764April 2, 2025