ChatPaper.aiChatPaper

Any2Caption: Interpretation beliebiger Bedingungen zu Beschriftungen für kontrollierbare Videogenerierung

Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation

March 31, 2025
Autoren: Shengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua
cs.AI

Zusammenfassung

Um den Engpass bei der präzisen Interpretation von Benutzerabsichten in der aktuellen Videogenerierungs-Community zu beheben, präsentieren wir Any2Caption, ein neuartiges Framework für kontrollierbare Videogenerierung unter beliebigen Bedingungen. Der Kernansatz besteht darin, verschiedene Schritte der Bedingungsinterpretation vom Schritt der Videosynthese zu entkoppeln. Durch die Nutzung moderner multimodaler großer Sprachmodelle (MLLMs) interpretiert Any2Caption diverse Eingaben – Text, Bilder, Videos und spezialisierte Hinweise wie Regionen, Bewegungen und Kameraposen – in dichte, strukturierte Beschreibungen, die den zugrunde liegenden Videogeneratoren eine bessere Anleitung bieten. Wir stellen auch Any2CapIns vor, einen umfangreichen Datensatz mit 337.000 Instanzen und 407.000 Bedingungen für die Feinabstimmung von Anweisungen zur Beschreibung unter beliebigen Bedingungen. Umfassende Evaluierungen zeigen signifikante Verbesserungen unseres Systems in Bezug auf Kontrollierbarkeit und Videoqualität in verschiedenen Aspekten bestehender Videogenerierungsmodelle. Projektseite: https://sqwu.top/Any2Cap/
English
To address the bottleneck of accurate user intent interpretation within the current video generation community, we present Any2Caption, a novel framework for controllable video generation under any condition. The key idea is to decouple various condition interpretation steps from the video synthesis step. By leveraging modern multimodal large language models (MLLMs), Any2Caption interprets diverse inputs--text, images, videos, and specialized cues such as region, motion, and camera poses--into dense, structured captions that offer backbone video generators with better guidance. We also introduce Any2CapIns, a large-scale dataset with 337K instances and 407K conditions for any-condition-to-caption instruction tuning. Comprehensive evaluations demonstrate significant improvements of our system in controllability and video quality across various aspects of existing video generation models. Project Page: https://sqwu.top/Any2Cap/

Summary

AI-Generated Summary

PDF764April 2, 2025