ChatPaper.aiChatPaper

InstanceCap: Verbesserung der Text-zu-Video-Erzeugung durch instanzbewusste strukturierte Bildunterschrift

InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption

December 12, 2024
Autoren: Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Zhenheng Yang, Chaoyou Fu, Xiang Li, Jian Yang, Ying Tai
cs.AI

Zusammenfassung

Die Generierung von Text-zu-Video hat sich in den letzten Jahren rapide weiterentwickelt und beeindruckende Ergebnisse geliefert. Das Training basiert in der Regel auf Video-Untertitel-Paardaten, die eine entscheidende Rolle bei der Verbesserung der Generierungsleistung spielen. Allerdings leiden aktuelle Video-Untertitel häufig unter unzureichenden Details, Halluzinationen und ungenauer Bewegungsdarstellung, was die Treue und Konsistenz der generierten Videos beeinträchtigt. In dieser Arbeit schlagen wir ein neuartiges instanzbewusstes strukturiertes Untertitel-Framework namens InstanceCap vor, um erstmals eine instanzbasierte und feingliedrige Video-Untertitelung zu erreichen. Basierend auf diesem Schema entwerfen wir einen Hilfsmodelle-Cluster, um das ursprüngliche Video in Instanzen umzuwandeln und die Instanztreue zu verbessern. Video-Instanzen werden weiterhin verwendet, um dichte Anregungen in strukturierte Phrasen umzuwandeln, um prägnante und präzise Beschreibungen zu erreichen. Darüber hinaus wird ein 22K InstanceVid-Datensatz für das Training kuratiert und eine auf die InstanceCap-Struktur zugeschnittene Verbesserungspipeline für die Inferenz vorgeschlagen. Experimentelle Ergebnisse zeigen, dass unser vorgeschlagenes InstanceCap signifikant bessere Leistungen als frühere Modelle erbringt, eine hohe Treue zwischen Untertiteln und Videos gewährleistet und Halluzinationen reduziert.
English
Text-to-video generation has evolved rapidly in recent years, delivering remarkable results. Training typically relies on video-caption paired data, which plays a crucial role in enhancing generation performance. However, current video captions often suffer from insufficient details, hallucinations and imprecise motion depiction, affecting the fidelity and consistency of generated videos. In this work, we propose a novel instance-aware structured caption framework, termed InstanceCap, to achieve instance-level and fine-grained video caption for the first time. Based on this scheme, we design an auxiliary models cluster to convert original video into instances to enhance instance fidelity. Video instances are further used to refine dense prompts into structured phrases, achieving concise yet precise descriptions. Furthermore, a 22K InstanceVid dataset is curated for training, and an enhancement pipeline that tailored to InstanceCap structure is proposed for inference. Experimental results demonstrate that our proposed InstanceCap significantly outperform previous models, ensuring high fidelity between captions and videos while reducing hallucinations.

Summary

AI-Generated Summary

PDF193December 16, 2024