ChatPaper.aiChatPaper

InstanceCap : Amélioration de la génération de texte vers vidéo via des légendes structurées conscientes des instances

InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption

December 12, 2024
Auteurs: Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Zhenheng Yang, Chaoyou Fu, Xiang Li, Jian Yang, Ying Tai
cs.AI

Résumé

La génération de vidéos à partir de texte a évolué rapidement ces dernières années, offrant des résultats remarquables. L'entraînement repose généralement sur des données appariées texte-vidéo, qui jouent un rôle crucial dans l'amélioration des performances de génération. Cependant, les légendes vidéo actuelles souffrent souvent de détails insuffisants, d'hallucinations et d'une représentation des mouvements imprécise, ce qui affecte la fidélité et la cohérence des vidéos générées. Dans ce travail, nous proposons un nouveau cadre de légendes structurées conscient des instances, appelé InstanceCap, pour parvenir pour la première fois à des légendes vidéo au niveau de l'instance et détaillées. Sur la base de ce schéma, nous concevons un cluster de modèles auxiliaires pour convertir la vidéo d'origine en instances afin d'améliorer la fidélité des instances. Les instances vidéo sont ensuite utilisées pour affiner des indications denses en phrases structurées, permettant d'obtenir des descriptions concises mais précises. De plus, un ensemble de données InstanceVid de 22K est élaboré pour l'entraînement, et un pipeline d'amélioration adapté à la structure d'InstanceCap est proposé pour l'inférence. Les résultats expérimentaux démontrent que notre InstanceCap proposé surpasse significativement les modèles précédents, garantissant une grande fidélité entre les légendes et les vidéos tout en réduisant les hallucinations.
English
Text-to-video generation has evolved rapidly in recent years, delivering remarkable results. Training typically relies on video-caption paired data, which plays a crucial role in enhancing generation performance. However, current video captions often suffer from insufficient details, hallucinations and imprecise motion depiction, affecting the fidelity and consistency of generated videos. In this work, we propose a novel instance-aware structured caption framework, termed InstanceCap, to achieve instance-level and fine-grained video caption for the first time. Based on this scheme, we design an auxiliary models cluster to convert original video into instances to enhance instance fidelity. Video instances are further used to refine dense prompts into structured phrases, achieving concise yet precise descriptions. Furthermore, a 22K InstanceVid dataset is curated for training, and an enhancement pipeline that tailored to InstanceCap structure is proposed for inference. Experimental results demonstrate that our proposed InstanceCap significantly outperform previous models, ensuring high fidelity between captions and videos while reducing hallucinations.

Summary

AI-Generated Summary

PDF193December 16, 2024