InstanceCap: Mejorando la Generación de Texto a Video a través de Subtítulos Estructurados Conscientes de la Instancia
InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption
December 12, 2024
Autores: Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Zhenheng Yang, Chaoyou Fu, Xiang Li, Jian Yang, Ying Tai
cs.AI
Resumen
La generación de video a partir de texto ha evolucionado rápidamente en los últimos años, ofreciendo resultados notables. El entrenamiento suele basarse en datos emparejados de subtítulos de video, lo cual desempeña un papel crucial en mejorar el rendimiento de generación. Sin embargo, los subtítulos de video actuales a menudo adolecen de detalles insuficientes, alucinaciones y representaciones imprecisas del movimiento, lo que afecta la fidelidad y consistencia de los videos generados. En este trabajo, proponemos un nuevo marco de subtítulos estructurados conscientes de la instancia, denominado InstanceCap, para lograr por primera vez subtítulos de video a nivel de instancia y detallados. Basándonos en este esquema, diseñamos un grupo de modelos auxiliares para convertir el video original en instancias y mejorar la fidelidad de las instancias. Las instancias de video se utilizan además para refinar las indicaciones densas en frases estructuradas, logrando descripciones concisas pero precisas. Además, se ha creado un conjunto de datos de 22K instancias de video para el entrenamiento, y se propone un proceso de mejora adaptado a la estructura de InstanceCap para la inferencia. Los resultados experimentales demuestran que nuestro InstanceCap propuesto supera significativamente a modelos anteriores, garantizando una alta fidelidad entre los subtítulos y los videos al tiempo que reduce las alucinaciones.
English
Text-to-video generation has evolved rapidly in recent years, delivering
remarkable results. Training typically relies on video-caption paired data,
which plays a crucial role in enhancing generation performance. However,
current video captions often suffer from insufficient details, hallucinations
and imprecise motion depiction, affecting the fidelity and consistency of
generated videos. In this work, we propose a novel instance-aware structured
caption framework, termed InstanceCap, to achieve instance-level and
fine-grained video caption for the first time. Based on this scheme, we design
an auxiliary models cluster to convert original video into instances to enhance
instance fidelity. Video instances are further used to refine dense prompts
into structured phrases, achieving concise yet precise descriptions.
Furthermore, a 22K InstanceVid dataset is curated for training, and an
enhancement pipeline that tailored to InstanceCap structure is proposed for
inference. Experimental results demonstrate that our proposed InstanceCap
significantly outperform previous models, ensuring high fidelity between
captions and videos while reducing hallucinations.Summary
AI-Generated Summary