InstanceCap: Melhorando a Geração de Texto para Vídeo por meio de Legenda Estruturada Consciente da Instância
InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption
December 12, 2024
Autores: Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Zhenheng Yang, Chaoyou Fu, Xiang Li, Jian Yang, Ying Tai
cs.AI
Resumo
A geração de vídeo a partir de texto evoluiu rapidamente nos últimos anos, proporcionando resultados notáveis. O treinamento normalmente se baseia em dados em pares de vídeo-legenda, o que desempenha um papel crucial na melhoria do desempenho da geração. No entanto, as legendas de vídeo atuais frequentemente sofrem com detalhes insuficientes, alucinações e representações imprecisas de movimento, afetando a fidelidade e consistência dos vídeos gerados. Neste trabalho, propomos um novo framework de legenda estruturada consciente de instância, denominado InstanceCap, para alcançar pela primeira vez uma legenda de vídeo a nível de instância e refinada. Com base nesse esquema, projetamos um cluster de modelos auxiliares para converter o vídeo original em instâncias e aprimorar a fidelidade da instância. As instâncias de vídeo são posteriormente utilizadas para refinar prompts densos em frases estruturadas, alcançando descrições concisas e precisas. Além disso, um conjunto de dados InstanceVid de 22K é organizado para treinamento, e um pipeline de aprimoramento adaptado à estrutura do InstanceCap é proposto para inferência. Resultados experimentais demonstram que nosso InstanceCap proposto supera significativamente modelos anteriores, garantindo alta fidelidade entre legendas e vídeos, ao mesmo tempo que reduz alucinações.
English
Text-to-video generation has evolved rapidly in recent years, delivering
remarkable results. Training typically relies on video-caption paired data,
which plays a crucial role in enhancing generation performance. However,
current video captions often suffer from insufficient details, hallucinations
and imprecise motion depiction, affecting the fidelity and consistency of
generated videos. In this work, we propose a novel instance-aware structured
caption framework, termed InstanceCap, to achieve instance-level and
fine-grained video caption for the first time. Based on this scheme, we design
an auxiliary models cluster to convert original video into instances to enhance
instance fidelity. Video instances are further used to refine dense prompts
into structured phrases, achieving concise yet precise descriptions.
Furthermore, a 22K InstanceVid dataset is curated for training, and an
enhancement pipeline that tailored to InstanceCap structure is proposed for
inference. Experimental results demonstrate that our proposed InstanceCap
significantly outperform previous models, ensuring high fidelity between
captions and videos while reducing hallucinations.Summary
AI-Generated Summary