InstanceCap: Het verbeteren van tekst-naar-video generatie via instantie-bewuste gestructureerde bijschriften.
InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption
December 12, 2024
Auteurs: Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Zhenheng Yang, Chaoyou Fu, Xiang Li, Jian Yang, Ying Tai
cs.AI
Samenvatting
Text-to-video generatie is de afgelopen jaren snel geëvolueerd en levert opmerkelijke resultaten op. De training vertrouwt doorgaans op video-ondertitel gekoppelde gegevens, wat een cruciale rol speelt bij het verbeteren van de generatieprestaties. Huidige video-ondertitels lijden echter vaak aan onvoldoende details, hallucinaties en onnauwkeurige bewegingsweergave, wat de geloofwaardigheid en consistentie van gegenereerde video's beïnvloedt. In dit werk stellen we een nieuw instantie-bewust gestructureerd ondertitelingskader voor, genaamd InstanceCap, om voor het eerst instantie-niveau en fijnmazige video-ondertiteling te bereiken. Op basis van dit schema ontwerpen we een hulpmodellencluster om de oorspronkelijke video om te zetten in instanties om de instantiegetrouwheid te verbeteren. Video-instanties worden vervolgens gebruikt om dichte aanwijzingen te verfijnen tot gestructureerde zinnen, waardoor beknopte maar nauwkeurige beschrijvingen worden bereikt. Bovendien wordt een 22K InstanceVid-dataset samengesteld voor training, en wordt een verbeteringspijplijn voorgesteld die is afgestemd op de structuur van InstanceCap voor inferentie. Experimentele resultaten tonen aan dat onze voorgestelde InstanceCap aanzienlijk beter presteert dan eerdere modellen, waarbij een hoge geloofwaardigheid tussen ondertitels en video's wordt gegarandeerd terwijl hallucinaties worden verminderd.
English
Text-to-video generation has evolved rapidly in recent years, delivering
remarkable results. Training typically relies on video-caption paired data,
which plays a crucial role in enhancing generation performance. However,
current video captions often suffer from insufficient details, hallucinations
and imprecise motion depiction, affecting the fidelity and consistency of
generated videos. In this work, we propose a novel instance-aware structured
caption framework, termed InstanceCap, to achieve instance-level and
fine-grained video caption for the first time. Based on this scheme, we design
an auxiliary models cluster to convert original video into instances to enhance
instance fidelity. Video instances are further used to refine dense prompts
into structured phrases, achieving concise yet precise descriptions.
Furthermore, a 22K InstanceVid dataset is curated for training, and an
enhancement pipeline that tailored to InstanceCap structure is proposed for
inference. Experimental results demonstrate that our proposed InstanceCap
significantly outperform previous models, ensuring high fidelity between
captions and videos while reducing hallucinations.