InstanceCap:インスタンス感知構造化キャプションを介したテキストからビデオへの生成の改善
InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption
December 12, 2024
著者: Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Zhenheng Yang, Chaoyou Fu, Xiang Li, Jian Yang, Ying Tai
cs.AI
要旨
最近、テキストからビデオ生成技術は急速に進化し、顕著な成果をもたらしています。一般的に、トレーニングはビデオキャプションとペアになったデータに依存しており、これは生成パフォーマンスの向上に重要な役割を果たしています。しかし、現在のビデオキャプションはしばしば詳細不足、幻覚、不正確な動き表現などの問題を抱えており、生成されたビデオの忠実度と一貫性に影響を与えています。本研究では、初めてインスタンスレベルおよび細かい粒度のビデオキャプションを実現するために、新しいインスタンス認識構造化キャプションフレームワークであるInstanceCapを提案します。この手法に基づいて、オリジナルのビデオをインスタンスに変換してインスタンスの忠実度を向上させるための補助モデルクラスターを設計します。ビデオのインスタンスは、密なプロンプトを構造化されたフレーズに洗練するためにさらに使用され、簡潔かつ正確な説明を実現します。さらに、トレーニング用に22K InstanceVidデータセットを収集し、InstanceCap構造に合わせた改良パイプラインを推論用に提案します。実験結果は、提案されたInstanceCapが以前のモデルを大幅に上回り、キャプションとビデオの間の高い忠実度を確保しつつ幻覚を減少させることを示しています。
English
Text-to-video generation has evolved rapidly in recent years, delivering
remarkable results. Training typically relies on video-caption paired data,
which plays a crucial role in enhancing generation performance. However,
current video captions often suffer from insufficient details, hallucinations
and imprecise motion depiction, affecting the fidelity and consistency of
generated videos. In this work, we propose a novel instance-aware structured
caption framework, termed InstanceCap, to achieve instance-level and
fine-grained video caption for the first time. Based on this scheme, we design
an auxiliary models cluster to convert original video into instances to enhance
instance fidelity. Video instances are further used to refine dense prompts
into structured phrases, achieving concise yet precise descriptions.
Furthermore, a 22K InstanceVid dataset is curated for training, and an
enhancement pipeline that tailored to InstanceCap structure is proposed for
inference. Experimental results demonstrate that our proposed InstanceCap
significantly outperform previous models, ensuring high fidelity between
captions and videos while reducing hallucinations.Summary
AI-Generated Summary