BrandFusion: テキストからビデオ生成におけるシームレスなブランド統合のためのマルチエージェントフレームワーク
BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation
March 3, 2026
著者: Zihao Zhu, Ruotong Wang, Siwei Lyu, Min Zhang, Baoyuan Wu
cs.AI
要旨
テキストからビデオ(T2V)モデルの急速な進歩はコンテンツ制作に革命をもたらしたが、その商業的可能性は未だ十分に開拓されていない。本論文では初めて、T2Vにおけるシームレスなブランド統合の課題を提示する。これは、ユーザーの意図に対する意味的忠実性を保ちながら、プロンプト生成されたビデオに広告主のブランドを自動的に埋め込むタスクである。この課題は、プロンプト忠実性の維持、ブランド認識性の確保、文脈的に自然な統合の達成、という3つの核心的な難題に直面する。これらに対処するため、我々は**BrandFusion**を提案する。これは、相乗的な2段階から構成される新しいマルチエージェントフレームワークである。オフライン段階(広告主向け)では、モデルの事前知識を探査し、軽量なファインチューニングにより新規ブランドに適応させることで、**ブランド知識ベース**を構築する。オンライン段階(ユーザー向け)では、5つのエージェントが、共有知識ベースとリアルタイムの文脈トラッキングを活用し、反復的な改良を通じてユーザープロンプトを共同で洗練させ、ブランドの可視性と意味的整合性を保証する。複数の最先端T2Vモデルを用い、18の確立されたブランドと2つのカスタムブランドで行った実験により、BrandFusionが意味的保存、ブランド認識性、統合の自然さにおいてベースラインを大幅に上回ることを実証した。人間による評価では、より高いユーザー満足度が確認され、持続可能なT2Vの収益化に向けた実用的な道筋が確立された。
English
The rapid advancement of text-to-video (T2V) models has revolutionized content creation, yet their commercial potential remains largely untapped. We introduce, for the first time, the task of seamless brand integration in T2V: automatically embedding advertiser brands into prompt-generated videos while preserving semantic fidelity to user intent. This task confronts three core challenges: maintaining prompt fidelity, ensuring brand recognizability, and achieving contextually natural integration. To address them, we propose BrandFusion, a novel multi-agent framework comprising two synergistic phases. In the offline phase (advertiser-facing), we construct a Brand Knowledge Base by probing model priors and adapting to novel brands via lightweight fine-tuning. In the online phase (user-facing), five agents jointly refine user prompts through iterative refinement, leveraging the shared knowledge base and real-time contextual tracking to ensure brand visibility and semantic alignment. Experiments on 18 established and 2 custom brands across multiple state-of-the-art T2V models demonstrate that BrandFusion significantly outperforms baselines in semantic preservation, brand recognizability, and integration naturalness. Human evaluations further confirm higher user satisfaction, establishing a practical pathway for sustainable T2V monetization.