BrandFusion: Ein Multi-Agenten-Framework für nahtlose Markenintegration in der Text-zu-Video-Generierung
BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation
March 3, 2026
Autoren: Zihao Zhu, Ruotong Wang, Siwei Lyu, Min Zhang, Baoyuan Wu
cs.AI
Zusammenfassung
Die rasante Entwicklung von Text-zu-Video (T2V)-Modellen hat die Inhaltserstellung revolutioniert, doch ihr kommerzielles Potenzial bleibt weitgehend unerschlossen. Wir führen erstmals die Aufgabe der nahtlosen Markenintegration in T2V ein: die automatische Einbettung von Werbemarken in prompt-generierte Videos unter Wahrung der semantischen Treue zur Nutzerabsicht. Diese Aufgabe stellt drei zentrale Herausforderungen: die Wahrung der Prompt-Treue, die Gewährleistung der Markenerkennbarkeit und die Erreichung einer kontextuell natürlichen Integration. Zu ihrer Bewältigung schlagen wir BrandFusion vor, ein neuartiges Multi-Agenten-Framework mit zwei synergetischen Phasen. In der Offline-Phase (seitens des Werbetreibenden) erstellen wir eine Markenwissensbasis durch das Ausloten von Modell-Priors und die Anpassung an neue Marken mittels leichtgewichtiger Feinabstimmung. In der Online-Phase (nutzerseitig) verfeinern fünf Agenten gemeinsam Nutzer-Prompts durch iterative Optimierung, nutzen die gemeinsame Wissensbasis und Echtzeit-Kontextverfolgung, um Markensichtbarkeit und semantische Übereinstimmung zu gewährleisten. Experimente mit 18 etablierten und 2 individuellen Marken über mehrere state-of-the-art T2V-Modelle hinweg zeigen, dass BrandFusion Baseline-Methoden signifikant in Bezug auf semantische Bewahrung, Markenerkennbarkeit und Integrationsnatürlichkeit übertrifft. Menschliche Bewertungen bestätigen weiterhin eine höhere Nutzerzufriedenheit und etablieren einen praktischen Weg zur nachhaltigen Monetarisierung von T2V.
English
The rapid advancement of text-to-video (T2V) models has revolutionized content creation, yet their commercial potential remains largely untapped. We introduce, for the first time, the task of seamless brand integration in T2V: automatically embedding advertiser brands into prompt-generated videos while preserving semantic fidelity to user intent. This task confronts three core challenges: maintaining prompt fidelity, ensuring brand recognizability, and achieving contextually natural integration. To address them, we propose BrandFusion, a novel multi-agent framework comprising two synergistic phases. In the offline phase (advertiser-facing), we construct a Brand Knowledge Base by probing model priors and adapting to novel brands via lightweight fine-tuning. In the online phase (user-facing), five agents jointly refine user prompts through iterative refinement, leveraging the shared knowledge base and real-time contextual tracking to ensure brand visibility and semantic alignment. Experiments on 18 established and 2 custom brands across multiple state-of-the-art T2V models demonstrate that BrandFusion significantly outperforms baselines in semantic preservation, brand recognizability, and integration naturalness. Human evaluations further confirm higher user satisfaction, establishing a practical pathway for sustainable T2V monetization.