BrandFusion: Een Multi-Agent Raamwerk voor Naadloze Brandintegratie in Tekst-Naar-Video Generatie
BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation
March 3, 2026
Auteurs: Zihao Zhu, Ruotong Wang, Siwei Lyu, Min Zhang, Baoyuan Wu
cs.AI
Samenvatting
De snelle vooruitgang van tekst-naar-video (T2V) modellen heeft een revolutie teweeggebracht in contentcreatie, maar hun commercieel potentieel blijft grotendeels onbenut. Wij introduceren, voor het eerst, de taak van naadloze merkintegratie in T2V: het automatisch inbedden van adverteerdersmerken in door prompts gegenereerde video's, waarbij de semantische trouw aan de gebruikersintentie behouden blijft. Deze taak kampt met drie kernuitdagingen: het handhaven van prompttrouw, het waarborgen van merkherkenbaarheid en het bereiken van contextueel natuurlijke integratie. Om deze aan te pakken, stellen we BrandFusion voor, een nieuw multi-agent raamwerk dat bestaat uit twee synergetische fasen. In de offline fase (gericht op adverteerders) construeren we een Merkkennisdatabase door modelpriors te onderzoeken en aan te passen aan nieuwe merken via lichtgewicht fine-tuning. In de online fase (gericht op gebruikers) verfijnen vijf agents gezamenlijk gebruikersprompts door iteratieve verbetering, waarbij ze gebruikmaken van de gedeelde kennisdatabase en real-time contextuele tracking om merkzichtbaarheid en semantische afstemming te garanderen. Experimenten met 18 gevestigde en 2 aangepaste merken over meerdere state-of-the-art T2V-modellen tonen aan dat BrandFusion baseline-methoden significant overtreft in semantisch behoud, merkherkenbaarheid en integratienaturaliteit. Menselijke evaluaties bevestigen verder een hogere gebruikers tevredenheid, waarmee een praktisch pad wordt gevestigd voor duurzame T2V-monetarisering.
English
The rapid advancement of text-to-video (T2V) models has revolutionized content creation, yet their commercial potential remains largely untapped. We introduce, for the first time, the task of seamless brand integration in T2V: automatically embedding advertiser brands into prompt-generated videos while preserving semantic fidelity to user intent. This task confronts three core challenges: maintaining prompt fidelity, ensuring brand recognizability, and achieving contextually natural integration. To address them, we propose BrandFusion, a novel multi-agent framework comprising two synergistic phases. In the offline phase (advertiser-facing), we construct a Brand Knowledge Base by probing model priors and adapting to novel brands via lightweight fine-tuning. In the online phase (user-facing), five agents jointly refine user prompts through iterative refinement, leveraging the shared knowledge base and real-time contextual tracking to ensure brand visibility and semantic alignment. Experiments on 18 established and 2 custom brands across multiple state-of-the-art T2V models demonstrate that BrandFusion significantly outperforms baselines in semantic preservation, brand recognizability, and integration naturalness. Human evaluations further confirm higher user satisfaction, establishing a practical pathway for sustainable T2V monetization.