BrandFusion : Un Cadre Multi-Agent pour l'Intégration Homogène de Marques dans la Génération Texte-Vidéo
BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation
March 3, 2026
Auteurs: Zihao Zhu, Ruotong Wang, Siwei Lyu, Min Zhang, Baoyuan Wu
cs.AI
Résumé
L'avancée rapide des modèles texte-vidéo (T2V) a révolutionné la création de contenu, mais leur potentiel commercial reste largement inexploité. Nous introduisons, pour la première fois, la tâche d'intégration publicitaire native dans les T2V : intégrer automatiquement des marques annonceurs dans des vidéos générées par prompt tout en préservant la fidélité sémantique à l'intention de l'utilisateur. Cette tâche confronte trois défis majeurs : maintenir la fidélité au prompt, assurer la reconnaissabilité de la marque et réaliser une intégration contextuellement naturelle. Pour y répondre, nous proposons BrandFusion, un nouveau cadre multi-agents comprenant deux phases synergiques. Dans la phase hors ligne (destinée aux annonceurs), nous construisons une Base de Connaissances de Marque en sondant les prérequis du modèle et en nous adaptant à de nouvelles marques via un ajustement fin léger. Dans la phase en ligne (destinée aux utilisateurs), cinq agents améliorent conjointement les prompts utilisateur par raffinement itératif, exploitant la base de connaissances partagée et un suivi contextuel en temps réel pour garantir la visibilité de la marque et l'alignement sémantique. Les expériences sur 18 marques établies et 2 marques personnalisés, via plusieurs modèles T2V de pointe, démontrent que BrandFusion surpasse significativement les méthodes de référence en préservation sémantique, reconnaissabilité de la marque et naturel d'intégration. Les évaluations humaines confirment en outre une satisfaction utilisateur accrue, établissant une voie pratique pour une monétisation durable des T2V.
English
The rapid advancement of text-to-video (T2V) models has revolutionized content creation, yet their commercial potential remains largely untapped. We introduce, for the first time, the task of seamless brand integration in T2V: automatically embedding advertiser brands into prompt-generated videos while preserving semantic fidelity to user intent. This task confronts three core challenges: maintaining prompt fidelity, ensuring brand recognizability, and achieving contextually natural integration. To address them, we propose BrandFusion, a novel multi-agent framework comprising two synergistic phases. In the offline phase (advertiser-facing), we construct a Brand Knowledge Base by probing model priors and adapting to novel brands via lightweight fine-tuning. In the online phase (user-facing), five agents jointly refine user prompts through iterative refinement, leveraging the shared knowledge base and real-time contextual tracking to ensure brand visibility and semantic alignment. Experiments on 18 established and 2 custom brands across multiple state-of-the-art T2V models demonstrate that BrandFusion significantly outperforms baselines in semantic preservation, brand recognizability, and integration naturalness. Human evaluations further confirm higher user satisfaction, establishing a practical pathway for sustainable T2V monetization.