BrandFusion: Uma Estrutura Multiagente para Integração Contínua de Marcas na Geração de Texto para Vídeo

Resumo

O rápido avanço dos modelos de texto-para-vídeo (T2V) revolucionou a criação de conteúdo, mas seu potencial comercial permanece amplamente inexplorado. Introduzimos, pela primeira vez, a tarefa de integração de marca perfeita em T2V: incorporar automaticamente marcas de anunciantes em vídeos gerados por prompt, preservando a fidelidade semântica à intenção do utilizador. Esta tarefa enfrenta três desafios principais: manter a fidelidade ao prompt, garantir a reconhecibilidade da marca e alcançar uma integração contextualmente natural. Para os resolver, propomos o BrandFusion, uma nova estrutura multiagente que compreende duas fases sinérgicas. Na fase offline (dirigida ao anunciante), construímos uma Base de Conhecimento de Marca através da sondagem de prioris do modelo e da adaptação a novas marcas via *fine-tuning* leve. Na fase online (dirigida ao utilizador), cinco agentes refinam conjuntamente os prompts do utilizador através de um refinamento iterativo, aproveitando a base de conhecimento partilhada e o rastreamento contextual em tempo real para garantir a visibilidade da marca e o alinhamento semântico. Experiências com 18 marcas estabelecidas e 2 marcas personalizadas em vários modelos T2V de última geração demonstram que o BrandFusion supera significativamente as linhas de base na preservação semântica, reconhecibilidade da marca e naturalidade da integração. Avaliações humanas confirmam ainda uma maior satisfação do utilizador, estabelecendo um caminho prático para a monetização sustentável de T2V.

English

The rapid advancement of text-to-video (T2V) models has revolutionized content creation, yet their commercial potential remains largely untapped. We introduce, for the first time, the task of seamless brand integration in T2V: automatically embedding advertiser brands into prompt-generated videos while preserving semantic fidelity to user intent. This task confronts three core challenges: maintaining prompt fidelity, ensuring brand recognizability, and achieving contextually natural integration. To address them, we propose BrandFusion, a novel multi-agent framework comprising two synergistic phases. In the offline phase (advertiser-facing), we construct a Brand Knowledge Base by probing model priors and adapting to novel brands via lightweight fine-tuning. In the online phase (user-facing), five agents jointly refine user prompts through iterative refinement, leveraging the shared knowledge base and real-time contextual tracking to ensure brand visibility and semantic alignment. Experiments on 18 established and 2 custom brands across multiple state-of-the-art T2V models demonstrate that BrandFusion significantly outperforms baselines in semantic preservation, brand recognizability, and integration naturalness. Human evaluations further confirm higher user satisfaction, establishing a practical pathway for sustainable T2V monetization.