BrandFusion: Un Marco de Trabajo Multiagente para la Integración Perfecta de Marcas en la Generación de Texto a Video

Resumen

El rápido avance de los modelos de texto a video (T2V) ha revolucionado la creación de contenidos, aunque su potencial comercial sigue estando en gran medida sin explotar. Introducimos, por primera vez, la tarea de integración perfecta de marcas en T2V: incrustar automáticamente marcas de anunciantes en videos generados por prompts, preservando al mismo tiempo la fidelidad semántica a la intención del usuario. Esta tarea enfrenta tres desafíos principales: mantener la fidelidad al prompt, garantizar la reconocibilidad de la marca y lograr una integración contextualmente natural. Para abordarlos, proponemos BrandFusion, un novedoso marco de trabajo multiagente que comprende dos fases sinérgicas. En la fase offline (orientada al anunciante), construimos una Base de Conocimiento de Marcas sondeando los *priors* del modelo y adaptándonos a marcas novedosas mediante ajuste fino ligero (*lightweight fine-tuning*). En la fase online (orientada al usuario), cinco agentes refinan conjuntamente los prompts del usuario mediante un refinamiento iterativo, aprovechando la base de conocimiento compartida y el seguimiento contextual en tiempo real para garantizar la visibilidad de la marca y la alineación semántica. Los experimentos con 18 marcas establecidas y 2 marcas personalizadas en múltiples modelos T2V de vanguardia demuestran que BrandFusion supera significativamente a los métodos base en preservación semántica, reconocibilidad de la marca y naturalidad de la integración. Las evaluaciones humanas confirman además una mayor satisfacción del usuario, estableciendo una vía práctica para la monetización sostenible de los modelos T2V.

English

The rapid advancement of text-to-video (T2V) models has revolutionized content creation, yet their commercial potential remains largely untapped. We introduce, for the first time, the task of seamless brand integration in T2V: automatically embedding advertiser brands into prompt-generated videos while preserving semantic fidelity to user intent. This task confronts three core challenges: maintaining prompt fidelity, ensuring brand recognizability, and achieving contextually natural integration. To address them, we propose BrandFusion, a novel multi-agent framework comprising two synergistic phases. In the offline phase (advertiser-facing), we construct a Brand Knowledge Base by probing model priors and adapting to novel brands via lightweight fine-tuning. In the online phase (user-facing), five agents jointly refine user prompts through iterative refinement, leveraging the shared knowledge base and real-time contextual tracking to ensure brand visibility and semantic alignment. Experiments on 18 established and 2 custom brands across multiple state-of-the-art T2V models demonstrate that BrandFusion significantly outperforms baselines in semantic preservation, brand recognizability, and integration naturalness. Human evaluations further confirm higher user satisfaction, establishing a practical pathway for sustainable T2V monetization.

BrandFusion: Un Marco de Trabajo Multiagente para la Integración Perfecta de Marcas en la Generación de Texto a Video

BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation

Resumen

Support