BrandFusion: Un Framework Multi-Agente per l'Integrazione Senza Soluzione di Continuità del Brand nella Generazione Video da Testo

Abstract

I rapidi progressi dei modelli text-to-video (T2V) hanno rivoluzionato la creazione di contenuti, ma il loro potenziale commerciale rimane in gran parte inesplorato. Introduciamo, per la prima volta, il compito dell'integrazione di marca senza soluzione di continuità nei T2V: incorporare automaticamente i brand degli inserzionisti in video generati da prompt, preservando al contempo la fedeltà semantica all'intento dell'utente. Questo compito affronta tre sfide fondamentali: mantenere la fedeltà al prompt, garantire la riconoscibilità del brand e ottenere un'integrazione contestualmente naturale. Per affrontarle, proponiamo BrandFusion, un innovativo framework multi-agente composto da due fasi sinergiche. Nella fase offline (rivolta agli inserzionisti), costruiamo una Base di Conoscenza del Brand analizzando i prior del modello e adattandoci a nuovi brand attraverso un fine-tuning leggero. Nella fase online (rivolta all'utente), cinque agenti perfezionano congiuntamente i prompt utente attraverso un raffinamento iterativo, sfruttando la base di conoscenza condivisa e il tracciamento contestuale in tempo reale per garantire visibilità del brand e allineamento semantico. Esperimenti condotti su 18 brand consolidati e 2 brand personalizzati, utilizzando molteplici modelli T2V all'avanguardia, dimostrano che BrandFusion supera significativamente i baseline nella preservazione semantica, nella riconoscibilità del brand e nella naturalezza dell'integrazione. Valutazioni umane confermano inoltre una maggiore soddisfazione dell'utente, stabilendo un percorso pratico per una monetizzazione sostenibile dei modelli T2V.

English

The rapid advancement of text-to-video (T2V) models has revolutionized content creation, yet their commercial potential remains largely untapped. We introduce, for the first time, the task of seamless brand integration in T2V: automatically embedding advertiser brands into prompt-generated videos while preserving semantic fidelity to user intent. This task confronts three core challenges: maintaining prompt fidelity, ensuring brand recognizability, and achieving contextually natural integration. To address them, we propose BrandFusion, a novel multi-agent framework comprising two synergistic phases. In the offline phase (advertiser-facing), we construct a Brand Knowledge Base by probing model priors and adapting to novel brands via lightweight fine-tuning. In the online phase (user-facing), five agents jointly refine user prompts through iterative refinement, leveraging the shared knowledge base and real-time contextual tracking to ensure brand visibility and semantic alignment. Experiments on 18 established and 2 custom brands across multiple state-of-the-art T2V models demonstrate that BrandFusion significantly outperforms baselines in semantic preservation, brand recognizability, and integration naturalness. Human evaluations further confirm higher user satisfaction, establishing a practical pathway for sustainable T2V monetization.

BrandFusion: Un Framework Multi-Agente per l'Integrazione Senza Soluzione di Continuità del Brand nella Generazione Video da Testo

BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation

Abstract

Support