BrandFusion: Многоагентная система для бесшовной интеграции брендов в генерации видео из текста

Аннотация

Быстрое развитие моделей преобразования текста в видео (T2V) произвело революцию в создании контента, однако их коммерческий потенциал в значительной степени остается нереализованным. Впервые мы представляем задачу бесшовной интеграции брендов в T2V: автоматическое внедрение брендов рекламодателей в видео, сгенерированные по промптам, при сохранении семантической соответствия пользовательскому замыслу. Эта задача сталкивается с тремя ключевыми проблемами: сохранение верности промпту, обеспечение узнаваемости бренда и достижение контекстуально естественной интеграции. Для их решения мы предлагаем BrandFusion — новую мультиагентную структуру, состоящую из двух синергетических фаз. На офлайн-фазе (ориентированной на рекламодателя) мы создаем Базу Знаний о Бренде путем исследования априорных представлений модели и адаптации к новым брендам с помощью легкой дообучки. На онлайн-фазе (ориентированной на пользователя) пять агентов совместно улучшают пользовательские промпты посредством итеративного уточнения, используя общую базу знаний и отслеживание контекста в реальном времени для обеспечения видимости бренда и семантического соответствия. Эксперименты с 18 известными и 2 пользовательскими брендами на нескольких передовых моделях T2V демонстрируют, что BrandFusion значительно превосходит базовые методы по сохранению семантики, узнаваемости бренда и естественности интеграции. Оценки пользователей дополнительно подтверждают более высокую удовлетворенность, устанавливая практический путь для устойчивой монетизации T2V.

English

The rapid advancement of text-to-video (T2V) models has revolutionized content creation, yet their commercial potential remains largely untapped. We introduce, for the first time, the task of seamless brand integration in T2V: automatically embedding advertiser brands into prompt-generated videos while preserving semantic fidelity to user intent. This task confronts three core challenges: maintaining prompt fidelity, ensuring brand recognizability, and achieving contextually natural integration. To address them, we propose BrandFusion, a novel multi-agent framework comprising two synergistic phases. In the offline phase (advertiser-facing), we construct a Brand Knowledge Base by probing model priors and adapting to novel brands via lightweight fine-tuning. In the online phase (user-facing), five agents jointly refine user prompts through iterative refinement, leveraging the shared knowledge base and real-time contextual tracking to ensure brand visibility and semantic alignment. Experiments on 18 established and 2 custom brands across multiple state-of-the-art T2V models demonstrate that BrandFusion significantly outperforms baselines in semantic preservation, brand recognizability, and integration naturalness. Human evaluations further confirm higher user satisfaction, establishing a practical pathway for sustainable T2V monetization.

BrandFusion: Многоагентная система для бесшовной интеграции брендов в генерации видео из текста

BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation

Аннотация

Support