Формирование концепций из изображений и видео посредством связывания с концептуальными промптами
Composing Concepts from Images and Videos via Concept-prompt Binding
December 10, 2025
Авторы: Xianghao Kong, Zeyu Zhang, Yuwei Guo, Zhuoran Zhao, Songchun Zhang, Anyi Rao
cs.AI
Аннотация
Композиция визуальных концепций, направленная на объединение различных элементов из изображений и видео в единое связное визуальное представление, до сих пор сталкивается с трудностями в точном извлечении сложных концепций из визуальных данных и гибком комбинировании концепций как из изображений, так и из видео. Мы представляем метод Bind & Compose, который позволяет осуществлять гибкую композицию визуальных концепций за один проход, связывая визуальные концепции с соответствующими токенами запросов и формируя целевой запрос из связанных токенов из различных источников. Метод использует иерархическую структуру связывания для кросс-аттенционной кондиции в Diffusion Transformers, кодируя визуальные концепции в соответствующие токены запросов для точной декомпозиции сложных визуальных концепций. Для повышения точности связывания концепций с токенами разработан Механизм диверсификации и поглощения, использующий дополнительный поглощающий токен для устранения влияния нерелевантных деталей при обучении на диверсифицированных запросах. Для улучшения совместимости между концепциями изображений и видео предложена Стратегия темпорального разделения, которая разбивает процесс обучения видеоконцепций на два этапа с двухветвевой структурой связывания для темпорального моделирования. Оценки показывают, что наш метод превосходит существующие подходы по согласованности концепций, соответствию запросу и качеству движения, открывая новые возможности для визуального творчества.
English
Visual concept composition, which aims to integrate different elements from images and videos into a single, coherent visual output, still falls short in accurately extracting complex concepts from visual inputs and flexibly combining concepts from both images and videos. We introduce Bind & Compose, a one-shot method that enables flexible visual concept composition by binding visual concepts with corresponding prompt tokens and composing the target prompt with bound tokens from various sources. It adopts a hierarchical binder structure for cross-attention conditioning in Diffusion Transformers to encode visual concepts into corresponding prompt tokens for accurate decomposition of complex visual concepts. To improve concept-token binding accuracy, we design a Diversify-and-Absorb Mechanism that uses an extra absorbent token to eliminate the impact of concept-irrelevant details when training with diversified prompts. To enhance the compatibility between image and video concepts, we present a Temporal Disentanglement Strategy that decouples the training process of video concepts into two stages with a dual-branch binder structure for temporal modeling. Evaluations demonstrate that our method achieves superior concept consistency, prompt fidelity, and motion quality over existing approaches, opening up new possibilities for visual creativity.