ChatPaper.aiChatPaper

Формирование концепций из изображений и видео посредством связывания с концептуальными промптами

Composing Concepts from Images and Videos via Concept-prompt Binding

December 10, 2025
Авторы: Xianghao Kong, Zeyu Zhang, Yuwei Guo, Zhuoran Zhao, Songchun Zhang, Anyi Rao
cs.AI

Аннотация

Композиция визуальных концепций, направленная на объединение различных элементов из изображений и видео в единое связное визуальное представление, до сих пор сталкивается с трудностями в точном извлечении сложных концепций из визуальных данных и гибком комбинировании концепций как из изображений, так и из видео. Мы представляем метод Bind & Compose, который позволяет осуществлять гибкую композицию визуальных концепций за один проход, связывая визуальные концепции с соответствующими токенами запросов и формируя целевой запрос из связанных токенов из различных источников. Метод использует иерархическую структуру связывания для кросс-аттенционной кондиции в Diffusion Transformers, кодируя визуальные концепции в соответствующие токены запросов для точной декомпозиции сложных визуальных концепций. Для повышения точности связывания концепций с токенами разработан Механизм диверсификации и поглощения, использующий дополнительный поглощающий токен для устранения влияния нерелевантных деталей при обучении на диверсифицированных запросах. Для улучшения совместимости между концепциями изображений и видео предложена Стратегия темпорального разделения, которая разбивает процесс обучения видеоконцепций на два этапа с двухветвевой структурой связывания для темпорального моделирования. Оценки показывают, что наш метод превосходит существующие подходы по согласованности концепций, соответствию запросу и качеству движения, открывая новые возможности для визуального творчества.
English
Visual concept composition, which aims to integrate different elements from images and videos into a single, coherent visual output, still falls short in accurately extracting complex concepts from visual inputs and flexibly combining concepts from both images and videos. We introduce Bind & Compose, a one-shot method that enables flexible visual concept composition by binding visual concepts with corresponding prompt tokens and composing the target prompt with bound tokens from various sources. It adopts a hierarchical binder structure for cross-attention conditioning in Diffusion Transformers to encode visual concepts into corresponding prompt tokens for accurate decomposition of complex visual concepts. To improve concept-token binding accuracy, we design a Diversify-and-Absorb Mechanism that uses an extra absorbent token to eliminate the impact of concept-irrelevant details when training with diversified prompts. To enhance the compatibility between image and video concepts, we present a Temporal Disentanglement Strategy that decouples the training process of video concepts into two stages with a dual-branch binder structure for temporal modeling. Evaluations demonstrate that our method achieves superior concept consistency, prompt fidelity, and motion quality over existing approaches, opening up new possibilities for visual creativity.
PDF252December 13, 2025