Composition de concepts à partir d'images et de vidéos via la liaison par prompts conceptuels
Composing Concepts from Images and Videos via Concept-prompt Binding
December 10, 2025
papers.authors: Xianghao Kong, Zeyu Zhang, Yuwei Guo, Zhuoran Zhao, Songchun Zhang, Anyi Rao
cs.AI
papers.abstract
La composition de concepts visuels, qui vise à intégrer différents éléments d'images et de vidéos en une sortie visuelle unique et cohérente, peine encore à extraire précisément des concepts complexes des entrées visuelles et à combiner flexiblement des concepts provenant d'images et de vidéos. Nous présentons Bind & Compose, une méthode one-shot qui permet une composition flexible de concepts visuels en liant des concepts visuels à des tokens d'invite correspondants et en composant l'invite cible avec des tokens liés provenant de diverses sources. Elle adopte une structure de lieur hiérarchique pour le conditionnement par attention croisée dans les Transformers de Diffusion, afin de coder les concepts visuels en tokens d'invite correspondants pour une décomposition précise des concepts visuels complexes. Pour améliorer la précision de la liaison concept-token, nous concevons un Mécanisme de Diversification et d'Absorption qui utilise un token absorbant supplémentaire pour éliminer l'impact des détails non pertinents au concept lors de l'entraînement avec des invites diversifiées. Pour améliorer la compatibilité entre les concepts d'image et de vidéo, nous présentons une Stratégie de Désentrelacement Temporel qui découple le processus d'entraînement des concepts vidéo en deux étapes avec une structure de lieur à double branche pour la modélisation temporelle. Les évaluations démontrent que notre méthode atteint une cohérence conceptuelle, une fidélité à l'invite et une qualité de mouvement supérieures aux approches existantes, ouvrant de nouvelles possibilités pour la créativité visuelle.
English
Visual concept composition, which aims to integrate different elements from images and videos into a single, coherent visual output, still falls short in accurately extracting complex concepts from visual inputs and flexibly combining concepts from both images and videos. We introduce Bind & Compose, a one-shot method that enables flexible visual concept composition by binding visual concepts with corresponding prompt tokens and composing the target prompt with bound tokens from various sources. It adopts a hierarchical binder structure for cross-attention conditioning in Diffusion Transformers to encode visual concepts into corresponding prompt tokens for accurate decomposition of complex visual concepts. To improve concept-token binding accuracy, we design a Diversify-and-Absorb Mechanism that uses an extra absorbent token to eliminate the impact of concept-irrelevant details when training with diversified prompts. To enhance the compatibility between image and video concepts, we present a Temporal Disentanglement Strategy that decouples the training process of video concepts into two stages with a dual-branch binder structure for temporal modeling. Evaluations demonstrate that our method achieves superior concept consistency, prompt fidelity, and motion quality over existing approaches, opening up new possibilities for visual creativity.