Concepten Samenstellen uit Afbeeldingen en Video's via Concept-Prompt Binding
Composing Concepts from Images and Videos via Concept-prompt Binding
December 10, 2025
Auteurs: Xianghao Kong, Zeyu Zhang, Yuwei Guo, Zhuoran Zhao, Songchun Zhang, Anyi Rao
cs.AI
Samenvatting
Visuele conceptcompositie, die tot doel heeft verschillende elementen uit afbeeldingen en video's te integreren tot één coherent visueel resultaat, slaagt er nog steeds niet in om complexe concepten nauwkeurig uit visuele invoer te extraheren en concepten uit zowel afbeeldingen als video's flexibel te combineren. Wij introduceren Bind & Compose, een one-shot methode die flexibele visuele conceptcompositie mogelijk maakt door visuele concepten te binden aan corresponderende prompt-tokens en de doelprompt samen te stellen met gebonden tokens uit verschillende bronnen. De methode gebruikt een hiërarchische binderstructuur voor cross-attention conditionering in Diffusion Transformers om visuele concepten te coderen in corresponderende prompt-tokens voor nauwkeurige decompositie van complexe visuele concepten. Om de nauwkeurigheid van concept-tokenbinding te verbeteren, ontwerpen we een Diversify-and-Absorb Mechanism dat een extra absorberend token gebruikt om de invloed van concept-irrelevante details te elimineren tijdens training met gediversifieerde prompts. Om de compatibiliteit tussen beeld- en videoconcepten te vergroten, presenteren we een Temporal Disentanglement Strategy die het trainingsproces van videoconcepten ontkoppelt in twee fasen met een dual-branch binderstructuur voor temporele modellering. Evaluaties tonen aan dat onze methode superieure conceptconsistentie, prompttrouw en bewegingskwaliteit bereikt ten opzichte van bestaande benaderingen, wat nieuwe mogelijkheden opent voor visuele creativiteit.
English
Visual concept composition, which aims to integrate different elements from images and videos into a single, coherent visual output, still falls short in accurately extracting complex concepts from visual inputs and flexibly combining concepts from both images and videos. We introduce Bind & Compose, a one-shot method that enables flexible visual concept composition by binding visual concepts with corresponding prompt tokens and composing the target prompt with bound tokens from various sources. It adopts a hierarchical binder structure for cross-attention conditioning in Diffusion Transformers to encode visual concepts into corresponding prompt tokens for accurate decomposition of complex visual concepts. To improve concept-token binding accuracy, we design a Diversify-and-Absorb Mechanism that uses an extra absorbent token to eliminate the impact of concept-irrelevant details when training with diversified prompts. To enhance the compatibility between image and video concepts, we present a Temporal Disentanglement Strategy that decouples the training process of video concepts into two stages with a dual-branch binder structure for temporal modeling. Evaluations demonstrate that our method achieves superior concept consistency, prompt fidelity, and motion quality over existing approaches, opening up new possibilities for visual creativity.