Konzeptkomposition aus Bildern und Videos durch Konzept-Prompt-Bindung
Composing Concepts from Images and Videos via Concept-prompt Binding
December 10, 2025
papers.authors: Xianghao Kong, Zeyu Zhang, Yuwei Guo, Zhuoran Zhao, Songchun Zhang, Anyi Rao
cs.AI
papers.abstract
Visuelle Konzeptkomposition, die darauf abzielt, verschiedene Elemente aus Bildern und Videos in eine einzige kohärente visuelle Ausgabe zu integrier, scheitert nach wie vor daran, komplexe Konzepte aus visuellen Eingaben präzise zu extrahieren und Konzepte aus Bildern und Videos flexibel zu kombinieren. Wir stellen Bind & Compose vor, eine One-Shot-Methode, die flexible visuelle Konzeptkomposition ermöglicht, indem visuelle Konzepte mit entsprechenden Prompt-Tokens verknüpft und der Ziel-Prompt mit gebundenen Tokens aus verschiedenen Quellen zusammengesetzt wird. Die Methode verwendet eine hierarchische Binder-Struktur für Cross-Attention-Conditioning in Diffusion Transformern, um visuelle Konzepte in entsprechende Prompt-Tokens zu kodieren und so eine präzise Zerlegung komplexer visueller Konzepte zu ermöglichen. Um die Genauigkeit der Konzept-Token-Bindung zu verbessern, entwickeln wir einen Diversify-and-Absorb-Mechanismus, der einen zusätzlichen absorbierenden Token verwendet, um den Einfluss konzeptirrelevanter Details während des Trainings mit diversifizierten Prompts zu eliminieren. Um die Kompatibilität zwischen Bild- und Videokonzepten zu steigern, präsentieren wir eine Strategie zur zeitlichen Entflechtung, die den Trainingsprozess von Videokonzepten in zwei Stufen entkoppelt und eine Zweig-Binder-Struktur für die zeitliche Modellierung verwendet. Evaluationen zeigen, dass unsere Methode im Vergleich zu bestehenden Ansätzen überlegene Konzeptkonsistenz, Prompt-Treue und Bewegungsqualität erreicht und neue Möglichkeiten für visuelle Kreativität eröffnet.
English
Visual concept composition, which aims to integrate different elements from images and videos into a single, coherent visual output, still falls short in accurately extracting complex concepts from visual inputs and flexibly combining concepts from both images and videos. We introduce Bind & Compose, a one-shot method that enables flexible visual concept composition by binding visual concepts with corresponding prompt tokens and composing the target prompt with bound tokens from various sources. It adopts a hierarchical binder structure for cross-attention conditioning in Diffusion Transformers to encode visual concepts into corresponding prompt tokens for accurate decomposition of complex visual concepts. To improve concept-token binding accuracy, we design a Diversify-and-Absorb Mechanism that uses an extra absorbent token to eliminate the impact of concept-irrelevant details when training with diversified prompts. To enhance the compatibility between image and video concepts, we present a Temporal Disentanglement Strategy that decouples the training process of video concepts into two stages with a dual-branch binder structure for temporal modeling. Evaluations demonstrate that our method achieves superior concept consistency, prompt fidelity, and motion quality over existing approaches, opening up new possibilities for visual creativity.