Composizione di Concetti da Immagini e Video tramite Vincolo di Prompt Concettuali
Composing Concepts from Images and Videos via Concept-prompt Binding
December 10, 2025
Autori: Xianghao Kong, Zeyu Zhang, Yuwei Guo, Zhuoran Zhao, Songchun Zhang, Anyi Rao
cs.AI
Abstract
La composizione di concetti visivi, che mira a integrare diversi elementi da immagini e video in un output visivo unico e coerente, presenta ancora carenze nell'estrazione accurata di concetti complessi da input visivi e nella combinazione flessibile di concetti provenienti sia da immagini che da video. Introduciamo Bind & Compose, un metodo one-shot che abilita una composizione flessibile di concetti visivi associando concetti visivi con token di prompt corrispondenti e componendo il prompt target con token associati da varie fonti. Il metodo adotta una struttura gerarchica di associazione per il condizionamento cross-attention nei Diffusion Transformer, codificando concetti visivi in corrispondenti token di prompt per una decomposizione accurata di concetti visivi complessi. Per migliorare l'accuratezza dell'associazione concetto-token, progettiamo un Meccanismo di Diversificazione e Assorbimento che utilizza un token assorbente aggiuntivo per eliminare l'impatto di dettagli irrilevanti per il concetto durante l'addestramento con prompt diversificati. Per potenziare la compatibilità tra concetti di immagini e video, presentiamo una Strategia di Disaccoppiamento Temporale che separa il processo di addestramento dei concetti video in due fasi con una struttura di associazione a doppio ramo per la modellazione temporale. Le valutazioni dimostrano che il nostro metodo raggiunge una consistenza di concetto, fedeltà al prompt e qualità del movimento superiori rispetto agli approcci esistenti, aprendo nuove possibilità per la creatività visiva.
English
Visual concept composition, which aims to integrate different elements from images and videos into a single, coherent visual output, still falls short in accurately extracting complex concepts from visual inputs and flexibly combining concepts from both images and videos. We introduce Bind & Compose, a one-shot method that enables flexible visual concept composition by binding visual concepts with corresponding prompt tokens and composing the target prompt with bound tokens from various sources. It adopts a hierarchical binder structure for cross-attention conditioning in Diffusion Transformers to encode visual concepts into corresponding prompt tokens for accurate decomposition of complex visual concepts. To improve concept-token binding accuracy, we design a Diversify-and-Absorb Mechanism that uses an extra absorbent token to eliminate the impact of concept-irrelevant details when training with diversified prompts. To enhance the compatibility between image and video concepts, we present a Temporal Disentanglement Strategy that decouples the training process of video concepts into two stages with a dual-branch binder structure for temporal modeling. Evaluations demonstrate that our method achieves superior concept consistency, prompt fidelity, and motion quality over existing approaches, opening up new possibilities for visual creativity.