ChatPaper.aiChatPaper

Composizione di Concetti da Immagini e Video tramite Vincolo di Prompt Concettuali

Composing Concepts from Images and Videos via Concept-prompt Binding

December 10, 2025
Autori: Xianghao Kong, Zeyu Zhang, Yuwei Guo, Zhuoran Zhao, Songchun Zhang, Anyi Rao
cs.AI

Abstract

La composizione di concetti visivi, che mira a integrare diversi elementi da immagini e video in un output visivo unico e coerente, presenta ancora carenze nell'estrazione accurata di concetti complessi da input visivi e nella combinazione flessibile di concetti provenienti sia da immagini che da video. Introduciamo Bind & Compose, un metodo one-shot che abilita una composizione flessibile di concetti visivi associando concetti visivi con token di prompt corrispondenti e componendo il prompt target con token associati da varie fonti. Il metodo adotta una struttura gerarchica di associazione per il condizionamento cross-attention nei Diffusion Transformer, codificando concetti visivi in corrispondenti token di prompt per una decomposizione accurata di concetti visivi complessi. Per migliorare l'accuratezza dell'associazione concetto-token, progettiamo un Meccanismo di Diversificazione e Assorbimento che utilizza un token assorbente aggiuntivo per eliminare l'impatto di dettagli irrilevanti per il concetto durante l'addestramento con prompt diversificati. Per potenziare la compatibilità tra concetti di immagini e video, presentiamo una Strategia di Disaccoppiamento Temporale che separa il processo di addestramento dei concetti video in due fasi con una struttura di associazione a doppio ramo per la modellazione temporale. Le valutazioni dimostrano che il nostro metodo raggiunge una consistenza di concetto, fedeltà al prompt e qualità del movimento superiori rispetto agli approcci esistenti, aprendo nuove possibilità per la creatività visiva.
English
Visual concept composition, which aims to integrate different elements from images and videos into a single, coherent visual output, still falls short in accurately extracting complex concepts from visual inputs and flexibly combining concepts from both images and videos. We introduce Bind & Compose, a one-shot method that enables flexible visual concept composition by binding visual concepts with corresponding prompt tokens and composing the target prompt with bound tokens from various sources. It adopts a hierarchical binder structure for cross-attention conditioning in Diffusion Transformers to encode visual concepts into corresponding prompt tokens for accurate decomposition of complex visual concepts. To improve concept-token binding accuracy, we design a Diversify-and-Absorb Mechanism that uses an extra absorbent token to eliminate the impact of concept-irrelevant details when training with diversified prompts. To enhance the compatibility between image and video concepts, we present a Temporal Disentanglement Strategy that decouples the training process of video concepts into two stages with a dual-branch binder structure for temporal modeling. Evaluations demonstrate that our method achieves superior concept consistency, prompt fidelity, and motion quality over existing approaches, opening up new possibilities for visual creativity.
PDF252December 13, 2025