ChatPaper.aiChatPaper

Composición de Conceptos a partir de Imágenes y Videos mediante Enlace de Conceptos y Prompts

Composing Concepts from Images and Videos via Concept-prompt Binding

December 10, 2025
Autores: Xianghao Kong, Zeyu Zhang, Yuwei Guo, Zhuoran Zhao, Songchun Zhang, Anyi Rao
cs.AI

Resumen

La composición de conceptos visuales, que busca integrar diferentes elementos de imágenes y vídeos en una única salida visual coherente, aún no logra extraer con precisión conceptos complejos de entradas visuales ni combinar flexiblemente conceptos de imágenes y vídeos. Presentamos Bind & Compose, un método de un solo disparo que permite la composición flexible de conceptos visuales mediante la vinculación de conceptos visuales con tokens de prompt correspondientes y la composición del prompt objetivo con tokens vinculados de diversas fuentes. Adopta una estructura de vinculador jerárquica para el acondicionamiento de atención cruzada en Transformadores de Difusión, codificando conceptos visuales en tokens de prompt correspondientes para una descomposición precisa de conceptos visuales complejos. Para mejorar la precisión de la vinculación concepto-token, diseñamos un Mecanismo de Diversificar y Absorber que utiliza un token absorbente adicional para eliminar el impacto de detalles irrelevantes al concepto durante el entrenamiento con prompts diversificados. Para mejorar la compatibilidad entre conceptos de imagen y vídeo, presentamos una Estrategia de Desenredado Temporal que desacopla el proceso de entrenamiento de conceptos de vídeo en dos etapas con una estructura de vinculador de doble rama para el modelado temporal. Las evaluaciones demuestran que nuestro método logra una consistencia conceptual, fidelidad al prompt y calidad de movimiento superiores a los enfoques existentes, abriendo nuevas posibilidades para la creatividad visual.
English
Visual concept composition, which aims to integrate different elements from images and videos into a single, coherent visual output, still falls short in accurately extracting complex concepts from visual inputs and flexibly combining concepts from both images and videos. We introduce Bind & Compose, a one-shot method that enables flexible visual concept composition by binding visual concepts with corresponding prompt tokens and composing the target prompt with bound tokens from various sources. It adopts a hierarchical binder structure for cross-attention conditioning in Diffusion Transformers to encode visual concepts into corresponding prompt tokens for accurate decomposition of complex visual concepts. To improve concept-token binding accuracy, we design a Diversify-and-Absorb Mechanism that uses an extra absorbent token to eliminate the impact of concept-irrelevant details when training with diversified prompts. To enhance the compatibility between image and video concepts, we present a Temporal Disentanglement Strategy that decouples the training process of video concepts into two stages with a dual-branch binder structure for temporal modeling. Evaluations demonstrate that our method achieves superior concept consistency, prompt fidelity, and motion quality over existing approaches, opening up new possibilities for visual creativity.
PDF252December 13, 2025