Composição de Conceitos a partir de Imagens e Vídeos via Associação com Prompts de Conceito

Resumo

A composição de conceitos visuais, que visa integrar diferentes elementos de imagens e vídeos numa única saída visual coerente, ainda apresenta limitações na extração precisa de conceitos complexos de entradas visuais e na combinação flexível de conceitos provenientes de ambos os meios. Apresentamos o Bind & Compose, um método one-shot que permite uma composição flexível de conceitos visuais através da vinculação de conceitos visuais com tokens de prompt correspondentes e da composição do prompt-alvo com tokens vinculados de várias fontes. O método adota uma estrutura de vinculador hierárquico para condicionamento por atenção cruzada em Diffusion Transformers, codificando conceitos visuais em tokens de prompt correspondentes para uma decomposição precisa de conceitos visuais complexos. Para melhorar a precisão da vinculação conceito-token, projetamos um Mecanismo de Diversificação e Absorção que utiliza um token absorvente adicional para eliminar o impacto de detalhes irrelevantes ao conceito durante o treinamento com prompts diversificados. Para aumentar a compatibilidade entre conceitos de imagem e vídeo, apresentamos uma Estratégia de Desvinculação Temporal que desacopla o processo de treinamento de conceitos de vídeo em dois estágios com uma estrutura de vinculador de duplo ramo para modelagem temporal. As avaliações demonstram que o nosso método alcança uma consistência de conceito, fidelidade ao prompt e qualidade de movimento superiores às abordagens existentes, abrindo novas possibilidades para a criatividade visual.

English

Visual concept composition, which aims to integrate different elements from images and videos into a single, coherent visual output, still falls short in accurately extracting complex concepts from visual inputs and flexibly combining concepts from both images and videos. We introduce Bind & Compose, a one-shot method that enables flexible visual concept composition by binding visual concepts with corresponding prompt tokens and composing the target prompt with bound tokens from various sources. It adopts a hierarchical binder structure for cross-attention conditioning in Diffusion Transformers to encode visual concepts into corresponding prompt tokens for accurate decomposition of complex visual concepts. To improve concept-token binding accuracy, we design a Diversify-and-Absorb Mechanism that uses an extra absorbent token to eliminate the impact of concept-irrelevant details when training with diversified prompts. To enhance the compatibility between image and video concepts, we present a Temporal Disentanglement Strategy that decouples the training process of video concepts into two stages with a dual-branch binder structure for temporal modeling. Evaluations demonstrate that our method achieves superior concept consistency, prompt fidelity, and motion quality over existing approaches, opening up new possibilities for visual creativity.

Composição de Conceitos a partir de Imagens e Vídeos via Associação com Prompts de Conceito

Composing Concepts from Images and Videos via Concept-prompt Binding

Resumo

Support