ChatPaper.aiChatPaper

이미지 및 비디오를 통한 개념-프롬프트 바인딩 기반 개념 구성

Composing Concepts from Images and Videos via Concept-prompt Binding

December 10, 2025
저자: Xianghao Kong, Zeyu Zhang, Yuwei Guo, Zhuoran Zhao, Songchun Zhang, Anyi Rao
cs.AI

초록

시각적 개념 구성은 이미지와 동영상의 서로 다른 요소들을 단일한 일관된 시각적 결과물로 통합하는 것을 목표로 하지만, 여전히 시각적 입력에서 복잡한 개념을 정확하게 추출하고 이미지와 동영상의 개념을 유연하게 결합하는 데 한계가 있습니다. 본 연구에서는 시각적 개념을 해당 프롬프트 토큰에 바인딩하고 다양한 소스의 바인딩된 토큰으로 대상 프롬프트를 구성함으로써 유연한 시각적 개념 구성을 가능하게 하는 원샷 방법인 Bind & Compose를 소개합니다. 이 방법은 Diffusion Transformer의 교차 주의 조건화를 위한 계층적 바인더 구조를 채택하여 복잡한 시각적 개념의 정확한 분해를 위해 시각적 개념을 해당 프롬프트 토큰으로 인코딩합니다. 개념-토큰 바인딩 정확도를 향상시키기 위해, 다양화된 프롬프트로 학습할 때 개념과 무관한 세부 사항의 영향을 제거하기 위한 추가 흡수 토큰을 사용하는 다양화 및 흡수 메커니즘을 설계했습니다. 이미지와 동영상 개념 간의 호환성을 강화하기 위해, 시간적 모델링을 위한 이중 분기 바인더 구조로 동영상 개념의 학습 과정을 두 단계로 분리하는 시간적 분리 전략을 제시합니다. 평가 결과, 우리의 방법이 기존 접근법보다 우수한 개념 일관성, 프롬프트 충실도 및 모션 품질을 달성하여 시각적 창의성을 위한 새로운 가능성을 열어줍니다.
English
Visual concept composition, which aims to integrate different elements from images and videos into a single, coherent visual output, still falls short in accurately extracting complex concepts from visual inputs and flexibly combining concepts from both images and videos. We introduce Bind & Compose, a one-shot method that enables flexible visual concept composition by binding visual concepts with corresponding prompt tokens and composing the target prompt with bound tokens from various sources. It adopts a hierarchical binder structure for cross-attention conditioning in Diffusion Transformers to encode visual concepts into corresponding prompt tokens for accurate decomposition of complex visual concepts. To improve concept-token binding accuracy, we design a Diversify-and-Absorb Mechanism that uses an extra absorbent token to eliminate the impact of concept-irrelevant details when training with diversified prompts. To enhance the compatibility between image and video concepts, we present a Temporal Disentanglement Strategy that decouples the training process of video concepts into two stages with a dual-branch binder structure for temporal modeling. Evaluations demonstrate that our method achieves superior concept consistency, prompt fidelity, and motion quality over existing approaches, opening up new possibilities for visual creativity.
PDF252December 13, 2025