ChatPaper.aiChatPaper

확산 트랜스포머에서 풍부한 다양성을 위한 문맥 공간 내 온더플라이 반발 기법

On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers

March 30, 2026
저자: Omer Dahary, Benaya Koren, Daniel Garibi, Daniel Cohen-Or
cs.AI

초록

현대 텍스트-이미지(T2I) 확산 모델은 놀라운 의미론적 정렬을 달성했으나, 주어진 프롬프트에 대해 좁은 시각적 해법 집합으로 수렴하는 경향이 있어 다양성이 현저히 부족한 문제가 있습니다. 이러한 전형성 편향은 광범위한 생성 결과를 요구하는 창의적 응용 분야에 걸림돌이 됩니다. 우리는 다양성 접근법에서 근본적인 절충점을 확인했습니다: 모델 입력을 수정하려면 생성 경로의 피드백을 통합하기 위해 비용이 많이 드는 최적화가 필요합니다. 반면, 공간적으로 고정된 중간 잠재 변수에 작용하는 것은 형성 중인 시각적 구조를 교란하여 인공적 결함을 초래하는 경향이 있습니다. 본 연구에서는 디퓨전 트랜스포머에서 풍부한 다양성을 달성하기 위한 새로운 프레임워크로 컨텍스트 공간 내 반발력 적용을 제안합니다. 다중 모드 어텐션 채널에 개입함으로써, 트랜스포머의 순전파 과정 중 실시간 반발력을 적용하며, 이미지 구조가 출현하여 텍스트 조건이 강화되는 블록 사이에 개입을 주입합니다. 이는 구성이 고정되기 전이면서 구조적 정보가 반영된 이후에 guidance 궤적을 재조정할 수 있게 합니다. 우리의 결과는 컨텍스트 공간 내 반발력이 시각적 충실도나 의미론적 준수를 희생하지 않으면서 상당히 풍부한 다양성을 생성함을 입증합니다. 더 나아가, 우리의 방법은 독특하게 효율적이며, 작은 계산 오버헤드만을 부과하면서 기존 궤적 기반 개입이 typically 실패하는 현대적인 "터보" 및 경량화 모델에서도 효과를 유지합니다.
English
Modern Text-to-Image (T2I) diffusion models have achieved remarkable semantic alignment, yet they often suffer from a significant lack of variety, converging on a narrow set of visual solutions for any given prompt. This typicality bias presents a challenge for creative applications that require a wide range of generative outcomes. We identify a fundamental trade-off in current approaches to diversity: modifying model inputs requires costly optimization to incorporate feedback from the generative path. In contrast, acting on spatially-committed intermediate latents tends to disrupt the forming visual structure, leading to artifacts. In this work, we propose to apply repulsion in the Contextual Space as a novel framework for achieving rich diversity in Diffusion Transformers. By intervening in the multimodal attention channels, we apply on-the-fly repulsion during the transformer's forward pass, injecting the intervention between blocks where text conditioning is enriched with emergent image structure. This allows for redirecting the guidance trajectory after it is structurally informed but before the composition is fixed. Our results demonstrate that repulsion in the Contextual Space produces significantly richer diversity without sacrificing visual fidelity or semantic adherence. Furthermore, our method is uniquely efficient, imposing a small computational overhead while remaining effective even in modern "Turbo" and distilled models where traditional trajectory-based interventions typically fail.
PDF161April 1, 2026