한 모델, 다양한 예산: 확산 트랜스포머를 위한 탄력적 잠재 인터페이스
One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers
March 12, 2026
저자: Moayed Haji-Ali, Willi Menapace, Ivan Skorokhodov, Dogyun Park, Anil Kag, Michael Vasilkovsky, Sergey Tulyakov, Vicente Ordonez, Aliaksandr Siarohin
cs.AI
초록
확산 트랜스포머(DiT)는 높은 생성 품질을 달성하지만 FLOPs가 이미지 해상도에 고정되어 원칙적인 지연 시간-품질 간의 트레이드오프를 제한하며, 입력 공간 토큰 전체에 계산을 균일하게 할당하여 중요하지 않은 영역에 자원 할당을 낭비합니다. 본 논문에서는 입력 이미지 크기와 계산을 분리하는 드롭인(drop-in) 방식의 DiT 호환 메커니즘인 Elastic Latent Interface Transformer(ELIT)를 소개합니다. 우리의 접근 방식은 표준 트랜스포머 블록이 연산을 수행할 수 있는 학습 가능한 가변 길이 토큰 시퀀스인 잠재 인터페이스를 삽입합니다. 경량화된 Read 및 Write 교차 주의력(cross-attention) 계층은 공간 토큰과 잠재 변수 간에 정보를 이동시키고 중요한 입력 영역을 우선적으로 처리합니다. 꼬리 잠재 변수(tail latents)를 무작위로 제거하며 학습함으로써, ELIT는 초기 잠재 변수가 전역 구조를 포착하는 동안 후기 잠재 변수는 세부 사항을 정교화하는 정보를 포함하는 중요도 순서 표현을 생성하도록 학습합니다. 추론 시에는 잠재 변수의 수를 계산 제약에 맞게 동적으로 조정할 수 있습니다. ELIT는 의도적으로 최소한의 변경만을 가하며, 두 개의 교차 주의력 계층만 추가하고 정류 흐름(rectified flow) 목적 함수와 DiT 스택은 그대로 유지합니다. 다양한 데이터셋과 아키텍처(DiT, U-ViT, HDiT, MM-DiT)에서 ELIT는 일관된 성능 향상을 제공합니다. ImageNet-1K 512px에서 ELIT는 FID 및 FDD 점수에서 각각 평균 35.3%, 39.6%의 향상을 달성합니다. 프로젝트 페이지: https://snap-research.github.io/elit/
English
Diffusion transformers (DiTs) achieve high generative quality but lock FLOPs to image resolution, limiting principled latency-quality trade-offs, and allocate computation uniformly across input spatial tokens, wasting resource allocation to unimportant regions. We introduce Elastic Latent Interface Transformer (ELIT), a drop-in, DiT-compatible mechanism that decouples input image size from compute. Our approach inserts a latent interface, a learnable variable-length token sequence on which standard transformer blocks can operate. Lightweight Read and Write cross-attention layers move information between spatial tokens and latents and prioritize important input regions. By training with random dropping of tail latents, ELIT learns to produce importance-ordered representations with earlier latents capturing global structure while later ones contain information to refine details. At inference, the number of latents can be dynamically adjusted to match compute constraints. ELIT is deliberately minimal, adding two cross-attention layers while leaving the rectified flow objective and the DiT stack unchanged. Across datasets and architectures (DiT, U-ViT, HDiT, MM-DiT), ELIT delivers consistent gains. On ImageNet-1K 512px, ELIT delivers an average gain of 35.3% and 39.6% in FID and FDD scores. Project page: https://snap-research.github.io/elit/