ChatPaper.aiChatPaper

ELT: 시각적 생성을 위한 탄성 루프 트랜스포머

ELT: Elastic Looped Transformers for Visual Generation

April 10, 2026
저자: Sahil Goyal, Swayam Agrawal, Gautham Govind Anil, Prateek Jain, Sujoy Paul, Aditya Kusupati
cs.AI

초록

우리는 순환 트랜스포머 아키텍처 기반의 고도로 매개변수 효율적인 시각 생성 모델 클래스인 Elastic Looped Transformers(ELT)를 소개한다. 기존 생성 모델이 고유한 트랜스포머 계층을 깊게 쌓는 데 의존하는 반면, 우리의 접근법은 반복적이고 가중치가 공유되는 트랜스포머 블록을 사용하여 높은 합성 품질을 유지하면서 매개변수 수를 획기적으로 줄인다. 이미지 및 동영상 생성을 위해 이러한 모델을 효과적으로 학습시키기 위해, 우리는 학생 구성(중간 루프)이 교사 구성(최대 학습 루프)으로부터 지식 증류되어 단일 학습 단계에서 모델 깊이 전반에 걸친 일관성을 보장하는 Intra-Loop Self Distillation(ILSD) 아이디어를 제안한다. 우리의 프레임워크는 단일 학습 실행을 통해 동일한 매개변수 수로 계산 비용과 생성 품질 간의 동적 절충을 통해 Anytime 추론 능력을 가능하게 하는 탄력적 모델 패밀리를 생성한다. ELT는 시각 합성의 효율성 한계를 크게 전진시킨다. 동등 추론 계산 설정에서 매개변수 수가 4배 감소함에도 불구하고, ELT는 클래스 조건부 ImageNet 256×256에서 2.0의 경쟁력 있는 FID를, 클래스 조건부 UCF-101에서 72.8의 FVD를 달성한다.
English
We introduce Elastic Looped Transformers (ELT), a highly parameter-efficient class of visual generative models based on a recurrent transformer architecture. While conventional generative models rely on deep stacks of unique transformer layers, our approach employs iterative, weight-shared transformer blocks to drastically reduce parameter counts while maintaining high synthesis quality. To effectively train these models for image and video generation, we propose the idea of Intra-Loop Self Distillation (ILSD), where student configurations (intermediate loops) are distilled from the teacher configuration (maximum training loops) to ensure consistency across the model's depth in a single training step. Our framework yields a family of elastic models from a single training run, enabling Any-Time inference capability with dynamic trade-offs between computational cost and generation quality, with the same parameter count. ELT significantly shifts the efficiency frontier for visual synthesis. With 4times reduction in parameter count under iso-inference-compute settings, ELT achieves a competitive FID of 2.0 on class-conditional ImageNet 256 times 256 and FVD of 72.8 on class-conditional UCF-101.
PDF151April 14, 2026