ChatPaper.aiChatPaper

표현 자동인코더를 활용한 텍스트-이미지 확산 트랜스포머의 확장

Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders

January 22, 2026
저자: Shengbang Tong, Boyang Zheng, Ziteng Wang, Bingda Tang, Nanye Ma, Ellis Brown, Jihan Yang, Rob Fergus, Yann LeCun, Saining Xie
cs.AI

초록

표현 자동인코더(RAE)는 고차원 의미론적 잠재 공간에서의 학습을 통해 ImageNet 확산 모델링에서 뚜렷한 장점을 보여왔습니다. 본 연구에서는 이러한 프레임워크가 대규모 자유 형식 텍스트-이미지(T2I) 생성으로 확장 가능한지 조사합니다. 먼저 웹, 합성 및 텍스트 렌더링 데이터를 학습하여 고정된 표현 인코더(SigLIP-2) 기반 RAE 디코더를 ImageNet 이상으로 확장한 결과, 규모 확대가 일반적인 충실도는 향상시키지만 텍스트와 같은 특정 영역에는 대상 데이터 구성이 필수적임을 확인했습니다. 다음으로 ImageNet용으로 제안된 RAE 설계 선택 사항을 엄격하게 스트레스 테스트합니다. 우리의 분석에 따르면 규모 확대는 프레임워크를 단순화합니다: 차원 의존적 노이즈 스케줄링은 여전히 중요하지만, 넓은 확산 헤드나 노이즈 증강 디코딩과 같은 구조적 복잡성은 규모가 커지면 미미한 이점만 제공합니다. 이 단순화된 프레임워크를 바탕으로 0.5B부터 9.8B 매개변수에 이르는 확산 트랜스포머 규모에서 RAE와 최첨단 FLUX VAE를 체계적으로 비교합니다. RAE는 모든 모델 규모에서 사전 학습 동안 일관되게 VAE를 능가했습니다. 더 나아가 고품질 데이터셋에 대한 미세 조정 시 VAE 기반 모델은 64 epoch 이후 치명적인 과적합을 보인 반면, RAE 모델은 256 epoch 동안 안정적으로 유지되며 일관되게 더 나은 성능을 달성했습니다. 모든 실험에서 RAE 기반 확산 모델은 더 빠른 수렴 속도와 우수한 생성 품질을 보여주며, 대규모 T2I 생성에 VAE보다 더 간단하고 강력한 기반으로 RAE를 입증했습니다. 또한 시각적 이해와 생성이 모두 공유 표현 공간에서 작동할 수 있으므로 다중모달 모델이 생성된 잠재 변수를 직접 추론할 수 있어 통합 모델에 새로운 가능성을 열어줍니다.
English
Representation Autoencoders (RAEs) have shown distinct advantages in diffusion modeling on ImageNet by training in high-dimensional semantic latent spaces. In this work, we investigate whether this framework can scale to large-scale, freeform text-to-image (T2I) generation. We first scale RAE decoders on the frozen representation encoder (SigLIP-2) beyond ImageNet by training on web, synthetic, and text-rendering data, finding that while scale improves general fidelity, targeted data composition is essential for specific domains like text. We then rigorously stress-test the RAE design choices originally proposed for ImageNet. Our analysis reveals that scaling simplifies the framework: while dimension-dependent noise scheduling remains critical, architectural complexities such as wide diffusion heads and noise-augmented decoding offer negligible benefits at scale Building on this simplified framework, we conduct a controlled comparison of RAE against the state-of-the-art FLUX VAE across diffusion transformer scales from 0.5B to 9.8B parameters. RAEs consistently outperform VAEs during pretraining across all model scales. Further, during finetuning on high-quality datasets, VAE-based models catastrophically overfit after 64 epochs, while RAE models remain stable through 256 epochs and achieve consistently better performance. Across all experiments, RAE-based diffusion models demonstrate faster convergence and better generation quality, establishing RAEs as a simpler and stronger foundation than VAEs for large-scale T2I generation. Additionally, because both visual understanding and generation can operate in a shared representation space, the multimodal model can directly reason over generated latents, opening new possibilities for unified models.
PDF401January 24, 2026