ChatPaper.aiChatPaper

표현 정렬에 중요한 것은 무엇인가: 전역 정보인가, 공간 구조인가?

What matters for Representation Alignment: Global Information or Spatial Structure?

December 11, 2025
저자: Jaskirat Singh, Xingjian Leng, Zongze Wu, Liang Zheng, Richard Zhang, Eli Shechtman, Saining Xie
cs.AI

초록

표현 정렬(REPA)은 강력한 사전 학습 비전 인코더의 표현을 확산 모델의 중간 특징으로 증류하여 생성적 학습을 유도합니다. 본 연구에서는 생성 작업에 있어 목표 표현의 어떤 측면이 중요한지에 대한 근본적인 질문을 탐구합니다: 글로벌 의미 정보(예: ImageNet-1K 정확도로 측정)와 공간 구조(즉, 패치 토큰 간의 pairwise 코사인 유사도) 중 무엇이 중요한가? 일반적인 통념은 더 강력한 글로벌 의미 성능이 목표 표현으로서 더 나은 생성을 이끈다는 것입니다. 이를 연구하기 위해, 우리는 먼저 27개의 서로 다른 비전 인코더와 다양한 모델 규모에 걸쳐 대규모 실증 분석을 수행합니다. 결과는 놀랍습니다; 글로벌 성능보다는 공간 구조가 목표 표현의 생성 성능을 주도합니다. 이를 추가로 연구하기 위해, 우리는 공간 정보 전달을 특별히 강조하는 두 가지 간단한 수정 사항을 도입합니다. REPA의 표준 MLP 투영 층을 간단한 합성곱 층으로 대체하고, 외부 표현을 위한 공간 정규화 층을 도입합니다. 놀라운 점은, iREPA라고 명명된 우리의 간단한 방법(4줄 미만의 코드로 구현됨)이 다양한 비전 인코더, 모델 크기, 그리고 학습 변형(REPA, REPA-E, Meanflow, JiT 등)에 걸쳐 REPA의 수렴 속도를 지속적으로 향상시킨다는 것입니다. 우리의 작업은 표현 정렬의 근본적인 작동 메커니즘과 이를 생성 모델의 개선된 학습에 어떻게 활용할 수 있는지를 재검토하는 동기를 부여합니다. 코드와 프로젝트 페이지는 https://end2end-diffusion.github.io/irepa에서 확인할 수 있습니다.
English
Representation alignment (REPA) guides generative training by distilling representations from a strong, pretrained vision encoder to intermediate diffusion features. We investigate a fundamental question: what aspect of the target representation matters for generation, its global semantic information (e.g., measured by ImageNet-1K accuracy) or its spatial structure (i.e. pairwise cosine similarity between patch tokens)? Prevalent wisdom holds that stronger global semantic performance leads to better generation as a target representation. To study this, we first perform a large-scale empirical analysis across 27 different vision encoders and different model scales. The results are surprising; spatial structure, rather than global performance, drives the generation performance of a target representation. To further study this, we introduce two straightforward modifications, which specifically accentuate the transfer of spatial information. We replace the standard MLP projection layer in REPA with a simple convolution layer and introduce a spatial normalization layer for the external representation. Surprisingly, our simple method (implemented in <4 lines of code), termed iREPA, consistently improves convergence speed of REPA, across a diverse set of vision encoders, model sizes, and training variants (such as REPA, REPA-E, Meanflow, JiT etc). %, etc. Our work motivates revisiting the fundamental working mechanism of representational alignment and how it can be leveraged for improved training of generative models. The code and project page are available at https://end2end-diffusion.github.io/irepa
PDF52December 17, 2025