表現のアラインメントにおいて重要なのは:グローバル情報か空間構造か?
What matters for Representation Alignment: Global Information or Spatial Structure?
December 11, 2025
著者: Jaskirat Singh, Xingjian Leng, Zongze Wu, Liang Zheng, Richard Zhang, Eli Shechtman, Saining Xie
cs.AI
要旨
表現アライメント(REPA)は、強力な事前学習済み視覚エンコーダーから中間拡散特徴へ表現を蒸留することで、生成的訓練を導く。本研究では、生成モデルにとって対象表現のどの側面が重要であるかという根本的な問題を探る:それは大域的な意味情報(例:ImageNet-1K精度で測定)なのか、それとも空間構造(パッチトークン間のペアワイズ余弦類似度)なのか。一般的な通説では、より強力な大域的意味性能が、対象表現としてより優れた生成結果をもたらすとされている。これを検証するため、我々はまず27種類の異なる視覚エンコーダーと様々なモデル規模にわたる大規模な実証分析を実施した。結果は驚くべきもので、大域的性能ではなく、空間構造が対象表現の生成性能を駆動していることが明らかになった。さらに研究を進めるため、空間情報の転送を特に強調する二つの簡潔な修正を導入した。REPAの標準的なMLP投影層を単純な畳み込み層に置き換え、外部表現のための空間正規化層を導入する。驚くべきことに、我々の簡潔な手法(<4行のコードで実装、iREPAと命名)は、多様な視覚エンコーダー、モデルサイズ、訓練変種(REPA、REPA-E、Meanflow、JiTなど)にわたって、REPAの収束速度を一貫して向上させた。本研究は、表現アライメントの根本的な作用メカニズムと、生成的モデルの訓練改善にそれを如何に活用できるかを見直す動機付けとなる。コードとプロジェクトページはhttps://end2end-diffusion.github.io/irepa で公開されている。
English
Representation alignment (REPA) guides generative training by distilling representations from a strong, pretrained vision encoder to intermediate diffusion features. We investigate a fundamental question: what aspect of the target representation matters for generation, its global semantic information (e.g., measured by ImageNet-1K accuracy) or its spatial structure (i.e. pairwise cosine similarity between patch tokens)? Prevalent wisdom holds that stronger global semantic performance leads to better generation as a target representation. To study this, we first perform a large-scale empirical analysis across 27 different vision encoders and different model scales. The results are surprising; spatial structure, rather than global performance, drives the generation performance of a target representation. To further study this, we introduce two straightforward modifications, which specifically accentuate the transfer of spatial information. We replace the standard MLP projection layer in REPA with a simple convolution layer and introduce a spatial normalization layer for the external representation. Surprisingly, our simple method (implemented in <4 lines of code), termed iREPA, consistently improves convergence speed of REPA, across a diverse set of vision encoders, model sizes, and training variants (such as REPA, REPA-E, Meanflow, JiT etc). %, etc. Our work motivates revisiting the fundamental working mechanism of representational alignment and how it can be leveraged for improved training of generative models. The code and project page are available at https://end2end-diffusion.github.io/irepa