ChatPaper.aiChatPaper

좋은 부분으로 바로 가기: 확산 모델과 자기회귀적 LLM에서의 표현 구조와 추론 시 레이어 건너뛰기

Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

March 8, 2026
저자: Raghavv Goel, Risheek Garrepalli, Sudhanshu Agrawal, Chris Lott, Mingu Lee, Fatih Porikli
cs.AI

초록

자기회귀(AR) 언어 모델은 좌측에서 우측으로의 예측을 통해 점진적으로 표현을 형성하는 반면, 확산 언어 모델(dLLM)은 전체 시퀀스 잡음 제거를 통해 학습됩니다. 최근 dLLM이 AR 성능을 따라잡았지만, 확산 목표 함수가 내부 표현을 깊이에 걸쳐 근본적으로 재구성하는지 여부는 여전히 불분명합니다. 본 연구에서는 기본 dLLM(LLaDA), 기본 AR 모델(Qwen2.5), AR 초기화 dLLM(Dream-7B)을 비교하는 최초의 계층별 및 토큰별 표현 분석을 수행합니다. 분석 결과, 확산 목표 함수는 상이하고 더 위계적인 추상화를 초래하며, 초기 계층에서 상당한 중복성과 최신성 편향 감소를 보이는 반면, AR 목표 함수는 긴밀하게 결합되고 깊이에 의존적인 표현을 생성합니다. 중요한 것은, AR 초기화 dLLM은 확산 학습에도 불구하고 AR과 유사한 표현 역학을 유지하여 지속적인 초기화 편향을 드러냅니다. 관찰된 이러한 표현 중복성을 활용하여, 우리는 아키텍처 변경이나 KV 캐시 공유가 필요 없는 정적이고 작업에 독립적인 추론 시점 계층 생략 방법을 제안합니다. 기본 dLLM은 추론 및 코드 생성 벤치마크에서 90% 이상의 성능을 유지하면서 최대 18.75%의 FLOPs 감소를 달성한 반면, AR 모델은 유사한 생략 하에서 성능이 급격히 저하되었습니다. 이러한 결과는 학습 목표 함수와 표현 구조를 연결하며, 캐시와 독립적인 실용적인 효율성 향상을 가능하게 합니다.
English
Autoregressive (AR) language models form representations incrementally through left-to-right prediction, whereas diffusion language models (dLLMs) are trained via full-sequence denoising. Although recent dLLMs match AR performance, it remains unclear whether diffusion objectives fundamentally reshape internal representations across depth. We perform the first layer- and token-wise representational analysis comparing native dLLMs (LLaDA), native AR models (Qwen2.5), and AR-initialized dLLMs (Dream-7B). We find that diffusion objectives result in different, more hierarchical abstractions with substantial early-layer redundancy and reduced recency bias, while AR objectives produce tightly coupled, depth-dependent representations. Critically, AR-initialized dLLMs retain AR-like representational dynamics despite diffusion training, revealing persistent initialization bias. Leveraging this observed representational redundancy, we introduce a static, task-agnostic inference-time layer-skipping method requiring no architectural changes or KV-cache sharing. Native dLLMs achieve up to 18.75% FLOPs reduction while preserving over 90% performance on reasoning and code generation benchmarks, whereas AR models degrade sharply under comparable skipping. These results link training objectives to representational structure and enable practical, cache-orthogonal efficiency gains.
PDF32March 15, 2026