일반화 또는 암기: 모드 조정을 위한 동적 디코딩
Generalization or Memorization: Dynamic Decoding for Mode Steering
October 25, 2025
저자: Xuanming Zhang
cs.AI
초록
대규모 언어 모델(LLM)은 놀라운 일반화 능력과 훈련 데이터의 취약한 축어적 암기라는 문제적인 이중성을 보여준다. 이러한 예측 불가능성은 높은 위험을 수반하는 응용 분야에서 LLM의 신뢰성을 저해한다. 본 연구에서는 이러한 상이한 추론 모드를 이해, 식별, 제어하기 위한 통합 프레임워크를 제안한다. 먼저, 정보 병목(IB) 원리에 기반한 이론적 모델을 도입하여 일반화를 압축된 작업 관련 표현의 학습으로, 암기화를 압축 실패로 공식화한다. 이 이론을 바탕으로 우리는 새로운 추론 시점 알고리즘인 동적 모드 스티어링(DMS)을 개발한다. DMS는 두 가지 구성 요소로 이루어지는데, (1) 모델의 순간적 암기 의존도를 식별하는 경량의 인과적 기반 선형 프로브와, (2) 모델의 계산을 사전 식별된 일반화 회로 쪽으로 유도하는 동적 활성화 스티어링 메커니즘이다. 우리는 DMS를 적응형 자기 대비 디코딩의 한 형태로 규정한다. 추론 및 사실성 과제에 대한 실험 결과, DMS가 논리적 일관성과 사실적 정확도를 크게 향상시켜 LLM 신뢰성 강화를 위한 원칙적인 접근법을 제공함을 입증한다.
English
Large Language Models (LLMs) exhibit a troubling duality, capable of both
remarkable generalization and brittle, verbatim memorization of their training
data. This unpredictability undermines their reliability in high-stakes
applications. In this work, we propose a unified framework to understand,
identify, and control these distinct reasoning modes. First, we introduce a
theoretical model based on the Information Bottleneck (IB) principle,
formalizing generalization as the learning of a compressed, task-relevant
representation and memorization as a failure to compress. Building on this
theory, we develop Dynamic Mode Steering (DMS), a novel inference-time
algorithm which comprises two components: (1) a lightweight, causally-grounded
linear probe that identifies the model's instantaneous reliance on
memorization, and (2) a dynamic activation steering mechanism that nudges the
model's computation towards pre-identified generalization circuits. We frame
DMS as a form of adaptive, self-contrastive decoding. Experiments on reasoning
and faithfulness tasks demonstrate that DMS significantly improves logical
consistency and factual accuracy, thereby offering a principled approach to
enhancing LLM reliability.