ChatPaper.aiChatPaper

점별 상호 정보를 활용한 추론 강화 학습을 위한 안티 자기 증류

Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

May 12, 2026
저자: Guobin Shen, Xiang Cheng, Chenxiao Zhao, Lei Huang, Jindong Li, Dongcheng Zhao, Xing Yu
cs.AI

초록

온-정책 자기 증류(on-policy self-distillation)는 학생 모델이 특권 맥락(privileged context, 예: 검증된 솔루션이나 피드백)에 조건화된 자신의 복사본으로 유도되는 방식으로, 더 강력한 외부 교사 없이 추론 능력을 향상시키는 유망한 방향을 제시한다. 그러나 수학 추론에서는 동일한 접근법이 다른 영역에서 성공함에도 불구하고 성능 향상이 일관되지 않는다. 점별 상호 정보량(pointwise mutual information) 분석은 이러한 실패의 원인이 특권 맥락 자체에 있음을 밝혀낸다. 이는 교사가 솔루션에 이미 함축된 토큰(구조적 접속사, 검증 가능한 주장)에 대한 신뢰도를 부풀리고, 다단계 탐색을 추진하는 숙고 토큰(deliberation tokens, "Wait", "Let", "Maybe")에 대한 신뢰도를 낮춘다. 우리는 학생과 교사 간의 발산(divergence)을 내려가는 대신 올라가는 Anti-Self-Distillation(AntiSD)을 제안한다. 이는 토큰별 부호를 반전시키고 한 단계에서 자연스럽게 경계 지어진 이점을 제공한다. 엔트로피 트리거 게이트(entropy-triggered gate)는 교사 엔트로피가 붕괴되면 항을 비활성화하여 기본 자기 증류의 드롭인 대체(drop-in replacement)를 완성한다. 4B에서 30B 파라미터까지의 다섯 가지 모델을 수학 추론 벤치마크에서 평가한 결과, AntiSD는 GRPO 기준선 정확도에 도달하는 데 필요한 훈련 단계 수를 2~10배 줄이고 최종 정확도를 최대 11.5포인트 향상시킨다. AntiSD는 언어 모델이 자체 훈련 신호를 통해 추론을 부트스트래핑하는 확장 가능한 자기 개선 경로를 연다.
English
On-policy self-distillation, where a student is pulled toward a copy of itself conditioned on privileged context (e.g., a verified solution or feedback), offers a promising direction for advancing reasoning capability without a stronger external teacher. Yet in math reasoning the gains are inconsistent, even when the same approach succeeds elsewhere. A pointwise mutual information analysis traces the failure to the privileged context itself: it inflates the teacher's confidence on tokens already implied by the solution (structural connectives, verifiable claims) and deflates it on deliberation tokens ("Wait", "Let", "Maybe") that drive multi-step search. We propose Anti-Self-Distillation (AntiSD), which ascends a divergence between student and teacher rather than descending it: this reverses the per-token sign and yields a naturally bounded advantage in one step. An entropy-triggered gate disables the term once the teacher entropy collapses, completing a drop-in replacement for default self-distillation. Across five models from 4B to 30B parameters on math reasoning benchmarks, AntiSD reaches the GRPO baseline's accuracy in 2 to 10x fewer training steps and improves final accuracy by up to 11.5 points. AntiSD opens a path to scalable self-improvement, where a language model bootstraps its own reasoning through its training signal.