nabla-Reasoner: 잠재 공간 내 시험 시간 경사하강법을 통한 대규모 언어 모델 추론
nabla-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space
March 5, 2026
저자: Peihao Wang, Ruisi Cai, Zhen Wang, Hongyuan Mei, Qiang Liu, Pan Li, Zhangyang Wang
cs.AI
초록
대규모 언어 모델(LLM)의 추론 시간 계산 자원 확장은 전례 없는 수준의 추론 능력을 가능하게 하였다. 그러나 기존의 추론 시간 확장 방법은 일반적으로 비효율적이고 최적이 아닌 이산 탐색 알고리즘이나 시행착오 방식의 프롬프팅에 의존하여 온라인 정책을 개선해 왔다. 본 논문에서는 토큰 로짓에 대한 미분 가능 최적화를 디코딩 루프에 통합하여 실시간으로 정책을 개선하는 반복 생성 프레임워크인 nabla-Reasoner를 제안한다. 우리의 핵심 구성 요소인 미분 가능 텍스트 최적화(DTO)는 LLM의 가능도와 보상 모델로부터의 기울기 신호를 활용하여 텍스트 표현을 정제한다. nabla-Reasoner는 또한 기각 샘플링과 가속화 설계를 추가하여 디코딩의 견고성과 속도를 높인다. 이론적으로는 표본 공간에서 추론 시간 경사 하강법을 수행하여 보상을 극대화하는 것이 KL 정규화 강화 학습을 통한 LLM 정책 정렬과 쌍대성을 이룸을 보인다. 경험적으로, nabla-Reasoner는 까다로운 수학적 추론 벤치마크에서 20% 이상의 정확도 향상을 달성하였으며, 강력한 베이스라인 대비 모델 호출 횟수를 약 10-40% 감소시켰다. 전반적으로, 우리의 연구는 테스트 시간에 영차 탐색에서 일차 최적화로의 패러다임 전환을 제시함으로써 LLM 추론 능력을 증폭시키는 비용 효율적인 경로를 제공한다.
English
Scaling inference-time compute for Large Language Models (LLMs) has unlocked unprecedented reasoning capabilities. However, existing inference-time scaling methods typically rely on inefficient and suboptimal discrete search algorithms or trial-and-error prompting to improve the online policy. In this paper, we propose nabla-Reasoner, an iterative generation framework that integrates differentiable optimization over token logits into the decoding loop to refine the policy on the fly. Our core component, Differentiable Textual Optimization (DTO), leverages gradient signals from both the LLM's likelihood and a reward model to refine textual representations. nabla-Reasoner further incorporates rejection sampling and acceleration design to robustify and speed up decoding. Theoretically, we show that performing inference-time gradient descent in the sample space to maximize reward is dual to aligning an LLM policy via KL-regularized reinforcement learning. Empirically, nabla-Reasoner achieves over 20% accuracy improvement on a challenging mathematical reasoning benchmark, while reducing number of model calls by approximately 10-40% compared to strong baselines. Overall, our work introduces a paradigm shift from zeroth-order search to first-order optimization at test time, offering a cost-effective path to amplify LLM reasoning.