nabla-Reasoner: Ragionamento dei LLM tramite Discesa del Gradiente al Tempo di Test nello Spazio Latente

Abstract

L'aumento della potenza di calcolo durante l'inferenza per i Grandi Modelli Linguistici (LLM) ha sbloccato capacità di ragionamento senza precedenti. Tuttavia, i metodi esistenti di scalabilità a tempo di inferenza si basano tipicamente su algoritmi di ricerca discreta inefficienti e subottimali o su prompt per tentativi ed errori per migliorare la politica online. In questo articolo, proponiamo nabla-Reasoner, un framework di generazione iterativa che integra un'ottimizzazione differenziabile sui logit dei token nel ciclo di decodifica per affinare la politica al volo. Il nostro componente principale, l'Ottimizzazione Testuale Differenziabile (DTO), sfrutta i segnali di gradiente sia dalla verosimiglianza dell'LLM che da un modello di reward per perfezionare le rappresentazioni testuali. nabla-Reasoner incorpora inoltre un campionamento di reiezione e un design di accelerazione per rendere la decodifica più robusta e veloce. Teoricamente, dimostriamo che eseguire la discesa del gradiente a tempo di inferenza nello spazio campionario per massimizzare la ricompensa è duale all'allineamento di una politica LLM tramite apprendimento per rinforzo regolarizzato con KL. Empiricamente, nabla-Reasoner ottiene un miglioramento dell'accuratezza superiore al 20% su un benchmark impegnativo di ragionamento matematico, riducendo al contempo il numero di chiamate al modello di circa il 10-40% rispetto a baseline solide. Nel complesso, il nostro lavoro introduce un cambio di paradigma dalla ricerca di ordine zero all'ottimizzazione di primo ordine al momento del test, offrendo un percorso economicamente vantaggioso per amplificare il ragionamento degli LLM.

English

Scaling inference-time compute for Large Language Models (LLMs) has unlocked unprecedented reasoning capabilities. However, existing inference-time scaling methods typically rely on inefficient and suboptimal discrete search algorithms or trial-and-error prompting to improve the online policy. In this paper, we propose nabla-Reasoner, an iterative generation framework that integrates differentiable optimization over token logits into the decoding loop to refine the policy on the fly. Our core component, Differentiable Textual Optimization (DTO), leverages gradient signals from both the LLM's likelihood and a reward model to refine textual representations. nabla-Reasoner further incorporates rejection sampling and acceleration design to robustify and speed up decoding. Theoretically, we show that performing inference-time gradient descent in the sample space to maximize reward is dual to aligning an LLM policy via KL-regularized reinforcement learning. Empirically, nabla-Reasoner achieves over 20% accuracy improvement on a challenging mathematical reasoning benchmark, while reducing number of model calls by approximately 10-40% compared to strong baselines. Overall, our work introduces a paradigm shift from zeroth-order search to first-order optimization at test time, offering a cost-effective path to amplify LLM reasoning.

nabla-Reasoner: Ragionamento dei LLM tramite Discesa del Gradiente al Tempo di Test nello Spazio Latente

nabla-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space

Abstract

Support