nabla-Reasoner: Рассуждение больших языковых моделей с помощью градиентного спуска в скрытом пространстве на этапе тестирования

Аннотация

Масштабирование вычислительных ресурсов на этапе вывода для больших языковых моделей (LLM) открыло беспрецедентные возможности логического мышления. Однако существующие методы масштабирования на этапе вывода обычно полагаются на неэффективные и неоптимальные алгоритмы дискретного поиска или метод проб и ошибок в промптах для улучшения онлайн-политики. В данной статье мы предлагаем nabla-Reasoner — итеративную фреймворк-систему генерации, которая интегрирует дифференцируемую оптимизацию над лог-оценками токенов в цикл декодирования для динамического уточнения политики. Наш ключевой компонент, Дифференцируемая Текстовая Оптимизация (DTO), использует градиентные сигналы как от правдоподобия самой LLM, так и от модели вознаграждения для уточнения текстовых представлений. nabla-Reasoner дополнительно включает отбраковку семплов и ускоренный дизайн для повышения надежности и скорости декодирования. Теоретически мы показываем, что выполнение градиентного спуска на этапе вывода в пространстве семплов для максимизации вознаграждения дуально выравниванию политики LLM с помощью RL с KL-регуляризацией. Эмпирически nabla-Reasoner демонстрирует улучшение точности более чем на 20% на сложном benchmark математических рассуждений, одновременно сокращая количество вызовов модели примерно на 10–40% по сравнению с сильными базовыми методами. В целом, наша работа знаменует смену парадигмы: от поиска нулевого порядка к оптимизации первого порядка во время тестирования, предлагая экономичный путь для усиления логических способностей LLM.

English

Scaling inference-time compute for Large Language Models (LLMs) has unlocked unprecedented reasoning capabilities. However, existing inference-time scaling methods typically rely on inefficient and suboptimal discrete search algorithms or trial-and-error prompting to improve the online policy. In this paper, we propose nabla-Reasoner, an iterative generation framework that integrates differentiable optimization over token logits into the decoding loop to refine the policy on the fly. Our core component, Differentiable Textual Optimization (DTO), leverages gradient signals from both the LLM's likelihood and a reward model to refine textual representations. nabla-Reasoner further incorporates rejection sampling and acceleration design to robustify and speed up decoding. Theoretically, we show that performing inference-time gradient descent in the sample space to maximize reward is dual to aligning an LLM policy via KL-regularized reinforcement learning. Empirically, nabla-Reasoner achieves over 20% accuracy improvement on a challenging mathematical reasoning benchmark, while reducing number of model calls by approximately 10-40% compared to strong baselines. Overall, our work introduces a paradigm shift from zeroth-order search to first-order optimization at test time, offering a cost-effective path to amplify LLM reasoning.

nabla-Reasoner: Рассуждение больших языковых моделей с помощью градиентного спуска в скрытом пространстве на этапе тестирования

nabla-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space

Аннотация

Support