ChatPaper.aiChatPaper

Razonamiento con Muestreo: Tu Modelo Base es Más Inteligente de lo que Piensas

Reasoning with Sampling: Your Base Model is Smarter Than You Think

October 16, 2025
Autores: Aayush Karan, Yilun Du
cs.AI

Resumen

Los modelos de razonamiento de vanguardia han exhibido capacidades increíbles en una amplia gama de disciplinas, impulsados por el post-entrenamiento de grandes modelos de lenguaje (LLMs) con aprendizaje por refuerzo (RL). Sin embargo, a pesar del éxito generalizado de este paradigma, gran parte de la literatura se ha dedicado a desentrañar comportamientos verdaderamente novedosos que emergen durante el RL pero que no están presentes en los modelos base. En nuestro trabajo, abordamos esta pregunta desde un ángulo diferente, preguntándonos en cambio si capacidades de razonamiento comparables pueden ser elicitadas de los modelos base en tiempo de inferencia mediante muestreo puro, sin ningún entrenamiento adicional. Inspirados por las técnicas de Monte Carlo mediante cadenas de Markov (MCMC) para muestrear distribuciones afiladas, proponemos un algoritmo de muestreo iterativo simple que aprovecha las verosimilitudes de los modelos base. En diferentes modelos base, mostramos que nuestro algoritmo ofrece mejoras sustanciales en el razonamiento que casi igualan e incluso superan a las del RL en una amplia variedad de tasks de una sola toma, incluyendo MATH500, HumanEval y GPQA. Además, nuestro muestreador evita el colapso en la diversidad sobre múltiples muestras que es característico del post-entrenamiento con RL. Crucialmente, nuestro método no requiere entrenamiento, conjuntos de datos curados ni un verificador, lo que sugiere una amplia aplicabilidad más allá de dominios fácilmente verificables.
English
Frontier reasoning models have exhibited incredible capabilities across a wide array of disciplines, driven by posttraining large language models (LLMs) with reinforcement learning (RL). However, despite the widespread success of this paradigm, much of the literature has been devoted to disentangling truly novel behaviors that emerge during RL but are not present in the base models. In our work, we approach this question from a different angle, instead asking whether comparable reasoning capabilites can be elicited from base models at inference time by pure sampling, without any additional training. Inspired by Markov chain Monte Carlo (MCMC) techniques for sampling from sharpened distributions, we propose a simple iterative sampling algorithm leveraging the base models' own likelihoods. Over different base models, we show that our algorithm offers substantial boosts in reasoning that nearly match and even outperform those from RL on a wide variety of single-shot tasks, including MATH500, HumanEval, and GPQA. Moreover, our sampler avoids the collapse in diversity over multiple samples that is characteristic of RL-posttraining. Crucially, our method does not require training, curated datasets, or a verifier, suggesting broad applicability beyond easily verifiable domains.
PDF476December 17, 2025