ChatPaper.aiChatPaper

Muestreo de Potencia Escalable: Desbloqueando el Razonamiento Eficiente y Libre de Entrenamiento para LLMs mediante el Afilado de Distribuciones

Scalable Power Sampling: Unlocking Efficient, Training-Free Reasoning for LLMs via Distribution Sharpening

January 29, 2026
Autores: Xiaotong Ji, Rasul Tutunov, Matthieu Zimmer, Haitham Bou Ammar
cs.AI

Resumen

El post-entrenamiento por aprendizaje por refuerzo (RL) es un enfoque dominante para mejorar el rendimiento en razonamiento de los grandes modelos de lenguaje (LLMs); sin embargo, la creciente evidencia sugiere que sus mejoras surgen principalmente de un afilado de la distribución más que de la adquisición de nuevas capacidades. Trabajos recientes han demostrado que muestrear de la distribución de potencia de los LLMs utilizando cadenas de Markov Monte Carlo (MCMC) puede recuperar un rendimiento comparable al del post-entrenamiento con RL sin depender de recompensas externas; no obstante, el alto coste computacional de MCMC hace que dichos enfoques sean poco prácticos para una adopción generalizada. En este trabajo, proponemos una alternativa con bases teóricas que elimina la necesidad del MCMC iterativo. Derivamos una nueva formulación que muestra que la distribución de potencia global puede aproximarse mediante una distribución a nivel de token, escalada y de baja temperatura, donde el factor de escala captura la calidad de la trayectoria futura. Aprovechando esta idea, presentamos un algoritmo libre de entrenamiento y de verificador que afila la distribución generativa del modelo base de forma autoregresiva. Empíricamente, evaluamos nuestro método en tareas de matemáticas, preguntas y respuestas (QA) y código en cuatro LLMs, y demostramos que nuestro método iguala o supera al GRPO de un solo intento sin depender de recompensas externas, al tiempo que reduce la latencia de inferencia en más de 10 veces en comparación con el muestreo basado en MCMC.
English
Reinforcement learning (RL) post-training is a dominant approach for improving the reasoning performance of large language models (LLMs), yet growing evidence suggests that its gains arise primarily from distribution sharpening rather than the acquisition of new capabilities. Recent work has shown that sampling from the power distribution of LLMs using Markov chain Monte Carlo (MCMC) can recover performance comparable to RL post-training without relying on external rewards; however, the high computational cost of MCMC makes such approaches impractical for widespread adoption. In this work, we propose a theoretically grounded alternative that eliminates the need for iterative MCMC. We derive a novel formulation showing that the global power distribution can be approximated by a token-level scaled low-temperature one, where the scaling factor captures future trajectory quality. Leveraging this insight, we introduce a training-free and verifier-free algorithm that sharpens the base model's generative distribution autoregressively. Empirically, we evaluate our method on math, QA, and code tasks across four LLMs, and show that our method matches or surpasses one-shot GRPO without relying on any external rewards, while reducing inference latency by over 10x compared to MCMC-based sampling.
PDF108January 31, 2026