Un Enfoque de Inferencia Probabilística para la Escalabilidad en Tiempo de Inferencia de LLMs utilizando Métodos Monte Carlo basados en Partículas
A Probabilistic Inference Approach to Inference-Time Scaling of LLMs using Particle-Based Monte Carlo Methods
February 3, 2025
Autores: Isha Puri, Shivchander Sudalairaj, Guangxuan Xu, Kai Xu, Akash Srivastava
cs.AI
Resumen
Los modelos de lenguaje grandes (LLMs) han logrado mejoras significativas en rendimiento mediante el aumento de tamaños de modelos y/o datos. Sin embargo, evidencia reciente sugiere rendimientos decrecientes de tales enfoques, lo que motiva escalar la computación utilizada en el tiempo de inferencia. Los métodos existentes de escalado en tiempo de inferencia, generalmente con modelos de recompensa, plantean la tarea como un problema de búsqueda, que tiende a ser vulnerable a manipulaciones de recompensa como consecuencia de errores de aproximación en los modelos de recompensa. En este documento, en cambio, planteamos el escalado en tiempo de inferencia como una tarea de inferencia probabilística y aprovechamos técnicas basadas en muestreo para explorar el conjunto típico de la distribución de estados de un modelo de espacio de estados con una verosimilitud aproximada, en lugar de optimizar directamente para su modo. Proponemos un enfoque novedoso de escalado en tiempo de inferencia adaptando métodos de Monte Carlo basados en partículas a esta tarea. Nuestra evaluación empírica demuestra que nuestros métodos tienen una tasa de escalado 4-16 veces mejor que nuestros contrapartes de búsqueda determinística en varias tareas desafiantes de razonamiento matemático. Utilizando nuestro enfoque, mostramos que Qwen2.5-Math-1.5B-Instruct puede superar la precisión de GPT-4o en solo 4 iteraciones, mientras que Qwen2.5-Math-7B-Instruct alcanza una precisión de nivel o1 en solo 32 iteraciones. Nuestro trabajo no solo presenta un método efectivo para el escalado en tiempo de inferencia, sino que también conecta la rica literatura en inferencia probabilística con el escalado en tiempo de inferencia de LLMs para desarrollar algoritmos más robustos en trabajos futuros. El código y más información están disponibles en https://probabilistic-inference-scaling.github.io.
English
Large language models (LLMs) have achieved significant performance gains via
scaling up model sizes and/or data. However, recent evidence suggests
diminishing returns from such approaches, motivating scaling the computation
spent at inference time. Existing inference-time scaling methods, usually with
reward models, cast the task as a search problem, which tends to be vulnerable
to reward hacking as a consequence of approximation errors in reward models. In
this paper, we instead cast inference-time scaling as a probabilistic inference
task and leverage sampling-based techniques to explore the typical set of the
state distribution of a state-space model with an approximate likelihood,
rather than optimize for its mode directly. We propose a novel inference-time
scaling approach by adapting particle-based Monte Carlo methods to this task.
Our empirical evaluation demonstrates that our methods have a 4-16x better
scaling rate over our deterministic search counterparts on various challenging
mathematical reasoning tasks. Using our approach, we show that
Qwen2.5-Math-1.5B-Instruct can surpass GPT-4o accuracy in only 4 rollouts,
while Qwen2.5-Math-7B-Instruct scales to o1 level accuracy in only 32 rollouts.
Our work not only presents an effective method to inference-time scaling, but
also connects the rich literature in probabilistic inference with
inference-time scaling of LLMs to develop more robust algorithms in future
work. Code and further information is available at
https://probabilistic-inference-scaling.github.io.Summary
AI-Generated Summary