El Arte de Escalar el Cómputo en Tiempo de Prueba para Modelos de Lenguaje a Gran Escala

Resumen

La escalado en tiempo de prueba (TTS) —la asignación dinámica de capacidad de cómputo durante la inferencia— es una dirección prometedora para mejorar el razonamiento en los modelos de lenguaje grandes (LLMs). Sin embargo, falta una comparación sistemática de las estrategias TTS conocidas en condiciones idénticas, y la influencia del tipo de modelo y la dificultad del problema en el rendimiento sigue sin estar clara. Para abordar estas lagunas, realizamos el primer estudio a gran escala de TTS, que abarca más de treinta mil millones de tokens generados utilizando ocho LLMs de código abierto (de 7B a 235B parámetros), en cuatro conjuntos de datos de razonamiento. Observamos tres tendencias consistentes: (1) ninguna estrategia TTS domina universalmente; (2) los modelos de razonamiento exhiben patrones distintos de calidad de traza según la dificultad del problema y la longitud de la traza, formando categorías de horizonte corto y horizonte largo; y (3) para un tipo de modelo dado, el rendimiento TTS óptimo escala monótonamente con el presupuesto de cómputo. Con base en estas observaciones, ofrecemos una receta práctica para seleccionar la mejor estrategia TTS, considerando la dificultad del problema, el tipo de modelo y el presupuesto de cómputo, proporcionando así una guía práctica para un escalado efectivo en tiempo de inferencia.

English

Test-time scaling (TTS) -- the dynamic allocation of compute during inference -- is a promising direction for improving reasoning in large language models (LLMs). However, a systematic comparison of well-known TTS strategies under identical conditions is missing, and the influence of model type and problem difficulty on performance remains unclear. To address these gaps, we conduct the first large-scale study of TTS, spanning over thirty billion tokens generated using eight open-source LLMs (7B to 235B parameters), across four reasoning datasets. We observe three consistent trends: (1) no single TTS strategy universally dominates; (2) reasoning models exhibit distinct trace-quality patterns across problem difficulty and trace length, forming short-horizon and long-horizon categories; and (3) for a given model type, the optimal TTS performance scales monotonically with compute budget. Based on these insights, we provide a practical recipe for selecting the best TTS strategy, considering problem difficulty, model type, and compute budget, providing a practical guide to effective inference-time scaling.

El Arte de Escalar el Cómputo en Tiempo de Prueba para Modelos de Lenguaje a Gran Escala

The Art of Scaling Test-Time Compute for Large Language Models

Resumen

Support