Primero Finalizar Búsqueda: Escalado Eficiente en Tiempo de Prueba en Modelos de Lenguaje a Gran Escala

Resumen

El escalado en tiempo de prueba (TTS, por sus siglas en inglés), que implica la asignación dinámica de recursos computacionales durante la inferencia, ofrece una forma prometedora de mejorar el razonamiento en los modelos de lenguaje grandes. Aunque los métodos existentes de TTS funcionan bien, a menudo dependen de trayectorias de decodificación largas o requieren la generación de un gran número de muestras, lo que aumenta el uso de tokens y la latencia de inferencia. Observamos el hecho sorprendente de que, en tareas de razonamiento, las trazas más cortas tienen una probabilidad mucho mayor de ser correctas que las más largas. Motivados por esto, presentamos First Finish Search (FFS), una estrategia de decodificación paralela sin entrenamiento que lanza n muestras independientes y devuelve el resultado tan pronto como cualquiera de ellas se completa. Evaluamos FFS junto con decodificación simple, búsqueda por haz, votación mayoritaria y forzado de presupuesto en cuatro modelos de razonamiento (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B y Phi-4-Reasoning-Plus) y en cuatro conjuntos de datos (AIME24, AIME25-I, AIME25-II y GPQA Diamond). Con DeepSeek-R1, FFS alcanza un 82.23% de precisión en los conjuntos de datos AIME, un 15% de mejora sobre la precisión independiente de DeepSeek-R1, casi igualando el rendimiento de OpenAI o4-mini. Nuestro análisis teórico explica por qué detenerse en la traza más corta es probable que produzca una respuesta correcta e identifica las condiciones bajo las cuales la detención temprana puede ser subóptima. La elegancia y simplicidad de FFS demuestran que las estrategias sencillas de TTS pueden desempeñarse notablemente bien, revelando el potencial no explotado de los enfoques simples durante la inferencia.

English

Test-time scaling (TTS), which involves dynamic allocation of compute during inference, offers a promising way to improve reasoning in large language models. While existing TTS methods work well, they often rely on long decoding paths or require a large number of samples to be generated, increasing the token usage and inference latency. We observe the surprising fact that for reasoning tasks, shorter traces are much more likely to be correct than longer ones. Motivated by this, we introduce First Finish Search (FFS), a training-free parallel decoding strategy that launches n independent samples and returns as soon as any one completes. We evaluate FFS alongside simple decoding, beam search, majority voting, and budget forcing on four reasoning models (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B and Phi-4-Reasoning-Plus) and across four datasets (AIME24, AIME25-I, AIME25-II and GPQA Diamond). With DeepSeek-R1, FFS achieves 82.23% accuracy on the AIME datasets, a 15% improvement over DeepSeek-R1's standalone accuracy, nearly matching OpenAI's o4-mini performance. Our theoretical analysis explains why stopping at the shortest trace is likely to yield a correct answer and identifies the conditions under which early stopping may be suboptimal. The elegance and simplicity of FFS demonstrate that straightforward TTS strategies can perform remarkably well, revealing the untapped potential of simple approaches at inference time.

Primero Finalizar Búsqueda: Escalado Eficiente en Tiempo de Prueba en Modelos de Lenguaje a Gran Escala

First Finish Search: Efficient Test-Time Scaling in Large Language Models

Resumen

Support