A Arte de Dimensionar o Cálculo em Tempo de Teste para Modelos de Linguagem de Grande Escala

Resumo

A escala no momento do teste (TTS) — a alocação dinâmica de recursos computacionais durante a inferência — é uma direção promissora para melhorar o raciocínio em modelos de linguagem grandes (LLMs). No entanto, falta uma comparação sistemática de estratégias TTS conhecidas sob condições idênticas, e a influência do tipo de modelo e da dificuldade do problema no desempenho permanece pouco clara. Para abordar essas lacunas, conduzimos o primeiro estudo em larga escala sobre TTS, abrangendo mais de trinta bilhões de tokens gerados usando oito LLMs de código aberto (7B a 235B de parâmetros), em quatro conjuntos de dados de raciocínio. Observamos três tendências consistentes: (1) nenhuma única estratégia TTS domina universalmente; (2) modelos de raciocínio exibem padrões distintos de qualidade de rastreamento em relação à dificuldade do problema e ao comprimento do rastreamento, formando categorias de horizonte curto e horizonte longo; e (3) para um determinado tipo de modelo, o desempenho TTS ideal escala monotonicamente com o orçamento computacional. Com base nessas percepções, fornecemos uma receita prática para selecionar a melhor estratégia TTS, considerando a dificuldade do problema, o tipo de modelo e o orçamento computacional, oferecendo um guia prático para uma escala eficaz no momento da inferência.

English

Test-time scaling (TTS) -- the dynamic allocation of compute during inference -- is a promising direction for improving reasoning in large language models (LLMs). However, a systematic comparison of well-known TTS strategies under identical conditions is missing, and the influence of model type and problem difficulty on performance remains unclear. To address these gaps, we conduct the first large-scale study of TTS, spanning over thirty billion tokens generated using eight open-source LLMs (7B to 235B parameters), across four reasoning datasets. We observe three consistent trends: (1) no single TTS strategy universally dominates; (2) reasoning models exhibit distinct trace-quality patterns across problem difficulty and trace length, forming short-horizon and long-horizon categories; and (3) for a given model type, the optimal TTS performance scales monotonically with compute budget. Based on these insights, we provide a practical recipe for selecting the best TTS strategy, considering problem difficulty, model type, and compute budget, providing a practical guide to effective inference-time scaling.

A Arte de Dimensionar o Cálculo em Tempo de Teste para Modelos de Linguagem de Grande Escala

The Art of Scaling Test-Time Compute for Large Language Models

Resumo

Support