Искусство масштабирования вычислительных ресурсов во время тестирования больших языковых моделей

Аннотация

Масштабирование на этапе тестирования (TTS) — динамическое распределение вычислительных ресурсов во время вывода — является перспективным направлением для улучшения способности к рассуждению у больших языковых моделей (LLM). Однако систематическое сравнение известных TTS-стратегий в идентичных условиях отсутствует, а влияние типа модели и сложности задачи на производительность остается неясным. Чтобы восполнить эти пробелы, мы проводим первое крупномасштабное исследование TTS, охватывающее более тридцати миллиардов токенов, сгенерированных с использованием восьми открытых LLM (от 7 до 235 миллиардов параметров) на четырех наборах данных для проверки рассуждений. Мы наблюдаем три устойчивые тенденции: (1) ни одна TTS-стратегия не является универсально лучшей; (2) модели для рассуждений демонстрируют различные паттерны качества цепочек рассуждений в зависимости от сложности задачи и длины цепочки, формируя категории краткосрочного и долгосрочного горизонта; (3) для конкретного типа модели оптимальная производительность TTS монотонно масштабируется с увеличением вычислительного бюджета. На основе этих наблюдений мы предлагаем практические рекомендации по выбору наилучшей TTS-стратегии с учетом сложности задачи, типа модели и вычислительного бюджета, предоставляя практическое руководство по эффективному масштабированию на этапе вывода.

English

Test-time scaling (TTS) -- the dynamic allocation of compute during inference -- is a promising direction for improving reasoning in large language models (LLMs). However, a systematic comparison of well-known TTS strategies under identical conditions is missing, and the influence of model type and problem difficulty on performance remains unclear. To address these gaps, we conduct the first large-scale study of TTS, spanning over thirty billion tokens generated using eight open-source LLMs (7B to 235B parameters), across four reasoning datasets. We observe three consistent trends: (1) no single TTS strategy universally dominates; (2) reasoning models exhibit distinct trace-quality patterns across problem difficulty and trace length, forming short-horizon and long-horizon categories; and (3) for a given model type, the optimal TTS performance scales monotonically with compute budget. Based on these insights, we provide a practical recipe for selecting the best TTS strategy, considering problem difficulty, model type, and compute budget, providing a practical guide to effective inference-time scaling.

Искусство масштабирования вычислительных ресурсов во время тестирования больших языковых моделей

The Art of Scaling Test-Time Compute for Large Language Models

Аннотация

Support