Será que um LLM de 1 bilhão pode superar um LLM de 405 bilhões? Repensando a Escala de Tempo de Teste Otimizada para Computação.
Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling
February 10, 2025
Autores: Runze Liu, Junqi Gao, Jian Zhao, Kaiyan Zhang, Xiu Li, Biqing Qi, Wanli Ouyang, Bowen Zhou
cs.AI
Resumo
A Escala de Tempo de Teste (ETT) é um método importante para melhorar o desempenho de Modelos de Linguagem Grandes (MLGs) através do uso de computação adicional durante a fase de inferência. No entanto, os estudos atuais não analisam sistematicamente como os modelos de política, Modelos de Recompensa de Processo (MRPs) e a dificuldade do problema influenciam a ETT. Essa falta de análise limita a compreensão e o uso prático dos métodos de ETT. Neste artigo, focamos em duas questões principais: (1) Qual é a abordagem ideal para escalar a computação de tempo de teste entre diferentes modelos de política, MRPs e níveis de dificuldade do problema? (2) Até que ponto a computação estendida pode melhorar o desempenho dos MLGs em tarefas complexas, e os modelos de linguagem menores podem superar os maiores por meio dessa abordagem? Através de experimentos abrangentes em MATH-500 e desafiadoras tarefas AIME24, temos as seguintes observações: (1) A estratégia de ETT otimizada para computação depende fortemente da escolha do modelo de política, MRP e dificuldade do problema. (2) Com nossa estratégia de ETT otimizada para computação, modelos de política extremamente pequenos podem superar modelos maiores. Por exemplo, um MLG de 1B pode superar um MLG de 405B em MATH-500. Além disso, tanto em MATH-500 quanto em AIME24, um MLG de 0.5B supera o GPT-4o, um MLG de 3B supera um MLG de 405B, e um MLG de 7B vence o1 e DeepSeek-R1, com maior eficiência de inferência. Essas descobertas mostram a importância de adaptar estratégias de ETT às características específicas de cada tarefa e modelo, e indicam que a ETT é uma abordagem promissora para aprimorar as habilidades de raciocínio dos MLGs.
English
Test-Time Scaling (TTS) is an important method for improving the performance
of Large Language Models (LLMs) by using additional computation during the
inference phase. However, current studies do not systematically analyze how
policy models, Process Reward Models (PRMs), and problem difficulty influence
TTS. This lack of analysis limits the understanding and practical use of TTS
methods. In this paper, we focus on two core questions: (1) What is the optimal
approach to scale test-time computation across different policy models, PRMs,
and problem difficulty levels? (2) To what extent can extended computation
improve the performance of LLMs on complex tasks, and can smaller language
models outperform larger ones through this approach? Through comprehensive
experiments on MATH-500 and challenging AIME24 tasks, we have the following
observations: (1) The compute-optimal TTS strategy is highly dependent on the
choice of policy model, PRM, and problem difficulty. (2) With our
compute-optimal TTS strategy, extremely small policy models can outperform
larger models. For example, a 1B LLM can exceed a 405B LLM on MATH-500.
Moreover, on both MATH-500 and AIME24, a 0.5B LLM outperforms GPT-4o, a 3B LLM
surpasses a 405B LLM, and a 7B LLM beats o1 and DeepSeek-R1, while with higher
inference efficiency. These findings show the significance of adapting TTS
strategies to the specific characteristics of each task and model and indicate
that TTS is a promising approach for enhancing the reasoning abilities of LLMs.