ChatPaper.aiChatPaper

Escalonamento em Tempo de Inferência para Tarefas Complexas: Onde Estamos e o Que Nos Espera

Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead

March 31, 2025
Autores: Vidhisha Balachandran, Jingya Chen, Lingjiao Chen, Shivam Garg, Neel Joshi, Yash Lara, John Langford, Besmira Nushi, Vibhav Vineet, Yue Wu, Safoora Yousefi
cs.AI

Resumo

A escalonamento durante a inferência pode aprimorar as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs) em problemas complexos que se beneficiam da resolução passo a passo. Embora o alongamento de rascunhos gerados tenha se mostrado eficaz para tarefas matemáticas, o impacto mais amplo dessa abordagem em outras tarefas ainda permanece menos claro. Neste trabalho, investigamos os benefícios e limitações dos métodos de escalonamento em nove modelos de última geração e oito tarefas desafiadoras, incluindo raciocínio matemático e STEM, planejamento de calendário, problemas NP-difíceis, navegação e raciocínio espacial. Comparamos modelos convencionais (por exemplo, GPT-4o) com modelos ajustados para escalonamento durante a inferência (por exemplo, o1) por meio de protocolos de avaliação que envolvem chamadas repetidas do modelo, seja de forma independente ou sequencial com feedback. Essas avaliações aproximam limites inferiores e superiores de desempenho e o potencial para melhorias futuras de desempenho para cada modelo, seja por meio de treinamento aprimorado ou sistemas de inferência multi-modelo. Nossa extensa análise empírica revela que as vantagens do escalonamento durante a inferência variam entre as tarefas e diminuem à medida que a complexidade do problema aumenta. Além disso, simplesmente usar mais tokens não necessariamente se traduz em maior precisão nesses regimes desafiadores. Resultados de múltiplas execuções independentes com modelos convencionais usando verificadores perfeitos mostram que, para algumas tarefas, esses modelos podem alcançar desempenho próximo à média dos modelos de raciocínio mais avançados de hoje. No entanto, para outras tarefas, uma lacuna significativa de desempenho permanece, mesmo em regimes de escalonamento muito altos. De forma encorajadora, todos os modelos demonstram ganhos significativos quando a inferência é ainda mais escalonada com verificadores perfeitos ou feedback forte, sugerindo um amplo potencial para melhorias futuras.
English
Inference-time scaling can enhance the reasoning capabilities of large language models (LLMs) on complex problems that benefit from step-by-step problem solving. Although lengthening generated scratchpads has proven effective for mathematical tasks, the broader impact of this approach on other tasks remains less clear. In this work, we investigate the benefits and limitations of scaling methods across nine state-of-the-art models and eight challenging tasks, including math and STEM reasoning, calendar planning, NP-hard problems, navigation, and spatial reasoning. We compare conventional models (e.g., GPT-4o) with models fine-tuned for inference-time scaling (e.g., o1) through evaluation protocols that involve repeated model calls, either independently or sequentially with feedback. These evaluations approximate lower and upper performance bounds and potential for future performance improvements for each model, whether through enhanced training or multi-model inference systems. Our extensive empirical analysis reveals that the advantages of inference-time scaling vary across tasks and diminish as problem complexity increases. In addition, simply using more tokens does not necessarily translate to higher accuracy in these challenging regimes. Results from multiple independent runs with conventional models using perfect verifiers show that, for some tasks, these models can achieve performance close to the average performance of today's most advanced reasoning models. However, for other tasks, a significant performance gap remains, even in very high scaling regimes. Encouragingly, all models demonstrate significant gains when inference is further scaled with perfect verifiers or strong feedback, suggesting ample potential for future improvements.

Summary

AI-Generated Summary

PDF102April 2, 2025