Planejamento e Orçamento: Escalonamento Eficaz e Eficiente em Tempo de Teste para Raciocínio em Modelos de Linguagem de Grande Escala
Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning
May 22, 2025
Autores: Junhong Lin, Xinyue Zeng, Jie Zhu, Song Wang, Julian Shun, Jun Wu, Dawei Zhou
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) têm alcançado sucesso notável em tarefas complexas de raciocínio, mas sua inferência permanece computacionalmente ineficiente. Observamos um modo comum de falha em muitos LLMs prevalentes, o "overthinking", onde os modelos geram traços de raciocínio verbosos e tangenciais, mesmo para consultas simples. Trabalhos recentes tentaram mitigar isso impondo orçamentos fixos de tokens, no entanto, isso pode levar ao "underthinking", especialmente em problemas mais difíceis. Através de análise empírica, identificamos que essa ineficiência frequentemente decorre de estratégias de resolução de problemas pouco claras. Para formalizar isso, desenvolvemos um modelo teórico, BBAM (Bayesian Budget Allocation Model), que modela o raciocínio como uma sequência de subquestões com incerteza variável, e introduzimos a métrica E^3 para capturar o equilíbrio entre correção e eficiência computacional. Com base nos resultados teóricos do BBAM, propomos o Plan-and-Budget, um framework agnóstico ao modelo e aplicável em tempo de teste, que decompõe consultas complexas em subquestões e aloca orçamentos de tokens com base na complexidade estimada usando agendamento adaptativo. O Plan-and-Budget melhora a eficiência do raciocínio em uma variedade de tarefas e modelos, alcançando ganhos de até +70% em precisão, redução de -39% em tokens e uma melhoria de +187,5% na métrica E^3. Notavelmente, ele eleva um modelo menor (DS-Qwen-32B) para igualar a eficiência de um modelo maior (DS-LLaMA-70B), demonstrando a capacidade do Plan-and-Budget de fechar lacunas de desempenho sem necessidade de retreinamento. Nosso código está disponível em anonymous.4open.science/r/P-and-B-6513/.
English
Large Language Models (LLMs) have achieved remarkable success in complex
reasoning tasks, but their inference remains computationally inefficient. We
observe a common failure mode in many prevalent LLMs, overthinking, where
models generate verbose and tangential reasoning traces even for simple
queries. Recent works have tried to mitigate this by enforcing fixed token
budgets, however, this can lead to underthinking, especially on harder
problems. Through empirical analysis, we identify that this inefficiency often
stems from unclear problem-solving strategies. To formalize this, we develop a
theoretical model, BBAM (Bayesian Budget Allocation Model), which models
reasoning as a sequence of sub-questions with varying uncertainty, and
introduce the E^3 metric to capture the trade-off between correctness and
computation efficiency. Building on theoretical results from BBAM, we propose
Plan-and-Budget, a model-agnostic, test-time framework that decomposes complex
queries into sub-questions and allocates token budgets based on estimated
complexity using adaptive scheduling. Plan-and-Budget improves reasoning
efficiency across a range of tasks and models, achieving up to +70% accuracy
gains, -39% token reduction, and +187.5% improvement in E^3. Notably, it
elevates a smaller model (DS-Qwen-32B) to match the efficiency of a larger
model (DS-LLaMA-70B)-demonstrating Plan-and-Budget's ability to close
performance gaps without retraining. Our code is available at
anonymous.4open.science/r/P-and-B-6513/.