Raciocínio LLM Consciente do Orçamento de TokensToken-Budget-Aware LLM Reasoning
O raciocínio é crucial para que os grandes modelos de linguagem (LLMs) se destaquem em uma ampla gama de tarefas. Enquanto métodos como o raciocínio Chain-of-Thought (CoT) aprimoram o desempenho do LLM decompondo problemas em etapas intermediárias, eles também incorrem em um uso significativo de tokens, resultando em custos mais elevados. Observamos que o processo de raciocínio dos LLMs atuais é desnecessariamente longo e pode ser comprimido ao incluir um orçamento razoável de tokens na sugestão, mas a escolha do orçamento de tokens desempenha um papel crucial na eficácia real da compressão. Propomos então um framework de raciocínio de LLM consciente do orçamento de tokens, que estima dinamicamente orçamentos de tokens para diferentes problemas com base na complexidade do raciocínio e utiliza os orçamentos de tokens estimados para orientar o processo de raciocínio. Experimentos mostram que nosso método reduz efetivamente os custos de tokens no raciocínio CoT com apenas uma leve redução de desempenho, oferecendo uma solução prática para equilibrar eficiência e precisão no raciocínio de LLMs. Código: https://github.com/GeniusHTX/TALE.