Raisonnement LLM conscient du budget de jetonsToken-Budget-Aware LLM Reasoning
Le raisonnement est crucial pour que les grands modèles de langage (LLM) excellent dans une grande variété de tâches. Alors que des méthodes telles que le raisonnement en chaîne de pensée (CoT) améliorent les performances des LLM en décomposant les problèmes en étapes intermédiaires, elles entraînent également une surcharge significative en termes d'utilisation de jetons, ce qui se traduit par des coûts accrus. Nous constatons que le processus de raisonnement des LLM actuels est inutilement long et peut être compressé en incluant un budget de jetons raisonnable dans la requête, mais le choix du budget de jetons joue un rôle crucial dans l'efficacité réelle de la compression. Nous proposons ensuite un cadre de raisonnement LLM conscient du budget de jetons, qui estime dynamiquement les budgets de jetons pour différents problèmes en fonction de la complexité du raisonnement et utilise les budgets de jetons estimés pour guider le processus de raisonnement. Les expériences montrent que notre méthode réduit efficacement les coûts en jetons dans le raisonnement CoT avec seulement une légère réduction des performances, offrant ainsi une solution pratique pour équilibrer l'efficacité et la précision dans le raisonnement LLM. Code : https://github.com/GeniusHTX/TALE.