ChatPaper.aiChatPaper

Token-Budget-bewusstes LLM-Argumentieren

Token-Budget-Aware LLM Reasoning

December 24, 2024
Autoren: Tingxu Han, Chunrong Fang, Shiyu Zhao, Shiqing Ma, Zhenyu Chen, Zhenting Wang
cs.AI

Zusammenfassung

Das Argumentieren ist entscheidend für große Sprachmodelle (LLMs), um in einer Vielzahl von Aufgaben herausragende Leistungen zu erbringen. Während Methoden wie Chain-of-Thought (CoT)-Argumentation die Leistung von LLMs verbessern, indem sie Probleme in Zwischenschritte zerlegen, gehen sie auch mit erheblichem Overhead bei der Token-Verwendung einher, was zu erhöhten Kosten führt. Wir stellen fest, dass der Argumentationsprozess aktueller LLMs unnötig lang ist und durch die Einbeziehung eines angemessenen Token-Budgets im Prompt komprimiert werden kann, wobei die Wahl des Token-Budgets eine entscheidende Rolle für die tatsächliche Kompressionswirksamkeit spielt. Anschließend schlagen wir ein Token-Budget-bewusstes LLM-Argumentationsrahmenwerk vor, das dynamisch Token-Budgets für verschiedene Probleme basierend auf der Argumentationskomplexität schätzt und die geschätzten Token-Budgets zur Steuerung des Argumentationsprozesses verwendet. Experimente zeigen, dass unsere Methode die Token-Kosten bei CoT-Argumentation effektiv reduziert, bei nur geringfügiger Leistungsreduzierung, und somit eine praktische Lösung bietet, um Effizienz und Genauigkeit bei LLM-Argumentation in Einklang zu bringen. Code: https://github.com/GeniusHTX/TALE.
English
Reasoning is critical for large language models (LLMs) to excel in a wide range of tasks. While methods like Chain-of-Thought (CoT) reasoning enhance LLM performance by decomposing problems into intermediate steps, they also incur significant overhead in token usage, leading to increased costs. We find that the reasoning process of current LLMs is unnecessarily lengthy and it can be compressed by including a reasonable token budget in the prompt, but the choice of token budget plays a crucial role in the actual compression effectiveness. We then propose a token-budget-aware LLM reasoning framework, which dynamically estimates token budgets for different problems based on reasoning complexity and uses the estimated token budgets to guide the reasoning process. Experiments show that our method effectively reduces token costs in CoT reasoning with only a slight performance reduction, offering a practical solution to balance efficiency and accuracy in LLM reasoning. Code: https://github.com/GeniusHTX/TALE.

Summary

AI-Generated Summary

PDF472December 26, 2024