ChatPaper.aiChatPaper

Token-Budget-Bewuste LLM-Redenering

Token-Budget-Aware LLM Reasoning

December 24, 2024
Auteurs: Tingxu Han, Chunrong Fang, Shiyu Zhao, Shiqing Ma, Zhenyu Chen, Zhenting Wang
cs.AI

Samenvatting

Redeneren is cruciaal voor grote taalmodellen (LLM's) om uit te blinken in een breed scala van taken. Terwijl methoden zoals Keten-van-Gedachten (CoT) redeneren de prestaties van LLM's verbeteren door problemen op te delen in tussenstappen, brengen ze ook aanzienlijke overhead in tokengebruik met zich mee, wat leidt tot verhoogde kosten. We constateren dat het redeneerproces van huidige LLM's onnodig lang is en dat het kan worden gecomprimeerd door een redelijk tokenbudget op te nemen in de prompt, maar de keuze van het tokenbudget speelt een cruciale rol in de daadwerkelijke compressie-effectiviteit. Vervolgens stellen we een LLM-redeneerkader voor dat zich bewust is van het tokenbudget, dat dynamisch tokenbudgets schat voor verschillende problemen op basis van redeneercomplexiteit en de geschatte tokenbudgets gebruikt om het redeneerproces te sturen. Experimenten tonen aan dat onze methode effectief tokenkosten verlaagt bij CoT-redeneren met slechts een lichte prestatievermindering, en zo een praktische oplossing biedt om efficiëntie en nauwkeurigheid in LLM-redeneren in balans te brengen. Code: https://github.com/GeniusHTX/TALE.
English
Reasoning is critical for large language models (LLMs) to excel in a wide range of tasks. While methods like Chain-of-Thought (CoT) reasoning enhance LLM performance by decomposing problems into intermediate steps, they also incur significant overhead in token usage, leading to increased costs. We find that the reasoning process of current LLMs is unnecessarily lengthy and it can be compressed by including a reasonable token budget in the prompt, but the choice of token budget plays a crucial role in the actual compression effectiveness. We then propose a token-budget-aware LLM reasoning framework, which dynamically estimates token budgets for different problems based on reasoning complexity and uses the estimated token budgets to guide the reasoning process. Experiments show that our method effectively reduces token costs in CoT reasoning with only a slight performance reduction, offering a practical solution to balance efficiency and accuracy in LLM reasoning. Code: https://github.com/GeniusHTX/TALE.
PDF462January 2, 2026