Размышления LLM с учетом бюджета токеновToken-Budget-Aware LLM Reasoning
Рассуждения являются критическими для успешного выполнения широкого спектра задач большими языковыми моделями (LLM). В то время как методы, такие как цепочка мыслей (CoT), улучшают производительность LLM, декомпозируя задачи на промежуточные шаги, они также вызывают значительные накладные расходы по токенам, что приводит к увеличению затрат. Мы обнаружили, что процесс рассуждения текущих LLM излишне длителен и его можно сжать, включив разумный бюджет токенов в подсказку, однако выбор бюджета токенов играет решающую роль в фактической эффективности сжатия. Затем мы предлагаем фреймворк рассуждения LLM, осведомленный о бюджете токенов, который динамически оценивает бюджеты токенов для различных задач на основе сложности рассуждений и использует оцененные бюджеты токенов для направления процесса рассуждения. Эксперименты показывают, что наш метод эффективно снижает затраты на токены в рассуждениях CoT с незначительным снижением производительности, предлагая практическое решение для балансировки эффективности и точности в рассуждениях LLM. Код: https://github.com/GeniusHTX/TALE.