ERGO: Оптимизация генерации в многоходовых языковых моделях с использованием энтропийно-ориентированного сброса
ERGO: Entropy-guided Resetting for Generation Optimization in Multi-turn Language Models
October 15, 2025
Авторы: Haziq Mohammad Khalid, Athikash Jeyaganthan, Timothy Do, Yicheng Fu, Sean O'Brien, Vasu Sharma, Kevin Zhu
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют значительное снижение производительности в многоходовых диалогах, когда информация предоставляется постепенно. Учитывая, что многоходовые диалоги характерны для повседневного взаимодействия с LLM, это снижение представляет собой серьезную проблему для их практической применимости. Мы предполагаем, что резкие скачки неопределенности модели сигнализируют о рассогласовании в многоходовых взаимодействиях с LLM, и используем это наблюдение для динамического восстановления контекста диалога. Мы представляем ERGO (Entropy-guided Resetting for Generation Optimization), который непрерывно оценивает внутреннюю неопределенность через энтропию Шеннона для распределений следующих токенов и запускает адаптивную консолидацию запроса при обнаружении резкого скачка энтропии. Рассматривая неопределенность как ключевой сигнал, а не как помеху, которую нужно устранить, ERGO учитывает вариативность языка и моделирования, представляя и реагируя на неопределенность. В многоходовых задачах с постепенно раскрываемыми инструкциями ERGO обеспечивает средний прирост производительности на 56,6% по сравнению с базовыми методами, увеличивает способность (пиковую производительность) на 24,7% и снижает ненадежность (вариативность производительности) на 35,3%, демонстрируя, что учет неопределенности может улучшить как точность, так и надежность в диалоговом ИИ.
English
Large Language Models (LLMs) suffer significant performance degradation in
multi-turn conversations when information is presented incrementally. Given
that multi-turn conversations characterize everyday interactions with LLMs,
this degradation poses a severe challenge to real world usability. We
hypothesize that abrupt increases in model uncertainty signal misalignment in
multi-turn LLM interactions, and we exploit this insight to dynamically realign
conversational context. We introduce ERGO (Entropy-guided Resetting for
Generation Optimization), which continuously quantifies internal uncertainty
via Shannon entropy over next token distributions and triggers adaptive prompt
consolidation when a sharp spike in entropy is detected. By treating
uncertainty as a first class signal rather than a nuisance to eliminate, ERGO
embraces variability in language and modeling, representing and responding to
uncertainty. In multi-turn tasks with incrementally revealed instructions, ERGO
yields a 56.6% average performance gain over standard baselines, increases
aptitude (peak performance capability) by 24.7%, and decreases unreliability
(variability in performance) by 35.3%, demonstrating that uncertainty aware
interventions can improve both accuracy and reliability in conversational AI.