ERGO: 다중 턴 언어 모델을 위한 엔트로피 기반 재설정을 통한 생성 최적화
ERGO: Entropy-guided Resetting for Generation Optimization in Multi-turn Language Models
October 15, 2025
저자: Haziq Mohammad Khalid, Athikash Jeyaganthan, Timothy Do, Yicheng Fu, Sean O'Brien, Vasu Sharma, Kevin Zhu
cs.AI
초록
대규모 언어 모델(LLM)은 정보가 점진적으로 제시되는 다중 턴 대화에서 성능이 크게 저하되는 문제를 겪습니다. 일상적인 상호작용이 다중 턴 대화로 이루어진다는 점을 고려할 때, 이러한 성능 저하는 실제 사용성에 심각한 도전으로 작용합니다. 우리는 모델의 불확실성이 급격히 증가하는 것이 다중 턴 LLM 상호작용에서의 불일치를 나타낸다는 가설을 세우고, 이러한 통찰을 활용하여 대화 맥락을 동적으로 재조정하는 방법을 제안합니다. 우리는 ERGO(Entropy-guided Resetting for Generation Optimization)를 소개합니다. ERGO는 다음 토큰 분포에 대한 섀넌 엔트로피를 통해 내부 불확실성을 지속적으로 정량화하고, 엔트로피가 급격히 증가할 때 적응형 프롬프트 통합을 트리거합니다. 불확실성을 제거해야 할 번거로움으로 여기기보다는 일급 신호로 취급함으로써, ERGO는 언어와 모델링의 변동성을 포용하고 불확실성을 표현하고 대응합니다. 점진적으로 제시되는 지시가 포함된 다중 턴 작업에서 ERGO는 표준 베이스라인 대비 평균 56.6%의 성능 향상을 달성하고, 능력(최고 성능 역량)을 24.7% 증가시키며, 신뢰성(성능 변동성)을 35.3% 감소시켜, 불확실성 인식 개입이 대화형 AI의 정확성과 신뢰성을 모두 개선할 수 있음을 입증합니다.
English
Large Language Models (LLMs) suffer significant performance degradation in
multi-turn conversations when information is presented incrementally. Given
that multi-turn conversations characterize everyday interactions with LLMs,
this degradation poses a severe challenge to real world usability. We
hypothesize that abrupt increases in model uncertainty signal misalignment in
multi-turn LLM interactions, and we exploit this insight to dynamically realign
conversational context. We introduce ERGO (Entropy-guided Resetting for
Generation Optimization), which continuously quantifies internal uncertainty
via Shannon entropy over next token distributions and triggers adaptive prompt
consolidation when a sharp spike in entropy is detected. By treating
uncertainty as a first class signal rather than a nuisance to eliminate, ERGO
embraces variability in language and modeling, representing and responding to
uncertainty. In multi-turn tasks with incrementally revealed instructions, ERGO
yields a 56.6% average performance gain over standard baselines, increases
aptitude (peak performance capability) by 24.7%, and decreases unreliability
(variability in performance) by 35.3%, demonstrating that uncertainty aware
interventions can improve both accuracy and reliability in conversational AI.