Il Pensare Rende gli Agenti LLM Introversi: Come l'Obbigo di Riflettere Può Rivelarsi Controproducente negli Agenti Coinvolti con l'Utente

Abstract

L'elicitazione del ragionamento è emersa come una tecnica potente per migliorare le prestazioni dei grandi modelli linguistici (LLM) su compiti complessi inducendo processi di pensiero. Tuttavia, la loro efficacia in scenari realistici con agenti interagenti con utenti rimane poco chiara. In questo articolo, conduciamo uno studio completo sull'effetto del pensiero esplicito in agenti LLM impegnati con utenti. I nostri esperimenti abbracciano sette modelli, tre benchmark e due implementazioni del pensiero, e li valutiamo sia attraverso un'analisi quantitativa della tassonomia delle risposte che studi di caso qualitativi sulla propagazione degli errori. Contrariamente alle aspettative, scopriamo che il pensiero obbligatorio spesso si rivela controproducente per gli agenti in contesti di interazione con utenti, causando un'anomala degradazione delle prestazioni su vari LLM. La nostra scoperta chiave rivela che il pensiero rende gli agenti più "introversi" abbreviando le risposte e riducendo la divulgazione di informazioni agli utenti, il che indebolisce lo scambio informativo agente-utente e porta a fallimenti nei compiti downstream. Inoltre, dimostriamo che richiedere esplicitamente la divulgazione di informazioni migliora affidabilmente le prestazioni tra diverse famiglie di modelli, suggerendo che la trasparenza proattiva sia una leva vitale per l'ottimizzazione degli agenti. Nel complesso, il nostro studio suggerisce che la consapevolezza della trasparenza informativa è una prospettiva cruciale ma poco esplorata per il futuro design di agenti razionali in scenari reali. Il nostro codice è disponibile all'indirizzo https://github.com/deeplearning-wisc/Thinking-Agent.

English

Eliciting reasoning has emerged as a powerful technique for improving the performance of large language models (LLMs) on complex tasks by inducing thinking. However, their effectiveness in realistic user-engaged agent scenarios remains unclear. In this paper, we conduct a comprehensive study on the effect of explicit thinking in user-engaged LLM agents. Our experiments span across seven models, three benchmarks, and two thinking instantiations, and we evaluate them through both a quantitative response taxonomy analysis and qualitative failure propagation case studies. Contrary to expectations, we find that mandatory thinking often backfires on agents in user-engaged settings, causing anomalous performance degradation across various LLMs. Our key finding reveals that thinking makes agents more ``introverted'' by shortening responses and reducing information disclosure to users, which weakens agent-user information exchange and leads to downstream task failures. Furthermore, we demonstrate that explicitly prompting for information disclosure reliably improves performance across diverse model families, suggesting that proactive transparency is a vital lever for agent optimization. Overall, our study suggests that information transparency awareness is a crucial yet underexplored perspective for the future design of reasoning agents in real-world scenarios. Our code is available at https://github.com/deeplearning-wisc/Thinking-Agent.

Il Pensare Rende gli Agenti LLM Introversi: Come l'Obbigo di Riflettere Può Rivelarsi Controproducente negli Agenti Coinvolti con l'Utente

Thinking Makes LLM Agents Introverted: How Mandatory Thinking Can Backfire in User-Engaged Agents

Abstract

Support