Denken maakt LLM-agents introvert: Hoe verplicht nadenken kan terugslagen bij gebruikersgerichte agents

Samenvatting

Het uitlokken van redeneerprocessen is naar voren gekomen als een krachtige techniek om de prestaties van grote taalmodellen (LLM's) op complexe taken te verbeteren door het denken te stimuleren. Hun effectiviteit in realistische scenario's waarbij gebruikers betrokken agenten gebruiken, blijft echter onduidelijk. In dit artikel voeren we een uitgebreide studie uit naar het effect van expliciet denken in door gebruikers ingezette LLM-agenten. Onze experimenten omvatten zeven modellen, drie benchmarks en twee denkinstantiaties, en we evalueren deze via zowel een kwantitatieve taxonomie-analyse van antwoorden als kwalitatieve casestudies over foutpropagatie. In tegenstelling tot de verwachtingen stellen we vast dat verplicht denken in door gebruikers betrokken settings vaak averechts werkt voor agenten, wat leidt tot onverwachte prestatievermindering bij verschillende LLM's. Onze belangrijkste bevinding toont aan dat denken agenten "introverter" maakt door antwoorden te verkorten en de openbaarmaking van informatie aan gebruikers te verminderen, wat de informatie-uitwisseling tussen agent en gebruiker verzwakt en leidt tot fouten in downstreamtaken. Verder tonen we aan dat het expliciet vragen om informatie-openbaarmaking de prestaties betrouwbaar verbetert across diverse modelfamilies, wat suggereert dat proactieve transparantie een cruciale hefboom is voor agentoptimalisatie. Over het geheel genomen suggereert onze studie dat bewustzijn van informatietransparantie een cruciaal maar onderbelicht perspectief is voor het toekomstige ontwerp van redenerende agenten in realistische scenario's. Onze code is beschikbaar op https://github.com/deeplearning-wisc/Thinking-Agent.

English

Eliciting reasoning has emerged as a powerful technique for improving the performance of large language models (LLMs) on complex tasks by inducing thinking. However, their effectiveness in realistic user-engaged agent scenarios remains unclear. In this paper, we conduct a comprehensive study on the effect of explicit thinking in user-engaged LLM agents. Our experiments span across seven models, three benchmarks, and two thinking instantiations, and we evaluate them through both a quantitative response taxonomy analysis and qualitative failure propagation case studies. Contrary to expectations, we find that mandatory thinking often backfires on agents in user-engaged settings, causing anomalous performance degradation across various LLMs. Our key finding reveals that thinking makes agents more ``introverted'' by shortening responses and reducing information disclosure to users, which weakens agent-user information exchange and leads to downstream task failures. Furthermore, we demonstrate that explicitly prompting for information disclosure reliably improves performance across diverse model families, suggesting that proactive transparency is a vital lever for agent optimization. Overall, our study suggests that information transparency awareness is a crucial yet underexplored perspective for the future design of reasoning agents in real-world scenarios. Our code is available at https://github.com/deeplearning-wisc/Thinking-Agent.

Denken maakt LLM-agents introvert: Hoe verplicht nadenken kan terugslagen bij gebruikersgerichte agents

Thinking Makes LLM Agents Introverted: How Mandatory Thinking Can Backfire in User-Engaged Agents

Samenvatting

Support