Pensar Torna os Agentes de LLM Introvertidos: Como o Pensamento Obrigatório Pode Sair Pela Culatra em Agentes Engajados com o Usuário

Resumo

A elicitação de raciocínio emergiu como uma técnica poderosa para melhorar o desempenho de modelos de linguagem grandes (LLMs) em tarefas complexas ao induzir o pensamento. No entanto, sua eficácia em cenários realistas de agentes envolvidos com usuários permanece incerta. Neste artigo, conduzimos um estudo abrangente sobre o efeito do pensamento explícito em agentes de LLM envolvidos com usuários. Nossos experimentos abrangem sete modelos, três benchmarks e duas instanciações de pensamento, e os avaliamos por meio de uma análise quantitativa de taxonomia de respostas e estudos de caso qualitativos de propagação de falhas. Contrariamente às expectativas, descobrimos que o pensamento obrigatório frequentemente surte efeito contrário em agentes em configurações envolvidas com o usuário, causando degradação anômala de desempenho em vários LLMs. Nossa principal descoberta revela que o pensamento torna os agentes mais "introvertidos", encurtando as respostas e reduzindo a divulgação de informações aos usuários, o que enfraquece a troca de informações entre agente e usuário e leva a falhas em tarefas subsequentes. Além disso, demonstramos que solicitar explicitamente a divulgação de informações melhora de forma confiável o desempenho em diversas famílias de modelos, sugerindo que a transparência proativa é uma alavanca vital para a otimização de agentes. No geral, nosso estudo sugere que a conscientização sobre a transparência da informação é uma perspectiva crucial, mas pouco explorada, para o futuro projeto de agentes de raciocínio em cenários do mundo real. Nosso código está disponível em https://github.com/deeplearning-wisc/Thinking-Agent.

English

Eliciting reasoning has emerged as a powerful technique for improving the performance of large language models (LLMs) on complex tasks by inducing thinking. However, their effectiveness in realistic user-engaged agent scenarios remains unclear. In this paper, we conduct a comprehensive study on the effect of explicit thinking in user-engaged LLM agents. Our experiments span across seven models, three benchmarks, and two thinking instantiations, and we evaluate them through both a quantitative response taxonomy analysis and qualitative failure propagation case studies. Contrary to expectations, we find that mandatory thinking often backfires on agents in user-engaged settings, causing anomalous performance degradation across various LLMs. Our key finding reveals that thinking makes agents more ``introverted'' by shortening responses and reducing information disclosure to users, which weakens agent-user information exchange and leads to downstream task failures. Furthermore, we demonstrate that explicitly prompting for information disclosure reliably improves performance across diverse model families, suggesting that proactive transparency is a vital lever for agent optimization. Overall, our study suggests that information transparency awareness is a crucial yet underexplored perspective for the future design of reasoning agents in real-world scenarios. Our code is available at https://github.com/deeplearning-wisc/Thinking-Agent.

Pensar Torna os Agentes de LLM Introvertidos: Como o Pensamento Obrigatório Pode Sair Pela Culatra em Agentes Engajados com o Usuário

Thinking Makes LLM Agents Introverted: How Mandatory Thinking Can Backfire in User-Engaged Agents

Resumo

Support