ThoughtTrace: Compreendendo os Pensamentos do Usuário em Interações Reais com LLMs

Resumo

A IA conversacional agora alcançou bilhões de usuários, mas os conjuntos de dados existentes capturam apenas o que as pessoas dizem, não o que elas pensam. Apresentamos o ThoughtTrace, o primeiro conjunto de dados em grande escala que combina conversas reais entre humanos e IA, com múltiplas trocas, e os pensamentos autorrelatados pelos usuários: suas razões para enviar instruções e reações às respostas do assistente. O ThoughtTrace compreende 1.058 usuários, 2.155 conversas, 17.058 turnos e 10.174 anotações de pensamentos coletadas em 20 modelos de linguagem. Nossa análise mostra que o ThoughtTrace captura interações de longo horizonte e topicalmente diversas, e que os pensamentos são semanticamente distintos das mensagens, difíceis de inferir pelo contexto mesmo para LLMs de ponta, diversos em conteúdo e vinculados a estágios da conversa. Demonstramos ainda a utilidade dos pensamentos para a modelagem downstream. Primeiro, os pensamentos melhoram a previsão do comportamento do usuário como contexto em tempo de inferência. Segundo, reescritas guiadas por pensamentos fornecem sinais de alinhamento de granularidade fina para treinar assistentes personalizados. Em conjunto, o ThoughtTrace estabelece os pensamentos dos usuários como uma nova modalidade de dados para estudar as dinâmicas cognitivas por trás da interação humano-IA e fornece uma base para construir assistentes que compreendam e se adaptem melhor aos objetivos, preferências e necessidades latentes dos usuários.

English

Conversational AI has now reached billions of users, yet existing datasets capture only what people say, not what they think. We introduce ThoughtTrace, the first large-scale dataset that pairs real-world multi-turn human--AI conversations with users' self-reported thoughts: their reasons for sending prompts and reactions to assistant responses. ThoughtTrace comprises 1,058 users, 2,155 conversations, 17,058 turns, and 10,174 thought annotations collected across 20 language models. Our analysis shows that ThoughtTrace captures long-horizon, topically diverse interactions, and that thoughts are semantically distinct from messages, difficult for frontier LLMs to infer from context, diverse in content, and tied to conversation stages. We further demonstrate the utility of thoughts for downstream modeling. First, thoughts improve user-behavior prediction as inference-time context. Second, thought-guided rewrites provide fine-grained alignment signals for training personalized assistants. Together, ThoughtTrace establishes user thoughts as a new data modality for studying the cognitive dynamics behind human--AI interaction and provides a foundation for building assistants that better understand and adapt to users' latent goals, preferences, and needs.