ThoughtTrace : Compréhension des pensées des utilisateurs lors d'interactions réelles avec les LLM

Résumé

L'intelligence artificielle conversationnelle touche désormais des milliards d'utilisateurs, mais les jeux de données existants ne capturent que ce que les gens disent, et non ce qu'ils pensent. Nous présentons ThoughtTrace, le premier jeu de données à grande échelle qui associe des conversations réelles multi-tours entre humains et IA aux pensées auto-rapportées des utilisateurs : leurs raisons d'envoyer des requêtes et leurs réactions aux réponses de l'assistant. ThoughtTrace comprend 1 058 utilisateurs, 2 155 conversations, 17 058 tours et 10 174 annotations de pensées collectées sur 20 modèles de langage. Notre analyse montre que ThoughtTrace capture des interactions à long horizon et thématiquement diverses, et que les pensées sont sémantiquement distinctes des messages, difficiles à inférer du contexte par les LLMs de pointe, diversifiées dans leur contenu et liées aux étapes de la conversation. Nous démontrons en outre l'utilité des pensées pour la modélisation en aval. Premièrement, les pensées améliorent la prédiction du comportement des utilisateurs en tant que contexte au moment de l'inférence. Deuxièmement, les réécritures guidées par les pensées fournissent des signaux d'alignement fins pour l'entraînement d'assistants personnalisés. Ensemble, ThoughtTrace établit les pensées des utilisateurs comme une nouvelle modalité de données pour étudier la dynamique cognitive derrière l'interaction humain-IA et offre une base pour construire des assistants qui comprennent et s'adaptent mieux aux objectifs, préférences et besoins latents des utilisateurs.

English

Conversational AI has now reached billions of users, yet existing datasets capture only what people say, not what they think. We introduce ThoughtTrace, the first large-scale dataset that pairs real-world multi-turn human--AI conversations with users' self-reported thoughts: their reasons for sending prompts and reactions to assistant responses. ThoughtTrace comprises 1,058 users, 2,155 conversations, 17,058 turns, and 10,174 thought annotations collected across 20 language models. Our analysis shows that ThoughtTrace captures long-horizon, topically diverse interactions, and that thoughts are semantically distinct from messages, difficult for frontier LLMs to infer from context, diverse in content, and tied to conversation stages. We further demonstrate the utility of thoughts for downstream modeling. First, thoughts improve user-behavior prediction as inference-time context. Second, thought-guided rewrites provide fine-grained alignment signals for training personalized assistants. Together, ThoughtTrace establishes user thoughts as a new data modality for studying the cognitive dynamics behind human--AI interaction and provides a foundation for building assistants that better understand and adapt to users' latent goals, preferences, and needs.