ThoughtTrace: Inzicht in gebruikersgedachten bij interacties met LLM's in de praktijk

Samenvatting

Conversationele AI heeft nu miljarden gebruikers bereikt, maar bestaande datasets registreren alleen wat mensen zeggen, niet wat ze denken. We introduceren ThoughtTrace, de eerste grootschalige dataset die echte, meerstaps mens-AI-gesprekken koppelt aan de zelfgerapporteerde gedachten van gebruikers: hun redenen voor het versturen van prompts en reacties op antwoorden van de assistent. ThoughtTrace omvat 1.058 gebruikers, 2.155 gesprekken, 17.058 beurten en 10.174 gedachtenannotaties, verzameld over 20 taalmodellen. Onze analyse toont aan dat ThoughtTrace langetermijninteracties met een diversiteit aan onderwerpen vastlegt, en dat gedachten semantisch verschillen van berichten, moeilijk te achterhalen uit context voor geavanceerde LLM's, divers in inhoud en gebonden aan gespreksfasen. We tonen verder het nut van gedachten voor downstream-modellering aan. Ten eerste verbeteren gedachten de voorspelling van gebruikersgedrag als inferentiecontext. Ten tweede bieden door gedachten geleide herschrijvingen fijnmazige afstemmingssignalen voor het trainen van gepersonaliseerde assistenten. ThoughtTrace vestigt daarmee gebruikersgedachten als een nieuwe datamodaliteit voor het bestuderen van de cognitieve dynamiek achter mens-AI-interactie en biedt een fundament voor het bouwen van assistenten die de latente doelen, voorkeuren en behoeften van gebruikers beter begrijpen en zich daaraan aanpassen.

English

Conversational AI has now reached billions of users, yet existing datasets capture only what people say, not what they think. We introduce ThoughtTrace, the first large-scale dataset that pairs real-world multi-turn human--AI conversations with users' self-reported thoughts: their reasons for sending prompts and reactions to assistant responses. ThoughtTrace comprises 1,058 users, 2,155 conversations, 17,058 turns, and 10,174 thought annotations collected across 20 language models. Our analysis shows that ThoughtTrace captures long-horizon, topically diverse interactions, and that thoughts are semantically distinct from messages, difficult for frontier LLMs to infer from context, diverse in content, and tied to conversation stages. We further demonstrate the utility of thoughts for downstream modeling. First, thoughts improve user-behavior prediction as inference-time context. Second, thought-guided rewrites provide fine-grained alignment signals for training personalized assistants. Together, ThoughtTrace establishes user thoughts as a new data modality for studying the cognitive dynamics behind human--AI interaction and provides a foundation for building assistants that better understand and adapt to users' latent goals, preferences, and needs.