ThoughtTrace: Verstehen von Benutzergedanken in realen Interaktionen mit LLMs

Zusammenfassung

Konversations-KI erreicht mittlerweile Milliarden von Nutzern, doch bestehende Datensätze erfassen lediglich das Gesagte, nicht das Gedachte. Wir stellen ThoughtTrace vor, den ersten groß angelegten Datensatz, der reale mehrschrittige Mensch-KI-Gespräche mit selbstberichteten Gedanken der Nutzer verknüpft – ihren Gründen für das Verfassen von Eingabeaufforderungen und ihren Reaktionen auf Assistentenantworten. ThoughtTrace umfasst 1.058 Nutzer, 2.155 Gespräche, 17.058 Gesprächsbeiträge und 10.174 Gedankenannotationen, die über 20 Sprachmodelle hinweg erhoben wurden. Unsere Analyse zeigt, dass ThoughtTrace langfristige, thematisch vielfältige Interaktionen abbildet und dass Gedanken semantisch von Nachrichten verschieden, für führende große Sprachmodelle aus dem Kontext schwer ableitbar, inhaltlich vielfältig und mit Gesprächsphasen verknüpft sind. Darüber hinaus demonstrieren wir den Nutzen von Gedanken für die nachgelagerte Modellierung. Erstens verbessern Gedanken als Kontext zur Inferenzzeit die Vorhersage des Nutzerverhaltens. Zweitens liefern gedankengeleitete Umformulierungen feinkörnige Ausrichtungssignale für das Training personalisierter Assistenten. Insgesamt etabliert ThoughtTrace Nutzergedanken als neue Datenmodalität zur Untersuchung der kognitiven Dynamiken hinter der Mensch-KI-Interaktion und schafft eine Grundlage für die Entwicklung von Assistenten, die die latenten Ziele, Präferenzen und Bedürfnisse der Nutzer besser verstehen und sich daran anpassen können.

English

Conversational AI has now reached billions of users, yet existing datasets capture only what people say, not what they think. We introduce ThoughtTrace, the first large-scale dataset that pairs real-world multi-turn human--AI conversations with users' self-reported thoughts: their reasons for sending prompts and reactions to assistant responses. ThoughtTrace comprises 1,058 users, 2,155 conversations, 17,058 turns, and 10,174 thought annotations collected across 20 language models. Our analysis shows that ThoughtTrace captures long-horizon, topically diverse interactions, and that thoughts are semantically distinct from messages, difficult for frontier LLMs to infer from context, diverse in content, and tied to conversation stages. We further demonstrate the utility of thoughts for downstream modeling. First, thoughts improve user-behavior prediction as inference-time context. Second, thought-guided rewrites provide fine-grained alignment signals for training personalized assistants. Together, ThoughtTrace establishes user thoughts as a new data modality for studying the cognitive dynamics behind human--AI interaction and provides a foundation for building assistants that better understand and adapt to users' latent goals, preferences, and needs.