ThoughtTrace: Понимание мыслей пользователей в реальных взаимодействиях с LLM

Аннотация

Разговорный ИИ теперь охватывает миллиарды пользователей, однако существующие наборы данных фиксируют лишь то, что говорят люди, а не то, о чём они думают. Мы представляем ThoughtTrace — первый крупномасштабный набор данных, который связывает реальные многошаговые диалоги человека с ИИ и самооценённые мысли пользователей: их причины отправки запросов и реакции на ответы ассистента. ThoughtTrace включает 1 058 пользователей, 2 155 диалогов, 17 058 реплик и 10 174 аннотации мыслей, собранные на материале 20 языковых моделей. Наш анализ показывает, что ThoughtTrace охватывает долгосрочные, тематически разнообразные взаимодействия, причём мысли семантически отличны от сообщений, сложны для вывода передовыми LLM из контекста, разнообразны по содержанию и привязаны к этапам диалога. Мы также демонстрируем полезность мыслей для последующего моделирования. Во-первых, мысли улучшают прогнозирование поведения пользователя в качестве контекста на этапе вывода. Во-вторых, направленные мыслями переформулировки дают сигналы точной настройки соответствия для обучения персонализированных ассистентов. В совокупности ThoughtTrace вводит мысли пользователя как новую модальность данных для изучения когнитивной динамики, стоящей за взаимодействием человека и ИИ, и закладывает основу для создания ассистентов, которые лучше понимают скрытые цели, предпочтения и потребности пользователей и адаптируются к ним.

English

Conversational AI has now reached billions of users, yet existing datasets capture only what people say, not what they think. We introduce ThoughtTrace, the first large-scale dataset that pairs real-world multi-turn human--AI conversations with users' self-reported thoughts: their reasons for sending prompts and reactions to assistant responses. ThoughtTrace comprises 1,058 users, 2,155 conversations, 17,058 turns, and 10,174 thought annotations collected across 20 language models. Our analysis shows that ThoughtTrace captures long-horizon, topically diverse interactions, and that thoughts are semantically distinct from messages, difficult for frontier LLMs to infer from context, diverse in content, and tied to conversation stages. We further demonstrate the utility of thoughts for downstream modeling. First, thoughts improve user-behavior prediction as inference-time context. Second, thought-guided rewrites provide fine-grained alignment signals for training personalized assistants. Together, ThoughtTrace establishes user thoughts as a new data modality for studying the cognitive dynamics behind human--AI interaction and provides a foundation for building assistants that better understand and adapt to users' latent goals, preferences, and needs.