ThoughtTrace: comprensión de los pensamientos del usuario en interacciones reales con LLM

Resumen

La IA conversacional ha llegado ya a miles de millones de usuarios, pero los conjuntos de datos existentes solo capturan lo que las personas dicen, no lo que piensan. Presentamos ThoughtTrace, el primer conjunto de datos a gran escala que empareja conversaciones reales de múltiples turnos entre humanos y la IA con los pensamientos autoinformados de los usuarios: sus razones para enviar mensajes y sus reacciones a las respuestas del asistente. ThoughtTrace comprende 1,058 usuarios, 2,155 conversaciones, 17,058 turnos y 10,174 anotaciones de pensamientos recopiladas en 20 modelos de lenguaje. Nuestro análisis muestra que ThoughtTrace captura interacciones de largo alcance y temáticamente diversas, y que los pensamientos son semánticamente distintos de los mensajes, difíciles de inferir por parte de los modelos de lenguaje de frontera a partir del contexto, diversos en contenido y vinculados a las etapas de la conversación. Además, demostramos la utilidad de los pensamientos para el modelado descendente. En primer lugar, los pensamientos mejoran la predicción del comportamiento del usuario como contexto en tiempo de inferencia. En segundo lugar, las reescrituras guiadas por pensamientos proporcionan señales de alineación detalladas para entrenar asistentes personalizados. En conjunto, ThoughtTrace establece los pensamientos del usuario como una nueva modalidad de datos para estudiar la dinámica cognitiva detrás de la interacción humano-IA y proporciona una base para construir asistentes que comprendan y se adapten mejor a los objetivos, preferencias y necesidades latentes de los usuarios.

English

Conversational AI has now reached billions of users, yet existing datasets capture only what people say, not what they think. We introduce ThoughtTrace, the first large-scale dataset that pairs real-world multi-turn human--AI conversations with users' self-reported thoughts: their reasons for sending prompts and reactions to assistant responses. ThoughtTrace comprises 1,058 users, 2,155 conversations, 17,058 turns, and 10,174 thought annotations collected across 20 language models. Our analysis shows that ThoughtTrace captures long-horizon, topically diverse interactions, and that thoughts are semantically distinct from messages, difficult for frontier LLMs to infer from context, diverse in content, and tied to conversation stages. We further demonstrate the utility of thoughts for downstream modeling. First, thoughts improve user-behavior prediction as inference-time context. Second, thought-guided rewrites provide fine-grained alignment signals for training personalized assistants. Together, ThoughtTrace establishes user thoughts as a new data modality for studying the cognitive dynamics behind human--AI interaction and provides a foundation for building assistants that better understand and adapt to users' latent goals, preferences, and needs.