ChatPaper.aiChatPaper

Razonamiento Personalizado: Personalización Justo a Tiempo y Por Qué los LLM Fracasan en Ello

Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It

September 30, 2025
Autores: Shuyue Stella Li, Avinandan Bose, Faeze Brahman, Simon Shaolei Du, Pang Wei Koh, Maryam Fazel, Yulia Tsvetkov
cs.AI

Resumen

El desarrollo actual de los grandes modelos de lenguaje (LLM, por sus siglas en inglés) aborda la resolución de tareas y la alineación de preferencias como desafíos separados, optimizando primero para la corrección objetiva y luego para la alineación con las preferencias humanas agregadas. Este paradigma falla en aplicaciones orientadas a humanos, donde resolver un problema correctamente es insuficiente si la respuesta no coincide con las necesidades del usuario. Este desafío se intensifica en escenarios de justo a tiempo, donde no existe un historial previo de interacción con el usuario debido a condiciones de arranque en frío o restricciones de privacidad. Los LLM necesitan identificar lo que desconocen sobre las preferencias del usuario, elicitar estratégicamente valores de preferencia mediante preguntas y luego adaptar sus procesos de razonamiento y respuestas en consecuencia: una cadena compleja de procesos cognitivos que denominamos razonamiento personalizado. Presentamos PREFDISCO, una metodología de evaluación que transforma puntos de referencia estáticos en tareas de personalización interactiva utilizando personajes psicológicamente fundamentados con preferencias dispersas. Nuestro marco crea escenarios en los que preguntas idénticas requieren cadenas de razonamiento diferentes según el contexto del usuario, ya que los enfoques óptimos de explicación varían según la experiencia y preferencias individuales, manteniendo la precisión factual. La evaluación de 21 modelos de vanguardia en 10 tareas revela que el 29.0% de los intentos ingenuos de personalización producen una alineación de preferencias peor que las respuestas genéricas, aunque estas últimas tampoco satisfacen eficazmente las necesidades individuales del usuario. Estos hallazgos sugieren que el razonamiento personalizado requiere un desarrollo dedicado en lugar de surgir de forma natural. PREFDISCO establece el razonamiento personalizado como una frontera de investigación medible y revela limitaciones fundamentales en las capacidades interactivas de los LLM actuales, proporcionando una base para desarrollar sistemas que puedan adaptarse a usuarios individuales en educación, salud y dominios técnicos donde la personalización es crítica.
English
Current large language model (LLM) development treats task-solving and preference alignment as separate challenges, optimizing first for objective correctness, then for alignment to aggregated human preferences. This paradigm fails in human-facing applications where solving a problem correctly is insufficient if the response mismatches the user's needs. This challenge intensifies in just-in-time scenarios where no prior user interaction history exists due to cold-start conditions or privacy constraints. LLMs need to identify what they don't know about user preferences, strategically elicit preference values through questioning, then adapt their reasoning processes and responses accordingly -- a complicated chain of cognitive processes which we term personalized reasoning. We introduce PREFDISCO, an evaluation methodology that transforms static benchmarks into interactive personalization tasks using psychologically-grounded personas with sparse preferences. Our framework creates scenarios where identical questions require different reasoning chains depending on user context, as optimal explanation approaches vary by individual expertise and preferences while maintaining factual accuracy. Evaluation of 21 frontier models across 10 tasks reveals 29.0% of naive personalization attempts produce worse preference alignment than generic responses, yet generic responses also fail to serve individual user needs effectively. These findings suggest personalized reasoning requires dedicated development rather than emerging naturally. PREFDISCO establishes personalized reasoning as a measurable research frontier and reveals fundamental limitations in current LLMs' interactive capabilities, providing a foundation for developing systems that can adapt to individual users in education, healthcare, and technical domains where personalization is critical.
PDF32October 6, 2025