ChatPaper.aiChatPaper

Raciocínio Personalizado: Personalização Just-In-Time e Por Que os LLMs Falham Nisso

Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It

September 30, 2025
Autores: Shuyue Stella Li, Avinandan Bose, Faeze Brahman, Simon Shaolei Du, Pang Wei Koh, Maryam Fazel, Yulia Tsvetkov
cs.AI

Resumo

O desenvolvimento atual de grandes modelos de linguagem (LLMs) trata a resolução de tarefas e o alinhamento de preferências como desafios separados, otimizando primeiro para a correção objetiva e, em seguida, para o alinhamento com as preferências humanas agregadas. Esse paradigma falha em aplicações voltadas para humanos, onde resolver um problema corretamente é insuficiente se a resposta não corresponder às necessidades do usuário. Esse desafio se intensifica em cenários de just-in-time, onde não há histórico prévio de interação com o usuário devido a condições de cold-start ou restrições de privacidade. Os LLMs precisam identificar o que não sabem sobre as preferências do usuário, elicitar estrategicamente os valores de preferência por meio de questionamentos e, então, adaptar seus processos de raciocínio e respostas de acordo — uma cadeia complexa de processos cognitivos que denominamos raciocínio personalizado. Apresentamos o PREFDISCO, uma metodologia de avaliação que transforma benchmarks estáticos em tarefas interativas de personalização usando personas psicologicamente fundamentadas com preferências esparsas. Nosso framework cria cenários onde perguntas idênticas exigem cadeias de raciocínio diferentes dependendo do contexto do usuário, já que as abordagens de explicação ideais variam conforme a expertise e as preferências individuais, mantendo a precisão factual. A avaliação de 21 modelos de ponta em 10 tarefas revela que 29,0% das tentativas ingênuas de personalização produzem um alinhamento de preferências pior do que respostas genéricas, embora respostas genéricas também falhem em atender efetivamente às necessidades individuais dos usuários. Esses achados sugerem que o raciocínio personalizado requer desenvolvimento dedicado, em vez de surgir naturalmente. O PREFDISCO estabelece o raciocínio personalizado como uma fronteira de pesquisa mensurável e revela limitações fundamentais nas capacidades interativas dos LLMs atuais, fornecendo uma base para o desenvolvimento de sistemas que podem se adaptar a usuários individuais em educação, saúde e domínios técnicos onde a personalização é crítica.
English
Current large language model (LLM) development treats task-solving and preference alignment as separate challenges, optimizing first for objective correctness, then for alignment to aggregated human preferences. This paradigm fails in human-facing applications where solving a problem correctly is insufficient if the response mismatches the user's needs. This challenge intensifies in just-in-time scenarios where no prior user interaction history exists due to cold-start conditions or privacy constraints. LLMs need to identify what they don't know about user preferences, strategically elicit preference values through questioning, then adapt their reasoning processes and responses accordingly -- a complicated chain of cognitive processes which we term personalized reasoning. We introduce PREFDISCO, an evaluation methodology that transforms static benchmarks into interactive personalization tasks using psychologically-grounded personas with sparse preferences. Our framework creates scenarios where identical questions require different reasoning chains depending on user context, as optimal explanation approaches vary by individual expertise and preferences while maintaining factual accuracy. Evaluation of 21 frontier models across 10 tasks reveals 29.0% of naive personalization attempts produce worse preference alignment than generic responses, yet generic responses also fail to serve individual user needs effectively. These findings suggest personalized reasoning requires dedicated development rather than emerging naturally. PREFDISCO establishes personalized reasoning as a measurable research frontier and reveals fundamental limitations in current LLMs' interactive capabilities, providing a foundation for developing systems that can adapt to individual users in education, healthcare, and technical domains where personalization is critical.
PDF32October 6, 2025