Quando os Modelos Sabem Mais do que Podem Explicar: Quantificando a Transferência de Conhecimento na Colaboração Humano-IA
When Models Know More Than They Can Explain: Quantifying Knowledge Transfer in Human-AI Collaboration
June 5, 2025
Autores: Quan Shi, Carlos E. Jimenez, Shunyu Yao, Nick Haber, Diyi Yang, Karthik Narasimhan
cs.AI
Resumo
Avanços recentes em raciocínio de IA têm impulsionado melhorias substanciais em diversas tarefas. Uma questão crítica em aberto é se essas melhorias também resultam em uma transferência de conhecimento mais eficaz: a capacidade dos modelos de comunicar seu raciocínio de maneiras que os humanos possam compreender, aplicar e aprender. Para investigar isso, introduzimos o Knowledge Integration and Transfer Evaluation (KITE), um framework conceitual e experimental para avaliar capacidades de transferência de conhecimento entre Humanos e IA, e realizamos o primeiro estudo em larga escala (N=118) explicitamente projetado para medi-la. Em nossa configuração de duas fases, os humanos primeiro colaboram com uma IA na elaboração de estratégias de resolução de problemas e, em seguida, implementam soluções de forma independente, isolando a influência das explicações do modelo no entendimento humano. Nossos resultados revelam que, embora o desempenho dos modelos em benchmarks esteja correlacionado com os resultados colaborativos, essa relação é notavelmente inconsistente, apresentando outliers significativos, indicando que a transferência de conhecimento requer otimização dedicada. Nossa análise identifica fatores comportamentais e estratégicos que mediam a transferência de conhecimento bem-sucedida. Disponibilizamos nosso código, conjunto de dados e framework de avaliação para apoiar trabalhos futuros em modelos alinhados comunicativamente.
English
Recent advancements in AI reasoning have driven substantial improvements
across diverse tasks. A critical open question is whether these improvements
also yields better knowledge transfer: the ability of models to communicate
reasoning in ways humans can understand, apply, and learn from. To investigate
this, we introduce Knowledge Integration and Transfer Evaluation (KITE), a
conceptual and experimental framework for Human-AI knowledge transfer
capabilities and conduct the first large-scale human study (N=118) explicitly
designed to measure it. In our two-phase setup, humans first ideate with an AI
on problem-solving strategies, then independently implement solutions,
isolating model explanations' influence on human understanding. Our findings
reveal that although model benchmark performance correlates with collaborative
outcomes, this relationship is notably inconsistent, featuring significant
outliers, indicating that knowledge transfer requires dedicated optimization.
Our analysis identifies behavioral and strategic factors mediating successful
knowledge transfer. We release our code, dataset, and evaluation framework to
support future work on communicatively aligned models.