Quand les modèles en savent plus qu'ils ne peuvent expliquer : Quantifier le transfert de connaissances dans la collaboration humain-IA
When Models Know More Than They Can Explain: Quantifying Knowledge Transfer in Human-AI Collaboration
June 5, 2025
Auteurs: Quan Shi, Carlos E. Jimenez, Shunyu Yao, Nick Haber, Diyi Yang, Karthik Narasimhan
cs.AI
Résumé
Les récents progrès en matière de raisonnement par IA ont entraîné des améliorations substantielles dans diverses tâches. Une question ouverte cruciale est de savoir si ces améliorations conduisent également à un meilleur transfert de connaissances : la capacité des modèles à communiquer leur raisonnement de manière compréhensible, applicable et instructive pour les humains. Pour explorer cette question, nous introduisons l'évaluation de l'intégration et du transfert de connaissances (Knowledge Integration and Transfer Evaluation, KITE), un cadre conceptuel et expérimental pour mesurer les capacités de transfert de connaissances entre humains et IA, et nous menons la première étude à grande échelle (N=118) explicitement conçue pour l'évaluer. Dans notre dispositif en deux phases, les humains élaborent d'abord des stratégies de résolution de problèmes avec une IA, puis mettent en œuvre des solutions de manière indépendante, isolant ainsi l'influence des explications du modèle sur la compréhension humaine. Nos résultats révèlent que, bien que la performance des modèles aux benchmarks soit corrélée aux résultats collaboratifs, cette relation est notablement inconstante, avec des outliers significatifs, indiquant que le transfert de connaissances nécessite une optimisation dédiée. Notre analyse identifie des facteurs comportementaux et stratégiques qui médiatisent un transfert de connaissances réussi. Nous publions notre code, notre jeu de données et notre cadre d'évaluation pour soutenir les travaux futurs sur des modèles alignés sur la communication.
English
Recent advancements in AI reasoning have driven substantial improvements
across diverse tasks. A critical open question is whether these improvements
also yields better knowledge transfer: the ability of models to communicate
reasoning in ways humans can understand, apply, and learn from. To investigate
this, we introduce Knowledge Integration and Transfer Evaluation (KITE), a
conceptual and experimental framework for Human-AI knowledge transfer
capabilities and conduct the first large-scale human study (N=118) explicitly
designed to measure it. In our two-phase setup, humans first ideate with an AI
on problem-solving strategies, then independently implement solutions,
isolating model explanations' influence on human understanding. Our findings
reveal that although model benchmark performance correlates with collaborative
outcomes, this relationship is notably inconsistent, featuring significant
outliers, indicating that knowledge transfer requires dedicated optimization.
Our analysis identifies behavioral and strategic factors mediating successful
knowledge transfer. We release our code, dataset, and evaluation framework to
support future work on communicatively aligned models.