Cuando los modelos saben más de lo que pueden explicar: Cuantificación de la transferencia de conocimiento en la colaboración humano-IA
When Models Know More Than They Can Explain: Quantifying Knowledge Transfer in Human-AI Collaboration
June 5, 2025
Autores: Quan Shi, Carlos E. Jimenez, Shunyu Yao, Nick Haber, Diyi Yang, Karthik Narasimhan
cs.AI
Resumen
Los avances recientes en el razonamiento de la inteligencia artificial (IA) han impulsado mejoras sustanciales en diversas tareas. Una pregunta crítica abierta es si estas mejoras también conducen a una mejor transferencia de conocimiento: la capacidad de los modelos para comunicar razonamientos de manera que los humanos puedan comprender, aplicar y aprender de ellos. Para investigar esto, presentamos la Evaluación de Integración y Transferencia de Conocimiento (KITE, por sus siglas en inglés), un marco conceptual y experimental para evaluar las capacidades de transferencia de conocimiento entre humanos y IA, y llevamos a cabo el primer estudio a gran escala con humanos (N=118) diseñado explícitamente para medirlo. En nuestra configuración de dos fases, los humanos primero idean estrategias de resolución de problemas junto con una IA, luego implementan soluciones de manera independiente, aislando así la influencia de las explicaciones del modelo en la comprensión humana. Nuestros hallazgos revelan que, aunque el rendimiento de los modelos en pruebas de referencia se correlaciona con los resultados colaborativos, esta relación es notablemente inconsistente, presentando valores atípicos significativos, lo que indica que la transferencia de conocimiento requiere una optimización dedicada. Nuestro análisis identifica factores conductuales y estratégicos que median la transferencia exitosa de conocimiento. Publicamos nuestro código, conjunto de datos y marco de evaluación para apoyar trabajos futuros en modelos comunicativamente alineados.
English
Recent advancements in AI reasoning have driven substantial improvements
across diverse tasks. A critical open question is whether these improvements
also yields better knowledge transfer: the ability of models to communicate
reasoning in ways humans can understand, apply, and learn from. To investigate
this, we introduce Knowledge Integration and Transfer Evaluation (KITE), a
conceptual and experimental framework for Human-AI knowledge transfer
capabilities and conduct the first large-scale human study (N=118) explicitly
designed to measure it. In our two-phase setup, humans first ideate with an AI
on problem-solving strategies, then independently implement solutions,
isolating model explanations' influence on human understanding. Our findings
reveal that although model benchmark performance correlates with collaborative
outcomes, this relationship is notably inconsistent, featuring significant
outliers, indicating that knowledge transfer requires dedicated optimization.
Our analysis identifies behavioral and strategic factors mediating successful
knowledge transfer. We release our code, dataset, and evaluation framework to
support future work on communicatively aligned models.