모델이 설명할 수 있는 것보다 더 많은 것을 알 때: 인간-AI 협업에서의 지식 전이 정량화
When Models Know More Than They Can Explain: Quantifying Knowledge Transfer in Human-AI Collaboration
June 5, 2025
저자: Quan Shi, Carlos E. Jimenez, Shunyu Yao, Nick Haber, Diyi Yang, Karthik Narasimhan
cs.AI
초록
최근 인공지능(AI) 추론 분야의 발전은 다양한 과제에서 상당한 개선을 이끌어냈습니다. 그러나 이러한 개선이 인간이 이해하고 적용하며 학습할 수 있는 방식으로 모델이 추론을 전달하는 능력, 즉 지식 전이(knowledge transfer)에도 더 나은 결과를 가져오는지에 대한 중요한 의문이 남아 있습니다. 이를 조사하기 위해 우리는 인간-AI 지식 전이 능력을 평가하기 위한 개념적 및 실험적 프레임워크인 '지식 통합 및 전이 평가(Knowledge Integration and Transfer Evaluation, KITE)'를 도입하고, 이를 명시적으로 측정하기 위한 첫 번째 대규모 인간 연구(N=118)를 수행했습니다. 우리의 두 단계 실험 설계에서 인간은 먼저 AI와 함께 문제 해결 전략을 구상한 후, 독립적으로 해결책을 구현함으로써 모델 설명이 인간의 이해에 미치는 영향을 분리하여 분석했습니다. 연구 결과, 모델의 벤치마크 성능이 협업 결과와 상관관계를 보이기는 하지만, 이 관계는 특히 일관성이 없으며 상당한 이상치를 포함하고 있어, 지식 전이를 위해서는 전용 최적화가 필요함을 시사합니다. 우리의 분석은 성공적인 지식 전이를 매개하는 행동 및 전략적 요인들을 식별합니다. 우리는 의사소통적으로 정렬된 모델에 대한 향후 연구를 지원하기 위해 코드, 데이터셋 및 평가 프레임워크를 공개합니다.
English
Recent advancements in AI reasoning have driven substantial improvements
across diverse tasks. A critical open question is whether these improvements
also yields better knowledge transfer: the ability of models to communicate
reasoning in ways humans can understand, apply, and learn from. To investigate
this, we introduce Knowledge Integration and Transfer Evaluation (KITE), a
conceptual and experimental framework for Human-AI knowledge transfer
capabilities and conduct the first large-scale human study (N=118) explicitly
designed to measure it. In our two-phase setup, humans first ideate with an AI
on problem-solving strategies, then independently implement solutions,
isolating model explanations' influence on human understanding. Our findings
reveal that although model benchmark performance correlates with collaborative
outcomes, this relationship is notably inconsistent, featuring significant
outliers, indicating that knowledge transfer requires dedicated optimization.
Our analysis identifies behavioral and strategic factors mediating successful
knowledge transfer. We release our code, dataset, and evaluation framework to
support future work on communicatively aligned models.