ChatPaper.aiChatPaper

상호작용 평가는 디자인 과학을 필요로 한다

Interactive Evaluation Requires a Design Science

May 18, 2026
저자: Keyang Xuan, Peiyang Song, Pan Lu, Pengrui Han, Wenkai Li, Zhenyu Zhang, Zexue He, Wenyue Hua, Manling Li, Jiaxuan You, Adrian Weller, Yizhong Wang, Jiaxin Pei
cs.AI

초록

AI 평가는 구조적 변화를 겪고 있다. 대규모 언어 모델(LLM)은 도구, 환경, 사용자 및 다른 에이전트를 통해 시간에 따라 작동하는 시스템으로 점점 더 많이 배치되고 있지만, 많은 평가 관행은 여전히 응답 중심 벤치마크(예: 고정된 입력, 분리된 출력, 단일 응답에서 판단 가능한 결과 평가)에서 비롯된 가정을 답습하고 있다. 이 분야에서는 대화형 벤치마크를 구축하기 시작했지만, 그 결과는 분절화되어 있다. 즉, 벤치마크마다 수용하는 상호작용 요소, 궤적의 점수 산정 방식, 그리고 결과가 뒷받침하는 주장이 서로 다르다. 본 입장 논문은 대화형 평가가 단순히 새로운 에이전트 벤치마크 유형이 아니라 원칙에 기반한 평가 패러다임으로 다루어져야 한다고 주장한다. 기존 평가 패러다임을 단순히 채택하는 것으로는 충분하지 않다. 우리는 평가를 증거로부터 판단으로의 자율적 매핑으로 정의하고, 대화형 평가가 이 매핑의 양측을 변화시킴을 보여준다. 즉, 증거는 상호작용 생성 궤적이 되고, 평가 절차는 과정, 회복 가능성, 조정, 강건성 및 시스템 수준 성능을 평가해야 한다. 이러한 정의를 바탕으로 우리는 두 축으로 구성된 분류 체계를 제안하고, 설계 원칙과 보고 기준을 도출하며, 대표적인 시나리오를 검토하고, 오랜 평가 과제가 궤적 수준에서 어떻게 재등장하는지 분석한다.
English
AI evaluation is undergoing a structural change. Large language models (LLMs) are increasingly deployed as systems that act over time through tools, environments, users, and other agents, while many evaluation practices still inherit assumptions from response-centered benchmarks (e.g., fixed inputs, isolated outputs, and outcome judgments that can be made from a single response). The field has begun to build interactive benchmarks, but the resulting landscape is fragmented: benchmarks differ in what interaction artifacts they admit, how trajectories are scored, and what claims their results support. This position paper argues that interactive evaluation should be treated as a principled evaluation paradigm, not merely a new family of agent benchmarks. Simply adopting previous evaluation paradigms does not suffice. We define evaluation as an autonomous mapping from evidence to judgments, and show that interactive evaluation changes both sides of this mapping: the evidence becomes interaction-generated trajectories, while the evaluation procedure must assess process, recoverability, coordination, robustness, and system-level performance. Building on this definition, we propose a two-axis taxonomy, derive design principles and reporting standards, examine representative scenarios, and analyze how longstanding evaluation challenges reappear at the trajectory level.