DREAM: 에이전트 기반 메트릭스를 활용한 심층 연구 평가
DREAM: Deep Research Evaluation with Agentic Metrics
February 21, 2026
저자: Elad Ben Avraham, Changhao Li, Ron Dorfman, Roy Ganz, Oren Nuriel, Amir Dudai, Aviad Aberdam, Noah Flynn, Elman Mansimov, Adi Kalyanpur, Ron Litman
cs.AI
초록
딥 리서치 에이전트는 분석가 수준의 리포트를 생성하지만, 단일한 기준 진실이 부재하고 연구 품질이 다차원적 특성을 지녀 평가에는 여전히 과제가 남아 있습니다. 최근 벤치마크들은 다양한 방법론을 제안하지만, '통합의 신기루(Mirage of Synthesis)' 현상으로 인해 표면적 유창성과 인용 정합성이 강할수록 사실 관계와 추론의 결함이 가려지는 한계를 보입니다. 우리는 이러한 격차를 4개 영역에 걸친 분류체계를 도입하여 규명함으로써 중요한 역량 불일치를 드러냅니다: 정적 평가자들은 본질적으로 시간적 타당성과 사실 정확성 평가에 필요한 도구 활용 능력이 결여되어 있습니다. 이를 해결하기 위해 우리는 평가 자체를 에이전트 기반으로 전환함으로써 역량 패리티 원칙을 구현하는 DREAM(Deep Research Evaluation with Agentic Metrics) 프레임워크를 제안합니다. DREAM은 쿼리 무관 메트릭과 도구 호출 에이전트가 생성하는 적응형 메트릭을 결합한 평가 프로토콜을 통해 평가를 구조화하여, 시간 인식 커버리지, 근거 기반 검증 및 체계적 추론 탐사가 가능하게 합니다. 통제된 평가 결과, DREAM이 기존 벤치마크보다 사실 관계와 시간적 퇴행성에 훨씬 더 민감하게 반응하며 확장 가능한 참조 무관 평가 패러다임을 제공함을 입증했습니다.
English
Deep Research Agents generate analyst-grade reports, yet evaluating them remains challenging due to the absence of a single ground truth and the multidimensional nature of research quality. Recent benchmarks propose distinct methodologies, yet they suffer from the Mirage of Synthesis, where strong surface-level fluency and citation alignment can obscure underlying factual and reasoning defects. We characterize this gap by introducing a taxonomy across four verticals that exposes a critical capability mismatch: static evaluators inherently lack the tool-use capabilities required to assess temporal validity and factual correctness. To address this, we propose DREAM (Deep Research Evaluation with Agentic Metrics), a framework that instantiates the principle of capability parity by making evaluation itself agentic. DREAM structures assessment through an evaluation protocol combining query-agnostic metrics with adaptive metrics generated by a tool-calling agent, enabling temporally aware coverage, grounded verification, and systematic reasoning probes. Controlled evaluations demonstrate DREAM is significantly more sensitive to factual and temporal decay than existing benchmarks, offering a scalable, reference-free evaluation paradigm.