ChatPaper.aiChatPaper

평가 카드: AI 평가 보고를 위한 해석적 계층

Evaluation Cards: An Interpretive Layer for AI Evaluation Reporting

June 8, 2026
저자: Avijit Ghosh, Anka Reuel, Jenny Chim, Wm. Matthew Kennedy, Srishti Yadav, Jennifer Mickel, Yanan Long, Andrew Tran, Anastassia Kornilova, Damian Stachura, Kevin Klyman, Felix Friedrich, Jeba Sania, Max Lamparth, Jan Batzner, Anoop Mishra, Eliya Habba, Yixiong Hao, Nathan Heath, Shalaleh Rismani, Usman Gohar, Andrea Loehr, David Manheim, Ruchira Dhar, Sree Harsha Nelaturu, Aarush Sinha, Leshem Choshen, Drishti Sharma, Ishan Khire, Amit Saha, Subramanyam Sahoo, Michael Hardy, Michael Alexander Riegler, Kabir Manghnani, Michelle Lin, Yanan Jiang, Yilin Huang, Asaf Yehudai, Jessica Ji, Aris Hofmann, Mubashara Akhtar, Nuno Moniz, Yacine Jernite, Stella Biderman, Zeerak Talat, Sanmi Koyejo, Mykel Kochenderfer, Irene Solaiman
cs.AI

초록

AI 평가 결과는 대규모로 생성되지만, 리더보드, 모델 카드, 벤치마크 논문, 그리고 회사 블로그 등에서 일관성 없이 보고됩니다. 그 대가는 해석적입니다: 독자는 여러 출처 간 결과를 신뢰성 있게 비교하거나, 보고서에서 누락된 내용을 파악하거나, 종합적인 주장을 뒷받침하는 근거를 추적할 수 없습니다. 최근의 노력은 개별 구성 요소를 다루지만 세 가지 공백을 남깁니다: 평가 생애 주기의 좁은 부분만 다루며 하나의 해석 가능한 기록으로 구성되지 않습니다; 동일한 증거에 대해 다양한 이해관계자가 제기하는 질문을 구분하지 않는 정적 표현을 명시합니다; 그리고 문서상의 제안에 그쳐 대규모 적용에 필요한 추출 인프라가 부족합니다. 본 논문에서는 벤치마크 메타데이터, 평가 실행 데이터, 모델 메타데이터를 통합 기록으로 구성하는 운영 보고 계층을 제시합니다. 본 논문에서는 (1) 52편의 논문과 10명의 이해관계자 인터뷰에 대한 체계적 검토를 통해 보고 스키마를 도출하고, (2) 네 가지 해석 신호(재현성, 문서 완전성, 출처 및 위험, 점수 비교 가능성)를 구현하며, 이를 연구 및 비연구 청중에 맞게 조정된 독자 모드로 제공하고, (3) 5,816개 모델, 635개 벤치마크, 101,843개 결과에 적용되는 모니터링 도구를 배포하여 현재 보고 관행의 체계적 공백을 드러냅니다.
English
AI evaluation results are produced at scale but reported inconsistently across leaderboards, model cards, benchmark papers, and company blogs. The cost is interpretive: readers cannot reliably compare results across sources, identify what a report omits, or trace an aggregate claim to its underlying evidence. Recent efforts address isolated components but leave three gaps: they cover only narrow slices of the evaluation lifecycle and do not compose into a single interpretable record; they specify static representations that do not differentiate the questions different stakeholders bring to the same evidence; and they remain proposals on paper, lacking the extraction infrastructure required for adoption at scale. We present , an operational reporting layer that composes benchmark metadata, evaluation run data, and model metadata into a unified record. We (1) derive a reporting schema from a structured review of 52 papers and 10 stakeholder interviews, (2) implement four interpretive signals (reproducibility, documentation completeness, provenance and risk, and score comparability), rendered through reader modes calibrated to research and non-research audiences, and (3) deploy a monitoring tool that applies across 5,816 models, 635 benchmarks, and 101,843 results, surfacing systematic gaps in current reporting practice.