L'évaluation interactive nécessite une science de la conception.

Résumé

L'évaluation de l'IA connaît un changement structurel. Les grands modèles de langage (LLMs) sont de plus en plus déployés comme des systèmes qui agissent dans le temps via des outils, des environnements, des utilisateurs et d'autres agents, alors que de nombreuses pratiques d'évaluation héritent encore d'hypothèses issues de benchmarks centrés sur les réponses (par exemple, entrées fixes, sorties isolées et jugements de résultat pouvant être portés à partir d'une seule réponse). Le domaine a commencé à construire des benchmarks interactifs, mais le paysage résultant est fragmenté : les benchmarks diffèrent selon les artefacts d'interaction qu'ils admettent, la manière dont les trajectoires sont évaluées et les affirmations que leurs résultats soutiennent. Cet article de position soutient que l'évaluation interactive devrait être considérée comme un paradigme d'évaluation fondé sur des principes, et non simplement comme une nouvelle famille de benchmarks pour agents. Adopter simplement les paradigmes d'évaluation précédents ne suffit pas. Nous définissons l'évaluation comme un mappage autonome des preuves aux jugements, et montrons que l'évaluation interactive modifie les deux aspects de ce mappage : les preuves deviennent des trajectoires générées par l'interaction, tandis que la procédure d'évaluation doit évaluer le processus, la récupérabilité, la coordination, la robustesse et la performance au niveau du système. Sur la base de cette définition, nous proposons une taxonomie à deux axes, dérivons des principes de conception et des normes de rapport, examinons des scénarios représentatifs et analysons comment des défis d'évaluation de longue date réapparaissent au niveau de la trajectoire.

English

AI evaluation is undergoing a structural change. Large language models (LLMs) are increasingly deployed as systems that act over time through tools, environments, users, and other agents, while many evaluation practices still inherit assumptions from response-centered benchmarks (e.g., fixed inputs, isolated outputs, and outcome judgments that can be made from a single response). The field has begun to build interactive benchmarks, but the resulting landscape is fragmented: benchmarks differ in what interaction artifacts they admit, how trajectories are scored, and what claims their results support. This position paper argues that interactive evaluation should be treated as a principled evaluation paradigm, not merely a new family of agent benchmarks. Simply adopting previous evaluation paradigms does not suffice. We define evaluation as an autonomous mapping from evidence to judgments, and show that interactive evaluation changes both sides of this mapping: the evidence becomes interaction-generated trajectories, while the evaluation procedure must assess process, recoverability, coordination, robustness, and system-level performance. Building on this definition, we propose a two-axis taxonomy, derive design principles and reporting standards, examine representative scenarios, and analyze how longstanding evaluation challenges reappear at the trajectory level.