La evaluación interactiva requiere una ciencia del diseño

Resumen

La evaluación de la IA está experimentando un cambio estructural. Los modelos de lenguaje de gran escala (LLM) se despliegan cada vez más como sistemas que actúan a lo largo del tiempo mediante herramientas, entornos, usuarios y otros agentes, mientras que muchas prácticas de evaluación aún heredan supuestos de puntos de referencia centrados en respuestas (por ejemplo, entradas fijas, salidas aisladas y juicios de resultados que pueden realizarse a partir de una única respuesta). El campo ha comenzado a construir puntos de referencia interactivos, pero el panorama resultante está fragmentado: los puntos de referencia difieren en qué artefactos de interacción admiten, cómo se puntúan las trayectorias y qué afirmaciones respaldan sus resultados. Este artículo de posición argumenta que la evaluación interactiva debe tratarse como un paradigma de evaluación fundamentado, no simplemente como una nueva familia de puntos de referencia para agentes. Adoptar simplemente paradigmas de evaluación previos no es suficiente. Definimos la evaluación como una asignación autónoma desde la evidencia hasta los juicios, y mostramos que la evaluación interactiva modifica ambos lados de esta asignación: la evidencia se convierte en trayectorias generadas por la interacción, mientras que el procedimiento de evaluación debe evaluar el proceso, la recuperabilidad, la coordinación, la robustez y el rendimiento a nivel de sistema. Sobre la base de esta definición, proponemos una taxonomía de dos ejes, derivamos principios de diseño y estándares de reporte, examinamos escenarios representativos y analizamos cómo los desafíos de evaluación de larga data reaparecen a nivel de trayectoria.

English

AI evaluation is undergoing a structural change. Large language models (LLMs) are increasingly deployed as systems that act over time through tools, environments, users, and other agents, while many evaluation practices still inherit assumptions from response-centered benchmarks (e.g., fixed inputs, isolated outputs, and outcome judgments that can be made from a single response). The field has begun to build interactive benchmarks, but the resulting landscape is fragmented: benchmarks differ in what interaction artifacts they admit, how trajectories are scored, and what claims their results support. This position paper argues that interactive evaluation should be treated as a principled evaluation paradigm, not merely a new family of agent benchmarks. Simply adopting previous evaluation paradigms does not suffice. We define evaluation as an autonomous mapping from evidence to judgments, and show that interactive evaluation changes both sides of this mapping: the evidence becomes interaction-generated trajectories, while the evaluation procedure must assess process, recoverability, coordination, robustness, and system-level performance. Building on this definition, we propose a two-axis taxonomy, derive design principles and reporting standards, examine representative scenarios, and analyze how longstanding evaluation challenges reappear at the trajectory level.