Avaliação Interativa Requer uma Ciência do Design

Resumo

A avaliação de IA está passando por uma mudança estrutural. Grandes modelos de linguagem (LLMs) são cada vez mais implantados como sistemas que atuam ao longo do tempo por meio de ferramentas, ambientes, usuários e outros agentes, enquanto muitas práticas de avaliação ainda herdam pressupostos de benchmarks centrados em respostas (por exemplo, entradas fixas, saídas isoladas e julgamentos de resultado que podem ser feitos a partir de uma única resposta). O campo começou a construir benchmarks interativos, mas o panorama resultante é fragmentado: os benchmarks diferem quanto aos artefatos de interação que admitem, como as trajetórias são pontuadas e quais alegações seus resultados sustentam. Este artigo de posição argumenta que a avaliação interativa deve ser tratada como um paradigma de avaliação fundamentado, e não meramente como uma nova família de benchmarks para agentes. Simplesmente adotar paradigmas de avaliação anteriores não é suficiente. Definimos avaliação como um mapeamento autônomo de evidências para julgamentos e mostramos que a avaliação interativa altera ambos os lados desse mapeamento: a evidência torna-se trajetórias geradas pela interação, enquanto o procedimento de avaliação deve avaliar processo, recuperabilidade, coordenação, robustez e desempenho em nível de sistema. Com base nessa definição, propomos uma taxonomia de dois eixos, derivamos princípios de design e padrões de relato, examinamos cenários representativos e analisamos como desafios de longa data na avaliação reaparecem no nível da trajetória.

English

AI evaluation is undergoing a structural change. Large language models (LLMs) are increasingly deployed as systems that act over time through tools, environments, users, and other agents, while many evaluation practices still inherit assumptions from response-centered benchmarks (e.g., fixed inputs, isolated outputs, and outcome judgments that can be made from a single response). The field has begun to build interactive benchmarks, but the resulting landscape is fragmented: benchmarks differ in what interaction artifacts they admit, how trajectories are scored, and what claims their results support. This position paper argues that interactive evaluation should be treated as a principled evaluation paradigm, not merely a new family of agent benchmarks. Simply adopting previous evaluation paradigms does not suffice. We define evaluation as an autonomous mapping from evidence to judgments, and show that interactive evaluation changes both sides of this mapping: the evidence becomes interaction-generated trajectories, while the evaluation procedure must assess process, recoverability, coordination, robustness, and system-level performance. Building on this definition, we propose a two-axis taxonomy, derive design principles and reporting standards, examine representative scenarios, and analyze how longstanding evaluation challenges reappear at the trajectory level.