Puntos de Referencia Interactivos

Resumen

Los puntos de referencia estándar se han vuelto cada vez menos fiables debido a la saturación, la subjetividad y la escasa generalización. Sostenemos que evaluar la capacidad del modelo para adquirir información de forma activa es crucial para valorar su inteligencia. Proponemos Puntos de Referencia Interactivos, un paradigma de evaluación unificado que valora la capacidad de razonamiento del modelo en un proceso interactivo bajo restricciones presupuestarias. Implementamos este marco en dos escenarios: Pruebas Interactivas, donde los modelos interactúan con un juez para deducir verdades objetivas o respuestas en lógica y matemáticas; y Juegos Interactivos, donde los modelos razonan estratégicamente para maximizar utilidades a largo plazo. Nuestros resultados demuestran que los puntos de referencia interactivos proporcionan una evaluación sólida y fiel de la inteligencia del modelo, revelando que aún existe un margen sustancial de mejora en escenarios interactivos. Página del proyecto: https://github.com/interactivebench/interactivebench

English

Standard benchmarks have become increasingly unreliable due to saturation, subjectivity, and poor generalization. We argue that evaluating model's ability to acquire information actively is important to assess model's intelligence. We propose Interactive Benchmarks, a unified evaluation paradigm that assesses model's reasoning ability in an interactive process under budget constraints. We instantiate this framework across two settings: Interactive Proofs, where models interact with a judge to deduce objective truths or answers in logic and mathematics; and Interactive Games, where models reason strategically to maximize long-horizon utilities. Our results show that interactive benchmarks provide a robust and faithful assessment of model intelligence, revealing that there is still substantial room to improve in interactive scenarios. Project page: https://github.com/interactivebench/interactivebench