Benchmarks interactifs

Résumé

Les benchmarks standards sont devenus de plus en plus peu fiables en raison de la saturation, de la subjectivité et d'une mauvaise généralisation. Nous soutenons qu'évaluer la capacité d'un modèle à acquérir activement des informations est essentiel pour mesurer son intelligence. Nous proposons Interactive Benchmarks, un paradigme d'évaluation unifié qui juge la capacité de raisonnement d'un modèle dans un processus interactif sous contraintes budgétaires. Nous instancions ce cadre dans deux contextes : les Preuves Interactives, où les modèles interagissent avec un juge pour déduire des vérités objectives ou des réponses en logique et en mathématiques ; et les Jeux Interactifs, où les modèles raisonnent stratégiquement pour maximiser des utilités à long terme. Nos résultats montrent que les benchmarks interactifs fournissent une évaluation robuste et fidèle de l'intelligence des modèles, révélant qu'il existe encore une marge d'amélioration substantielle dans les scénarios interactifs. Page du projet : https://github.com/interactivebench/interactivebench

English

Standard benchmarks have become increasingly unreliable due to saturation, subjectivity, and poor generalization. We argue that evaluating model's ability to acquire information actively is important to assess model's intelligence. We propose Interactive Benchmarks, a unified evaluation paradigm that assesses model's reasoning ability in an interactive process under budget constraints. We instantiate this framework across two settings: Interactive Proofs, where models interact with a judge to deduce objective truths or answers in logic and mathematics; and Interactive Games, where models reason strategically to maximize long-horizon utilities. Our results show that interactive benchmarks provide a robust and faithful assessment of model intelligence, revealing that there is still substantial room to improve in interactive scenarios. Project page: https://github.com/interactivebench/interactivebench