Benchmark Interattivi

Abstract

I benchmark standard stanno diventando sempre più inaffidabili a causa della saturazione, della soggettività e della scarsa generalizzazione. Sosteniamo che valutare la capacità del modello di acquisire attivamente informazioni sia fondamentale per valutare l'intelligenza del modello. Proponiamo Interactive Benchmarks, un paradigma di valutazione unificato che valuta le capacità di ragionamento del modello in un processo interattivo sotto vincoli di budget. Istanziamo questo framework in due contesti: Interactive Proofs, dove i modelli interagiscono con un giudice per dedurre verità oggettive o risposte in logica e matematica; e Interactive Games, dove i modelli ragionano strategicamente per massimizzare utilità a lungo termine. I nostri risultati dimostrano che i benchmark interattivi forniscono una valutazione robusta e fedele dell'intelligenza del modello, rivelando che esiste ancora un margine di miglioramento sostanziale negli scenari interattivi. Pagina del progetto: https://github.com/interactivebench/interactivebench

English

Standard benchmarks have become increasingly unreliable due to saturation, subjectivity, and poor generalization. We argue that evaluating model's ability to acquire information actively is important to assess model's intelligence. We propose Interactive Benchmarks, a unified evaluation paradigm that assesses model's reasoning ability in an interactive process under budget constraints. We instantiate this framework across two settings: Interactive Proofs, where models interact with a judge to deduce objective truths or answers in logic and mathematics; and Interactive Games, where models reason strategically to maximize long-horizon utilities. Our results show that interactive benchmarks provide a robust and faithful assessment of model intelligence, revealing that there is still substantial room to improve in interactive scenarios. Project page: https://github.com/interactivebench/interactivebench