Интерактивные бенчмарки

Аннотация

Стандартные бенчмарки становятся все менее надежными из-за насыщения, субъективности и слабой обобщающей способности. Мы утверждаем, что оценка способности модели к активному приобретению информации важна для оценки ее интеллекта. Мы предлагаем Интерактивные бенчмарки — унифицированную парадигму оценки, которая проверяет способность модели к рассуждению в интерактивном процессе при ограниченных ресурсах. Мы реализуем эту концепцию в двух сценариях: Интерактивные доказательства, где модели взаимодействуют с судьей для выведения объективных истин или ответов в логике и математике; и Интерактивные игры, где модели стратегически рассуждают для максимизации долгосрочной полезности. Наши результаты показывают, что интерактивные бенчмарки обеспечивают надежную и достоверную оценку интеллекта моделей, демонстрируя, что в интерактивных сценариях еще есть значительный простор для улучшения. Страница проекта: https://github.com/interactivebench/interactivebench

English

Standard benchmarks have become increasingly unreliable due to saturation, subjectivity, and poor generalization. We argue that evaluating model's ability to acquire information actively is important to assess model's intelligence. We propose Interactive Benchmarks, a unified evaluation paradigm that assesses model's reasoning ability in an interactive process under budget constraints. We instantiate this framework across two settings: Interactive Proofs, where models interact with a judge to deduce objective truths or answers in logic and mathematics; and Interactive Games, where models reason strategically to maximize long-horizon utilities. Our results show that interactive benchmarks provide a robust and faithful assessment of model intelligence, revealing that there is still substantial room to improve in interactive scenarios. Project page: https://github.com/interactivebench/interactivebench