UQ: Оценка языковых моделей на нерешенных вопросах
UQ: Assessing Language Models on Unsolved Questions
August 25, 2025
Авторы: Fan Nie, Ken Ziyu Liu, Zihao Wang, Rui Sun, Wei Liu, Weijia Shi, Huaxiu Yao, Linjun Zhang, Andrew Y. Ng, James Zou, Sanmi Koyejo, Yejin Choi, Percy Liang, Niklas Muennighoff
cs.AI
Аннотация
Бенчмарки определяют прогресс в исследованиях ИИ. Полезный бенчмарк должен быть одновременно сложным и реалистичным: задачи должны бросать вызов передовым моделям, а также отражать реальное использование. Однако текущие парадигмы сталкиваются с противоречием между сложностью и реалистичностью: бенчмарки в стиле экзаменов часто искусственно усложняются, имея ограниченную ценность в реальном мире, в то время как бенчмарки, основанные на реальном взаимодействии с пользователями, часто смещаются в сторону простых, высокочастотных задач. В этой работе мы исследуем принципиально иную парадигму: оценку моделей на нерешенных вопросах. Вместо статического бенчмарка, оцениваемого один раз, мы собираем нерешенные вопросы и асинхронно оцениваем модели с течением времени с использованием валидатор-ассистированного скрининга и проверки сообществом. Мы представляем UQ — тестовую базу из 500 сложных и разнообразных вопросов, взятых с Stack Exchange, охватывающих темы от теории компьютерных наук и математики до научной фантастики и истории, исследующих такие способности, как рассуждение, фактическая точность и поиск информации. UQ сложен и реалистичен по своей сути: нерешенные вопросы часто трудны и естественным образом возникают, когда люди ищут ответы, поэтому их решение приносит прямую пользу в реальном мире. Наш вклад трехчастен: (1) UQ-Dataset и его процесс сбора, сочетающий правила фильтрации, судей на основе LLM и человеческую проверку для обеспечения качества вопросов (например, четкость и сложность); (2) UQ-Validators, стратегии составной валидации, которые используют разрыв между генератором и валидатором для предоставления сигналов оценки и предварительного скрининга кандидатов на решение для человеческой проверки; и (3) UQ-Platform, открытая платформа, где эксперты коллективно проверяют вопросы и решения. Лучшая модель проходит UQ-валидацию только для 15% вопросов, а предварительная человеческая проверка уже выявила правильные ответы среди тех, что прошли проверку. UQ прокладывает путь для оценки передовых моделей на реальных, открытых задачах, где успех продвигает границы человеческих знаний. Мы публикуем UQ на https://uq.stanford.edu.
English
Benchmarks shape progress in AI research. A useful benchmark should be both
difficult and realistic: questions should challenge frontier models while also
reflecting real-world usage. Yet, current paradigms face a difficulty-realism
tension: exam-style benchmarks are often made artificially difficult with
limited real-world value, while benchmarks based on real user interaction often
skew toward easy, high-frequency problems. In this work, we explore a radically
different paradigm: assessing models on unsolved questions. Rather than a
static benchmark scored once, we curate unsolved questions and evaluate models
asynchronously over time with validator-assisted screening and community
verification. We introduce UQ, a testbed of 500 challenging, diverse questions
sourced from Stack Exchange, spanning topics from CS theory and math to sci-fi
and history, probing capabilities including reasoning, factuality, and
browsing. UQ is difficult and realistic by construction: unsolved questions are
often hard and naturally arise when humans seek answers, thus solving them
yields direct real-world value. Our contributions are threefold: (1) UQ-Dataset
and its collection pipeline combining rule-based filters, LLM judges, and human
review to ensure question quality (e.g., well-defined and difficult); (2)
UQ-Validators, compound validation strategies that leverage the
generator-validator gap to provide evaluation signals and pre-screen candidate
solutions for human review; and (3) UQ-Platform, an open platform where experts
collectively verify questions and solutions. The top model passes UQ-validation
on only 15% of questions, and preliminary human verification has already
identified correct answers among those that passed. UQ charts a path for
evaluating frontier models on real-world, open-ended challenges, where success
pushes the frontier of human knowledge. We release UQ at
https://uq.stanford.edu.