UQ : Évaluation des modèles de langage sur des questions non résolues
UQ: Assessing Language Models on Unsolved Questions
August 25, 2025
papers.authors: Fan Nie, Ken Ziyu Liu, Zihao Wang, Rui Sun, Wei Liu, Weijia Shi, Huaxiu Yao, Linjun Zhang, Andrew Y. Ng, James Zou, Sanmi Koyejo, Yejin Choi, Percy Liang, Niklas Muennighoff
cs.AI
papers.abstract
Les benchmarks façonnent les progrès de la recherche en IA. Un benchmark utile doit être à la fois difficile et réaliste : les questions doivent mettre à l'épreuve les modèles de pointe tout en reflétant des usages réels. Cependant, les paradigmes actuels sont confrontés à une tension entre difficulté et réalisme : les benchmarks de type examen sont souvent rendus artificiellement difficiles avec une valeur pratique limitée, tandis que les benchmarks basés sur des interactions utilisateurs réelles tendent à privilégier des problèmes faciles et fréquents. Dans ce travail, nous explorons un paradigme radicalement différent : évaluer les modèles sur des questions non résolues. Plutôt qu'un benchmark statique noté une seule fois, nous sélectionnons des questions non résolues et évaluons les modèles de manière asynchrone dans le temps avec un filtrage assisté par des validateurs et une vérification communautaire. Nous présentons UQ, un banc d'essai de 500 questions difficiles et variées provenant de Stack Exchange, couvrant des sujets allant de la théorie informatique et des mathématiques à la science-fiction et à l'histoire, explorant des capacités telles que le raisonnement, la factualité et la navigation. UQ est par construction difficile et réaliste : les questions non résolues sont souvent complexes et surgissent naturellement lorsque les humains cherchent des réponses, donc les résoudre apporte une valeur pratique directe. Nos contributions sont triples : (1) UQ-Dataset et son pipeline de collecte combinant des filtres basés sur des règles, des juges LLM et une revue humaine pour garantir la qualité des questions (par exemple, bien définies et difficiles) ; (2) UQ-Validators, des stratégies de validation composées qui exploitent l'écart générateur-validateur pour fournir des signaux d'évaluation et pré-sélectionner les solutions candidates pour une revue humaine ; et (3) UQ-Platform, une plateforme ouverte où des experts vérifient collectivement les questions et les solutions. Le meilleur modèle ne passe la validation UQ que pour 15 % des questions, et une vérification humaine préliminaire a déjà identifié des réponses correctes parmi celles qui ont réussi. UQ trace une voie pour évaluer les modèles de pointe sur des défis réels et ouverts, où le succès repousse les frontières des connaissances humaines. Nous publions UQ à l'adresse https://uq.stanford.edu.
English
Benchmarks shape progress in AI research. A useful benchmark should be both
difficult and realistic: questions should challenge frontier models while also
reflecting real-world usage. Yet, current paradigms face a difficulty-realism
tension: exam-style benchmarks are often made artificially difficult with
limited real-world value, while benchmarks based on real user interaction often
skew toward easy, high-frequency problems. In this work, we explore a radically
different paradigm: assessing models on unsolved questions. Rather than a
static benchmark scored once, we curate unsolved questions and evaluate models
asynchronously over time with validator-assisted screening and community
verification. We introduce UQ, a testbed of 500 challenging, diverse questions
sourced from Stack Exchange, spanning topics from CS theory and math to sci-fi
and history, probing capabilities including reasoning, factuality, and
browsing. UQ is difficult and realistic by construction: unsolved questions are
often hard and naturally arise when humans seek answers, thus solving them
yields direct real-world value. Our contributions are threefold: (1) UQ-Dataset
and its collection pipeline combining rule-based filters, LLM judges, and human
review to ensure question quality (e.g., well-defined and difficult); (2)
UQ-Validators, compound validation strategies that leverage the
generator-validator gap to provide evaluation signals and pre-screen candidate
solutions for human review; and (3) UQ-Platform, an open platform where experts
collectively verify questions and solutions. The top model passes UQ-validation
on only 15% of questions, and preliminary human verification has already
identified correct answers among those that passed. UQ charts a path for
evaluating frontier models on real-world, open-ended challenges, where success
pushes the frontier of human knowledge. We release UQ at
https://uq.stanford.edu.