UQ: Bewertung von Sprachmodellen anhand ungelöster Fragen
UQ: Assessing Language Models on Unsolved Questions
August 25, 2025
papers.authors: Fan Nie, Ken Ziyu Liu, Zihao Wang, Rui Sun, Wei Liu, Weijia Shi, Huaxiu Yao, Linjun Zhang, Andrew Y. Ng, James Zou, Sanmi Koyejo, Yejin Choi, Percy Liang, Niklas Muennighoff
cs.AI
papers.abstract
Benchmarks prägen den Fortschritt in der KI-Forschung. Ein nützlicher Benchmark sollte sowohl schwierig als auch realistisch sein: Fragen sollten Spitzenmodelle herausfordern und gleichzeitig die reale Anwendung widerspiegeln. Dennoch stehen aktuelle Paradigmen vor einem Spannungsfeld zwischen Schwierigkeit und Realismus: Prüfungsartige Benchmarks werden oft künstlich schwierig gestaltet, haben jedoch einen begrenzten praktischen Nutzen, während Benchmarks, die auf realen Benutzerinteraktionen basieren, häufig zu einfachen, hochfrequenten Problemen tendieren. In dieser Arbeit untersuchen wir ein radikal anderes Paradigma: die Bewertung von Modellen anhand ungelöster Fragen. Anstatt eines statischen Benchmarks, der einmalig bewertet wird, kuratieren wir ungelöste Fragen und bewerten Modelle asynchron über die Zeit hinweg mit validatorenunterstützter Vorauswahl und Gemeinschaftsverifizierung. Wir stellen UQ vor, eine Testumgebung mit 500 anspruchsvollen, vielfältigen Fragen, die von Stack Exchange stammen und Themen von Informatiktheorie und Mathematik bis hin zu Science-Fiction und Geschichte abdecken, wobei Fähigkeiten wie logisches Denken, Faktenwissen und Recherche untersucht werden. UQ ist von Natur aus schwierig und realistisch: ungelöste Fragen sind oft komplex und entstehen natürlich, wenn Menschen nach Antworten suchen, sodass ihre Lösung einen direkten praktischen Nutzen bietet. Unsere Beiträge sind dreifach: (1) das UQ-Dataset und seine Erfassungspipeline, die regelbasierte Filter, LLM-Bewerter und menschliche Überprüfung kombiniert, um die Qualität der Fragen sicherzustellen (z. B. klar definiert und schwierig); (2) UQ-Validatoren, zusammengesetzte Validierungsstrategien, die die Lücke zwischen Generator und Validator nutzen, um Bewertungssignale zu liefern und Kandidatenlösungen für die menschliche Überprüfung vorzusortieren; und (3) die UQ-Plattform, eine offene Plattform, auf der Experten gemeinsam Fragen und Lösungen verifizieren. Das beste Modell besteht die UQ-Validierung bei nur 15 % der Fragen, und die vorläufige menschliche Verifizierung hat bereits korrekte Antworten unter den bestandenen identifiziert. UQ weist einen Weg zur Bewertung von Spitzenmodellen anhand realer, offener Herausforderungen, bei denen Erfolg die Grenzen des menschlichen Wissens erweitert. Wir veröffentlichen UQ unter https://uq.stanford.edu.
English
Benchmarks shape progress in AI research. A useful benchmark should be both
difficult and realistic: questions should challenge frontier models while also
reflecting real-world usage. Yet, current paradigms face a difficulty-realism
tension: exam-style benchmarks are often made artificially difficult with
limited real-world value, while benchmarks based on real user interaction often
skew toward easy, high-frequency problems. In this work, we explore a radically
different paradigm: assessing models on unsolved questions. Rather than a
static benchmark scored once, we curate unsolved questions and evaluate models
asynchronously over time with validator-assisted screening and community
verification. We introduce UQ, a testbed of 500 challenging, diverse questions
sourced from Stack Exchange, spanning topics from CS theory and math to sci-fi
and history, probing capabilities including reasoning, factuality, and
browsing. UQ is difficult and realistic by construction: unsolved questions are
often hard and naturally arise when humans seek answers, thus solving them
yields direct real-world value. Our contributions are threefold: (1) UQ-Dataset
and its collection pipeline combining rule-based filters, LLM judges, and human
review to ensure question quality (e.g., well-defined and difficult); (2)
UQ-Validators, compound validation strategies that leverage the
generator-validator gap to provide evaluation signals and pre-screen candidate
solutions for human review; and (3) UQ-Platform, an open platform where experts
collectively verify questions and solutions. The top model passes UQ-validation
on only 15% of questions, and preliminary human verification has already
identified correct answers among those that passed. UQ charts a path for
evaluating frontier models on real-world, open-ended challenges, where success
pushes the frontier of human knowledge. We release UQ at
https://uq.stanford.edu.