ChatPaper.aiChatPaper

UQ: Het evalueren van taalmodelen op onopgeloste vragen

UQ: Assessing Language Models on Unsolved Questions

August 25, 2025
Auteurs: Fan Nie, Ken Ziyu Liu, Zihao Wang, Rui Sun, Wei Liu, Weijia Shi, Huaxiu Yao, Linjun Zhang, Andrew Y. Ng, James Zou, Sanmi Koyejo, Yejin Choi, Percy Liang, Niklas Muennighoff
cs.AI

Samenvatting

Benchmarks sturen de vooruitgang in AI-onderzoek. Een nuttige benchmark moet zowel uitdagend als realistisch zijn: vragen moeten grensverleggende modellen testen en tegelijkertijd realistisch gebruik weerspiegelen. Toch kampen huidige paradigma's met een spanning tussen moeilijkheid en realisme: examenstijlbenchmarks zijn vaak kunstmatig moeilijk gemaakt met beperkte waarde in de praktijk, terwijl benchmarks gebaseerd op echte gebruikersinteracties vaak neigen naar eenvoudige, veelvoorkomende problemen. In dit werk verkennen we een radicaal ander paradigma: het beoordelen van modellen op onopgeloste vragen. In plaats van een statische benchmark die eenmaal wordt gescoord, cureren we onopgeloste vragen en evalueren we modellen asynchroon in de tijd met validator-ondersteunde screening en gemeenschapsverificatie. We introduceren UQ, een testomgeving van 500 uitdagende, diverse vragen afkomstig van Stack Exchange, die onderwerpen beslaan van CS-theorie en wiskunde tot sci-fi en geschiedenis, en die vaardigheden onderzoeken zoals redeneren, feitelijkheid en browsen. UQ is per definitie moeilijk en realistisch: onopgeloste vragen zijn vaak lastig en ontstaan van nature wanneer mensen antwoorden zoeken, waardoor het oplossen ervan directe waarde in de praktijk oplevert. Onze bijdragen zijn drievoudig: (1) UQ-Dataset en de verzamelpijplijn die regelgebaseerde filters, LLM-beoordelaars en menselijke beoordeling combineert om de kwaliteit van vragen te waarborgen (bijvoorbeeld goed gedefinieerd en moeilijk); (2) UQ-Validators, samengestelde validatiestrategieën die gebruikmaken van de kloof tussen generator en validator om evaluatiesignalen te leveren en kandidaatoplossingen voor te screenen voor menselijke beoordeling; en (3) UQ-Platform, een open platform waar experts gezamenlijk vragen en oplossingen verifiëren. Het beste model slaagt voor UQ-validatie op slechts 15% van de vragen, en voorlopige menselijke verificatie heeft al correcte antwoorden geïdentificeerd onder degenen die slaagden. UQ wijst de weg naar het evalueren van grensverleggende modellen op realistische, open uitdagingen, waarbij succes de grenzen van menselijke kennis verlegt. We maken UQ beschikbaar op https://uq.stanford.edu.
English
Benchmarks shape progress in AI research. A useful benchmark should be both difficult and realistic: questions should challenge frontier models while also reflecting real-world usage. Yet, current paradigms face a difficulty-realism tension: exam-style benchmarks are often made artificially difficult with limited real-world value, while benchmarks based on real user interaction often skew toward easy, high-frequency problems. In this work, we explore a radically different paradigm: assessing models on unsolved questions. Rather than a static benchmark scored once, we curate unsolved questions and evaluate models asynchronously over time with validator-assisted screening and community verification. We introduce UQ, a testbed of 500 challenging, diverse questions sourced from Stack Exchange, spanning topics from CS theory and math to sci-fi and history, probing capabilities including reasoning, factuality, and browsing. UQ is difficult and realistic by construction: unsolved questions are often hard and naturally arise when humans seek answers, thus solving them yields direct real-world value. Our contributions are threefold: (1) UQ-Dataset and its collection pipeline combining rule-based filters, LLM judges, and human review to ensure question quality (e.g., well-defined and difficult); (2) UQ-Validators, compound validation strategies that leverage the generator-validator gap to provide evaluation signals and pre-screen candidate solutions for human review; and (3) UQ-Platform, an open platform where experts collectively verify questions and solutions. The top model passes UQ-validation on only 15% of questions, and preliminary human verification has already identified correct answers among those that passed. UQ charts a path for evaluating frontier models on real-world, open-ended challenges, where success pushes the frontier of human knowledge. We release UQ at https://uq.stanford.edu.
PDF154August 26, 2025