ChatPaper.aiChatPaper

UQ: Valutazione dei Modelli Linguistici su Domande Irrisolte

UQ: Assessing Language Models on Unsolved Questions

August 25, 2025
Autori: Fan Nie, Ken Ziyu Liu, Zihao Wang, Rui Sun, Wei Liu, Weijia Shi, Huaxiu Yao, Linjun Zhang, Andrew Y. Ng, James Zou, Sanmi Koyejo, Yejin Choi, Percy Liang, Niklas Muennighoff
cs.AI

Abstract

I benchmark modellano il progresso nella ricerca sull'IA. Un benchmark utile dovrebbe essere sia difficile che realistico: le domande dovrebbero mettere alla prova i modelli all'avanguardia, riflettendo al contempo l'uso nel mondo reale. Tuttavia, i paradigmi attuali affrontano una tensione tra difficoltà e realismo: i benchmark in stile esame sono spesso resi artificialmente difficili con un valore limitato nel mondo reale, mentre i benchmark basati sull'interazione reale degli utenti tendono a privilegiare problemi semplici e ad alta frequenza. In questo lavoro, esploriamo un paradigma radicalmente diverso: valutare i modelli su domande irrisolte. Piuttosto che un benchmark statico valutato una volta, curiamo domande irrisolte e valutiamo i modelli in modo asincrono nel tempo con screening assistito da validatori e verifica comunitaria. Introduciamo UQ, un banco di prova di 500 domande impegnative e diversificate provenienti da Stack Exchange, che spaziano da teoria dell'informatica e matematica a fantascienza e storia, esplorando capacità come ragionamento, veridicità e navigazione. UQ è difficile e realistico per costruzione: le domande irrisolte sono spesso complesse e sorgono naturalmente quando gli esseri umani cercano risposte, quindi risolverle offre un valore diretto nel mondo reale. I nostri contributi sono tre: (1) UQ-Dataset e la sua pipeline di raccolta che combina filtri basati su regole, giudici LLM e revisione umana per garantire la qualità delle domande (ad esempio, ben definite e difficili); (2) UQ-Validators, strategie di validazione composte che sfruttano il divario generatore-validatore per fornire segnali di valutazione e pre-scremare le soluzioni candidate per la revisione umana; e (3) UQ-Platform, una piattaforma aperta in cui gli esperti verificano collettivamente domande e soluzioni. Il modello migliore supera la validazione UQ solo sul 15% delle domande, e la verifica umana preliminare ha già identificato risposte corrette tra quelle che hanno superato il test. UQ traccia un percorso per valutare i modelli all'avanguardia su sfide aperte e reali, dove il successo spinge i confini della conoscenza umana. Rilasciamo UQ all'indirizzo https://uq.stanford.edu.
English
Benchmarks shape progress in AI research. A useful benchmark should be both difficult and realistic: questions should challenge frontier models while also reflecting real-world usage. Yet, current paradigms face a difficulty-realism tension: exam-style benchmarks are often made artificially difficult with limited real-world value, while benchmarks based on real user interaction often skew toward easy, high-frequency problems. In this work, we explore a radically different paradigm: assessing models on unsolved questions. Rather than a static benchmark scored once, we curate unsolved questions and evaluate models asynchronously over time with validator-assisted screening and community verification. We introduce UQ, a testbed of 500 challenging, diverse questions sourced from Stack Exchange, spanning topics from CS theory and math to sci-fi and history, probing capabilities including reasoning, factuality, and browsing. UQ is difficult and realistic by construction: unsolved questions are often hard and naturally arise when humans seek answers, thus solving them yields direct real-world value. Our contributions are threefold: (1) UQ-Dataset and its collection pipeline combining rule-based filters, LLM judges, and human review to ensure question quality (e.g., well-defined and difficult); (2) UQ-Validators, compound validation strategies that leverage the generator-validator gap to provide evaluation signals and pre-screen candidate solutions for human review; and (3) UQ-Platform, an open platform where experts collectively verify questions and solutions. The top model passes UQ-validation on only 15% of questions, and preliminary human verification has already identified correct answers among those that passed. UQ charts a path for evaluating frontier models on real-world, open-ended challenges, where success pushes the frontier of human knowledge. We release UQ at https://uq.stanford.edu.
PDF154August 26, 2025