UQ: Evaluación de Modelos de Lenguaje en Preguntas No Resueltas
UQ: Assessing Language Models on Unsolved Questions
August 25, 2025
Autores: Fan Nie, Ken Ziyu Liu, Zihao Wang, Rui Sun, Wei Liu, Weijia Shi, Huaxiu Yao, Linjun Zhang, Andrew Y. Ng, James Zou, Sanmi Koyejo, Yejin Choi, Percy Liang, Niklas Muennighoff
cs.AI
Resumen
Los puntos de referencia moldean el progreso en la investigación de IA. Un punto de referencia útil debe ser tanto difícil como realista: las preguntas deben desafiar a los modelos de vanguardia mientras también reflejan el uso en el mundo real. Sin embargo, los paradigmas actuales enfrentan una tensión entre dificultad y realismo: los puntos de referencia de estilo examen a menudo se hacen artificialmente difíciles con un valor limitado en el mundo real, mientras que los puntos de referencia basados en la interacción real de los usuarios tienden a inclinarse hacia problemas fáciles y de alta frecuencia. En este trabajo, exploramos un paradigma radicalmente diferente: evaluar modelos en preguntas no resueltas. En lugar de un punto de referencia estático calificado una vez, seleccionamos preguntas no resueltas y evaluamos los modelos de manera asíncrona a lo largo del tiempo con un filtrado asistido por validadores y verificación comunitaria. Presentamos UQ, un banco de pruebas de 500 preguntas desafiantes y diversas obtenidas de Stack Exchange, que abarcan temas desde teoría de la computación y matemáticas hasta ciencia ficción e historia, explorando capacidades como el razonamiento, la factualidad y la navegación. UQ es difícil y realista por diseño: las preguntas no resueltas suelen ser difíciles y surgen naturalmente cuando los humanos buscan respuestas, por lo que resolverlas ofrece un valor directo en el mundo real. Nuestras contribuciones son tres: (1) UQ-Dataset y su pipeline de recopilación que combina filtros basados en reglas, jueces de LLM y revisión humana para garantizar la calidad de las preguntas (por ejemplo, bien definidas y difíciles); (2) UQ-Validators, estrategias de validación compuestas que aprovechan la brecha entre generador y validador para proporcionar señales de evaluación y preseleccionar soluciones candidatas para revisión humana; y (3) UQ-Platform, una plataforma abierta donde los expertos verifican colectivamente preguntas y soluciones. El mejor modelo pasa la validación de UQ en solo el 15% de las preguntas, y la verificación humana preliminar ya ha identificado respuestas correctas entre las que pasaron. UQ traza un camino para evaluar modelos de vanguardia en desafíos abiertos del mundo real, donde el éxito empuja la frontera del conocimiento humano. Publicamos UQ en https://uq.stanford.edu.
English
Benchmarks shape progress in AI research. A useful benchmark should be both
difficult and realistic: questions should challenge frontier models while also
reflecting real-world usage. Yet, current paradigms face a difficulty-realism
tension: exam-style benchmarks are often made artificially difficult with
limited real-world value, while benchmarks based on real user interaction often
skew toward easy, high-frequency problems. In this work, we explore a radically
different paradigm: assessing models on unsolved questions. Rather than a
static benchmark scored once, we curate unsolved questions and evaluate models
asynchronously over time with validator-assisted screening and community
verification. We introduce UQ, a testbed of 500 challenging, diverse questions
sourced from Stack Exchange, spanning topics from CS theory and math to sci-fi
and history, probing capabilities including reasoning, factuality, and
browsing. UQ is difficult and realistic by construction: unsolved questions are
often hard and naturally arise when humans seek answers, thus solving them
yields direct real-world value. Our contributions are threefold: (1) UQ-Dataset
and its collection pipeline combining rule-based filters, LLM judges, and human
review to ensure question quality (e.g., well-defined and difficult); (2)
UQ-Validators, compound validation strategies that leverage the
generator-validator gap to provide evaluation signals and pre-screen candidate
solutions for human review; and (3) UQ-Platform, an open platform where experts
collectively verify questions and solutions. The top model passes UQ-validation
on only 15% of questions, and preliminary human verification has already
identified correct answers among those that passed. UQ charts a path for
evaluating frontier models on real-world, open-ended challenges, where success
pushes the frontier of human knowledge. We release UQ at
https://uq.stanford.edu.