ChatPaper.aiChatPaper

UQ: Avaliando Modelos de Linguagem em Perguntas Não Resolvidas

UQ: Assessing Language Models on Unsolved Questions

August 25, 2025
Autores: Fan Nie, Ken Ziyu Liu, Zihao Wang, Rui Sun, Wei Liu, Weijia Shi, Huaxiu Yao, Linjun Zhang, Andrew Y. Ng, James Zou, Sanmi Koyejo, Yejin Choi, Percy Liang, Niklas Muennighoff
cs.AI

Resumo

Os benchmarks moldam o progresso na pesquisa de IA. Um benchmark útil deve ser tanto difícil quanto realista: as perguntas devem desafiar os modelos de ponta enquanto também refletem o uso no mundo real. No entanto, os paradigmas atuais enfrentam uma tensão entre dificuldade e realismo: benchmarks no estilo de exames são frequentemente tornados artificialmente difíceis com valor limitado no mundo real, enquanto benchmarks baseados em interações reais do usuário tendem a se inclinar para problemas fáceis e de alta frequência. Neste trabalho, exploramos um paradigma radicalmente diferente: avaliar modelos em perguntas não resolvidas. Em vez de um benchmark estático pontuado uma vez, curamos perguntas não resolvidas e avaliamos modelos de forma assíncrona ao longo do tempo com triagem assistida por validadores e verificação comunitária. Introduzimos o UQ, um conjunto de testes com 500 perguntas desafiadoras e diversas obtidas do Stack Exchange, abrangendo tópicos desde teoria da computação e matemática até ficção científica e história, explorando capacidades como raciocínio, factualidade e navegação. O UQ é difícil e realista por construção: perguntas não resolvidas são frequentemente difíceis e surgem naturalmente quando os humanos buscam respostas, portanto, resolvê-las gera valor direto no mundo real. Nossas contribuições são três: (1) UQ-Dataset e seu pipeline de coleta combinando filtros baseados em regras, juízes de LLM e revisão humana para garantir a qualidade das perguntas (por exemplo, bem definidas e difíceis); (2) UQ-Validators, estratégias de validação compostas que aproveitam a lacuna entre gerador e validador para fornecer sinais de avaliação e pré-selecionar soluções candidatas para revisão humana; e (3) UQ-Platform, uma plataforma aberta onde especialistas verificam coletivamente perguntas e soluções. O modelo de ponta passa na validação do UQ em apenas 15% das perguntas, e a verificação humana preliminar já identificou respostas corretas entre aquelas que passaram. O UQ traça um caminho para avaliar modelos de ponta em desafios abertos do mundo real, onde o sucesso empurra a fronteira do conhecimento humano. Lançamos o UQ em https://uq.stanford.edu.
English
Benchmarks shape progress in AI research. A useful benchmark should be both difficult and realistic: questions should challenge frontier models while also reflecting real-world usage. Yet, current paradigms face a difficulty-realism tension: exam-style benchmarks are often made artificially difficult with limited real-world value, while benchmarks based on real user interaction often skew toward easy, high-frequency problems. In this work, we explore a radically different paradigm: assessing models on unsolved questions. Rather than a static benchmark scored once, we curate unsolved questions and evaluate models asynchronously over time with validator-assisted screening and community verification. We introduce UQ, a testbed of 500 challenging, diverse questions sourced from Stack Exchange, spanning topics from CS theory and math to sci-fi and history, probing capabilities including reasoning, factuality, and browsing. UQ is difficult and realistic by construction: unsolved questions are often hard and naturally arise when humans seek answers, thus solving them yields direct real-world value. Our contributions are threefold: (1) UQ-Dataset and its collection pipeline combining rule-based filters, LLM judges, and human review to ensure question quality (e.g., well-defined and difficult); (2) UQ-Validators, compound validation strategies that leverage the generator-validator gap to provide evaluation signals and pre-screen candidate solutions for human review; and (3) UQ-Platform, an open platform where experts collectively verify questions and solutions. The top model passes UQ-validation on only 15% of questions, and preliminary human verification has already identified correct answers among those that passed. UQ charts a path for evaluating frontier models on real-world, open-ended challenges, where success pushes the frontier of human knowledge. We release UQ at https://uq.stanford.edu.
PDF154August 26, 2025