Avaliação Gerativa de Raciocínio Complexo em Modelos de Linguagem de Grande Escala
Generative Evaluation of Complex Reasoning in Large Language Models
April 3, 2025
Autores: Haowei Lin, Xiangyu Wang, Ruilin Yan, Baizhou Huang, Haotian Ye, Jianhua Zhu, Zihao Wang, James Zou, Jianzhu Ma, Yitao Liang
cs.AI
Resumo
Com modelos de linguagem de grande escala (LLMs) poderosos demonstrando capacidades de raciocínio sobre-humanas, surge uma questão crítica: os LLMs realmente raciocinam, ou eles simplesmente recuperam respostas de seus extensos conjuntos de dados de treinamento extraídos da web? Benchmarks lançados publicamente inevitavelmente se tornam contaminados uma vez incorporados em conjuntos de treinamento subsequentes de LLMs, comprometendo sua confiabilidade como avaliações fiéis. Para abordar isso, introduzimos o KUMO, uma estrutura de avaliação generativa projetada especificamente para avaliar o raciocínio em LLMs. O KUMO combina sinergicamente LLMs com motores simbólicos para produzir dinamicamente tarefas de raciocínio diversas e de múltiplas etapas que são parcialmente observáveis e ajustáveis em dificuldade. Por meio de um pipeline automatizado, o KUMO gera continuamente tarefas novas em domínios abertos, compelindo os modelos a demonstrar generalização genuína em vez de memorização. Avaliamos 23 LLMs de última geração em 5.000 tarefas em 100 domínios criados pelo KUMO, comparando suas habilidades de raciocínio com as de estudantes universitários. Nossos resultados revelam que muitos LLMs superaram o desempenho de nível universitário em tarefas de raciocínio fáceis, e LLMs escalados para raciocínio atingem desempenho de nível universitário em desafios de raciocínio complexos. Além disso, o desempenho dos LLMs em tarefas do KUMO correlaciona-se fortemente com os resultados em benchmarks de raciocínio do mundo real recém-lançados, destacando o valor do KUMO como uma ferramenta de avaliação robusta e duradoura para capacidades genuínas de raciocínio de LLMs.
English
With powerful large language models (LLMs) demonstrating superhuman reasoning
capabilities, a critical question arises: Do LLMs genuinely reason, or do they
merely recall answers from their extensive, web-scraped training datasets?
Publicly released benchmarks inevitably become contaminated once incorporated
into subsequent LLM training sets, undermining their reliability as faithful
assessments. To address this, we introduce KUMO, a generative evaluation
framework designed specifically for assessing reasoning in LLMs. KUMO
synergistically combines LLMs with symbolic engines to dynamically produce
diverse, multi-turn reasoning tasks that are partially observable and
adjustable in difficulty. Through an automated pipeline, KUMO continuously
generates novel tasks across open-ended domains, compelling models to
demonstrate genuine generalization rather than memorization. We evaluated 23
state-of-the-art LLMs on 5,000 tasks across 100 domains created by KUMO,
benchmarking their reasoning abilities against university students. Our
findings reveal that many LLMs have outperformed university-level performance
on easy reasoning tasks, and reasoning-scaled LLMs reach university-level
performance on complex reasoning challenges. Moreover, LLM performance on KUMO
tasks correlates strongly with results on newly released real-world reasoning
benchmarks, underscoring KUMO's value as a robust, enduring assessment tool for
genuine LLM reasoning capabilities.Summary
AI-Generated Summary