ChatPaper.aiChatPaper

Avaliação Gerativa de Raciocínio Complexo em Modelos de Linguagem de Grande Escala

Generative Evaluation of Complex Reasoning in Large Language Models

April 3, 2025
Autores: Haowei Lin, Xiangyu Wang, Ruilin Yan, Baizhou Huang, Haotian Ye, Jianhua Zhu, Zihao Wang, James Zou, Jianzhu Ma, Yitao Liang
cs.AI

Resumo

Com modelos de linguagem de grande escala (LLMs) poderosos demonstrando capacidades de raciocínio sobre-humanas, surge uma questão crítica: os LLMs realmente raciocinam, ou eles simplesmente recuperam respostas de seus extensos conjuntos de dados de treinamento extraídos da web? Benchmarks lançados publicamente inevitavelmente se tornam contaminados uma vez incorporados em conjuntos de treinamento subsequentes de LLMs, comprometendo sua confiabilidade como avaliações fiéis. Para abordar isso, introduzimos o KUMO, uma estrutura de avaliação generativa projetada especificamente para avaliar o raciocínio em LLMs. O KUMO combina sinergicamente LLMs com motores simbólicos para produzir dinamicamente tarefas de raciocínio diversas e de múltiplas etapas que são parcialmente observáveis e ajustáveis em dificuldade. Por meio de um pipeline automatizado, o KUMO gera continuamente tarefas novas em domínios abertos, compelindo os modelos a demonstrar generalização genuína em vez de memorização. Avaliamos 23 LLMs de última geração em 5.000 tarefas em 100 domínios criados pelo KUMO, comparando suas habilidades de raciocínio com as de estudantes universitários. Nossos resultados revelam que muitos LLMs superaram o desempenho de nível universitário em tarefas de raciocínio fáceis, e LLMs escalados para raciocínio atingem desempenho de nível universitário em desafios de raciocínio complexos. Além disso, o desempenho dos LLMs em tarefas do KUMO correlaciona-se fortemente com os resultados em benchmarks de raciocínio do mundo real recém-lançados, destacando o valor do KUMO como uma ferramenta de avaliação robusta e duradoura para capacidades genuínas de raciocínio de LLMs.
English
With powerful large language models (LLMs) demonstrating superhuman reasoning capabilities, a critical question arises: Do LLMs genuinely reason, or do they merely recall answers from their extensive, web-scraped training datasets? Publicly released benchmarks inevitably become contaminated once incorporated into subsequent LLM training sets, undermining their reliability as faithful assessments. To address this, we introduce KUMO, a generative evaluation framework designed specifically for assessing reasoning in LLMs. KUMO synergistically combines LLMs with symbolic engines to dynamically produce diverse, multi-turn reasoning tasks that are partially observable and adjustable in difficulty. Through an automated pipeline, KUMO continuously generates novel tasks across open-ended domains, compelling models to demonstrate genuine generalization rather than memorization. We evaluated 23 state-of-the-art LLMs on 5,000 tasks across 100 domains created by KUMO, benchmarking their reasoning abilities against university students. Our findings reveal that many LLMs have outperformed university-level performance on easy reasoning tasks, and reasoning-scaled LLMs reach university-level performance on complex reasoning challenges. Moreover, LLM performance on KUMO tasks correlates strongly with results on newly released real-world reasoning benchmarks, underscoring KUMO's value as a robust, enduring assessment tool for genuine LLM reasoning capabilities.

Summary

AI-Generated Summary

PDF145April 9, 2025