Generatieve Evaluatie van Complex Redeneren in Grote Taalmodellen
Generative Evaluation of Complex Reasoning in Large Language Models
April 3, 2025
Auteurs: Haowei Lin, Xiangyu Wang, Ruilin Yan, Baizhou Huang, Haotian Ye, Jianhua Zhu, Zihao Wang, James Zou, Jianzhu Ma, Yitao Liang
cs.AI
Samenvatting
Met krachtige grote taalmodellen (LLM's) die bovenmenselijke redeneervaardigheden demonstreren, rijst een kritische vraag: Redeneren LLM's daadwerkelijk, of halen ze simpelweg antwoorden uit hun uitgebreide, van het web geschraapte trainingsdatasets? Openbaar vrijgegeven benchmarks worden onvermijdelijk besmet zodra ze worden opgenomen in latere LLM-trainingssets, wat hun betrouwbaarheid als nauwkeurige beoordelingen ondermijnt. Om dit aan te pakken, introduceren we KUMO, een generatief evaluatieraamwerk dat specifiek is ontworpen om redeneren in LLM's te beoordelen. KUMO combineert synergetisch LLM's met symbolische engines om dynamisch diverse, meerfasige redeneertaken te produceren die gedeeltelijk observeerbaar en aanpasbaar in moeilijkheidsgraad zijn. Via een geautomatiseerde pijplijn genereert KUMO continu nieuwe taken in open-einde domeinen, waardoor modellen worden gedwongen echte generalisatie te tonen in plaats van memorisatie. We hebben 23 state-of-the-art LLM's geëvalueerd op 5.000 taken in 100 domeinen die door KUMO zijn gemaakt, waarbij hun redeneervaardigheden werden afgezet tegen die van universiteitsstudenten. Onze bevindingen tonen aan dat veel LLM's beter presteren dan universitair niveau op eenvoudige redeneertaken, en dat redeneergeschaalde LLM's universitair niveau bereiken op complexe redeneeruitdagingen. Bovendien correleert de prestaties van LLM's op KUMO-taken sterk met resultaten op nieuw vrijgegeven real-world redeneerbenchmarks, wat de waarde van KUMO als een robuust, duurzaam beoordelingsinstrument voor echte LLM-redeneervaardigheden onderstreept.
English
With powerful large language models (LLMs) demonstrating superhuman reasoning
capabilities, a critical question arises: Do LLMs genuinely reason, or do they
merely recall answers from their extensive, web-scraped training datasets?
Publicly released benchmarks inevitably become contaminated once incorporated
into subsequent LLM training sets, undermining their reliability as faithful
assessments. To address this, we introduce KUMO, a generative evaluation
framework designed specifically for assessing reasoning in LLMs. KUMO
synergistically combines LLMs with symbolic engines to dynamically produce
diverse, multi-turn reasoning tasks that are partially observable and
adjustable in difficulty. Through an automated pipeline, KUMO continuously
generates novel tasks across open-ended domains, compelling models to
demonstrate genuine generalization rather than memorization. We evaluated 23
state-of-the-art LLMs on 5,000 tasks across 100 domains created by KUMO,
benchmarking their reasoning abilities against university students. Our
findings reveal that many LLMs have outperformed university-level performance
on easy reasoning tasks, and reasoning-scaled LLMs reach university-level
performance on complex reasoning challenges. Moreover, LLM performance on KUMO
tasks correlates strongly with results on newly released real-world reasoning
benchmarks, underscoring KUMO's value as a robust, enduring assessment tool for
genuine LLM reasoning capabilities.Summary
AI-Generated Summary