ChatPaper.aiChatPaper

Generatieve Evaluatie van Complex Redeneren in Grote Taalmodellen

Generative Evaluation of Complex Reasoning in Large Language Models

April 3, 2025
Auteurs: Haowei Lin, Xiangyu Wang, Ruilin Yan, Baizhou Huang, Haotian Ye, Jianhua Zhu, Zihao Wang, James Zou, Jianzhu Ma, Yitao Liang
cs.AI

Samenvatting

Met krachtige grote taalmodellen (LLM's) die bovenmenselijke redeneervaardigheden demonstreren, rijst een kritische vraag: Redeneren LLM's daadwerkelijk, of halen ze simpelweg antwoorden uit hun uitgebreide, van het web geschraapte trainingsdatasets? Openbaar vrijgegeven benchmarks worden onvermijdelijk besmet zodra ze worden opgenomen in latere LLM-trainingssets, wat hun betrouwbaarheid als nauwkeurige beoordelingen ondermijnt. Om dit aan te pakken, introduceren we KUMO, een generatief evaluatieraamwerk dat specifiek is ontworpen om redeneren in LLM's te beoordelen. KUMO combineert synergetisch LLM's met symbolische engines om dynamisch diverse, meerfasige redeneertaken te produceren die gedeeltelijk observeerbaar en aanpasbaar in moeilijkheidsgraad zijn. Via een geautomatiseerde pijplijn genereert KUMO continu nieuwe taken in open-einde domeinen, waardoor modellen worden gedwongen echte generalisatie te tonen in plaats van memorisatie. We hebben 23 state-of-the-art LLM's geëvalueerd op 5.000 taken in 100 domeinen die door KUMO zijn gemaakt, waarbij hun redeneervaardigheden werden afgezet tegen die van universiteitsstudenten. Onze bevindingen tonen aan dat veel LLM's beter presteren dan universitair niveau op eenvoudige redeneertaken, en dat redeneergeschaalde LLM's universitair niveau bereiken op complexe redeneeruitdagingen. Bovendien correleert de prestaties van LLM's op KUMO-taken sterk met resultaten op nieuw vrijgegeven real-world redeneerbenchmarks, wat de waarde van KUMO als een robuust, duurzaam beoordelingsinstrument voor echte LLM-redeneervaardigheden onderstreept.
English
With powerful large language models (LLMs) demonstrating superhuman reasoning capabilities, a critical question arises: Do LLMs genuinely reason, or do they merely recall answers from their extensive, web-scraped training datasets? Publicly released benchmarks inevitably become contaminated once incorporated into subsequent LLM training sets, undermining their reliability as faithful assessments. To address this, we introduce KUMO, a generative evaluation framework designed specifically for assessing reasoning in LLMs. KUMO synergistically combines LLMs with symbolic engines to dynamically produce diverse, multi-turn reasoning tasks that are partially observable and adjustable in difficulty. Through an automated pipeline, KUMO continuously generates novel tasks across open-ended domains, compelling models to demonstrate genuine generalization rather than memorization. We evaluated 23 state-of-the-art LLMs on 5,000 tasks across 100 domains created by KUMO, benchmarking their reasoning abilities against university students. Our findings reveal that many LLMs have outperformed university-level performance on easy reasoning tasks, and reasoning-scaled LLMs reach university-level performance on complex reasoning challenges. Moreover, LLM performance on KUMO tasks correlates strongly with results on newly released real-world reasoning benchmarks, underscoring KUMO's value as a robust, enduring assessment tool for genuine LLM reasoning capabilities.

Summary

AI-Generated Summary

PDF145April 9, 2025