SuperGPQA: Schaalvergroting van LLM-evaluatie over 285 afstudeerdisciplines

Samenvatting

Grote taalmmodellen (LLMs) hebben opmerkelijke vaardigheden getoond in hoofdstromen academische disciplines zoals wiskunde, natuurkunde en informatica. Echter omvat menselijke kennis meer dan 200 gespecialiseerde disciplines, wat ver buiten het bereik van bestaande benchmarks valt. De capaciteiten van LLMs in veel van deze gespecialiseerde velden - met name in de lichte industrie, landbouw en dienstverlenende disciplines - blijven onvoldoende geëvalueerd. Om dit gat te dichten, presenteren wij SuperGPQA, een uitgebreide benchmark die afstudeerniveau kennis en redeneervaardigheden evalueert over 285 disciplines. Onze benchmark maakt gebruik van een nieuw Human-LLM collaboratief filtermechanisme om triviale of dubbelzinnige vragen te elimineren door iteratieve verfijning gebaseerd op zowel LLM reacties als expert feedback. Onze experimentele resultaten tonen aanzienlijke ruimte voor verbetering in de prestaties van huidige state-of-the-art LLMs over diverse kennisdomeinen (bijv., het op redeneren gerichte model DeepSeek-R1 behaalde de hoogste nauwkeurigheid van 61.82% op SuperGPQA), wat het aanzienlijke gat tussen huidige modelcapaciteiten en kunstmatige algemene intelligentie benadrukt. Daarnaast presenteren wij uitgebreide inzichten uit ons beheer van een grootschalig annotatieproces, waarbij meer dan 80 expert annotators en een interactief Human-LLM collaboratief systeem betrokken waren, wat waardevolle methodologische richtlijnen biedt voor toekomstige onderzoeksinitiatieven van vergelijkbare omvang.

English

Large language models (LLMs) have demonstrated remarkable proficiency in mainstream academic disciplines such as mathematics, physics, and computer science. However, human knowledge encompasses over 200 specialized disciplines, far exceeding the scope of existing benchmarks. The capabilities of LLMs in many of these specialized fields-particularly in light industry, agriculture, and service-oriented disciplines-remain inadequately evaluated. To address this gap, we present SuperGPQA, a comprehensive benchmark that evaluates graduate-level knowledge and reasoning capabilities across 285 disciplines. Our benchmark employs a novel Human-LLM collaborative filtering mechanism to eliminate trivial or ambiguous questions through iterative refinement based on both LLM responses and expert feedback. Our experimental results reveal significant room for improvement in the performance of current state-of-the-art LLMs across diverse knowledge domains (e.g., the reasoning-focused model DeepSeek-R1 achieved the highest accuracy of 61.82% on SuperGPQA), highlighting the considerable gap between current model capabilities and artificial general intelligence. Additionally, we present comprehensive insights from our management of a large-scale annotation process, involving over 80 expert annotators and an interactive Human-LLM collaborative system, offering valuable methodological guidance for future research initiatives of comparable scope.

SuperGPQA: Schaalvergroting van LLM-evaluatie over 285 afstudeerdisciplines

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

Samenvatting

Support