Sind Ihre LLMs in der Lage zu stabilem Schlussfolgern?Are Your LLMs Capable of Stable Reasoning?
Der rasante Fortschritt von Large Language Models (LLMs) hat bemerkenswerte Fortschritte bei komplexen Schlussfolgerungsaufgaben gezeigt. Dennoch besteht weiterhin eine signifikante Diskrepanz zwischen den Leistungen in Benchmarks und realen Anwendungen. Wir identifizieren diese Kluft hauptsächlich als Ergebnis der aktuellen Evaluationsprotokolle und Metriken, die das gesamte Spektrum der LLM-Fähigkeiten unzureichend erfassen, insbesondere bei komplexen Schlussfolgerungsaufgaben, bei denen Genauigkeit und Konsistenz gleichermaßen entscheidend sind. Diese Arbeit leistet zwei wesentliche Beiträge. Erstens führen wir G-Pass@k ein, eine neuartige Evaluierungsmetrik, die eine kontinuierliche Bewertung der Modellleistung über mehrere Stichprobenversuche hinweg bietet und sowohl das Spitzenleistungspotenzial des Modells als auch seine Stabilität quantifiziert. Zweitens präsentieren wir LiveMathBench, einen dynamischen Benchmark, der anspruchsvolle, zeitgenössische mathematische Probleme umfasst, die darauf abzielen, das Risiko von Datenlecks während der Evaluation zu minimieren. Durch umfangreiche Experimente mit G-Pass@k an hochmodernen LLMs mit LiveMathBench liefern wir umfassende Einblicke sowohl in ihre maximalen Fähigkeiten als auch in ihre Betriebskonsistenz. Unsere Ergebnisse zeigen erheblichen Verbesserungsbedarf bei den "realistischen" Schlussfolgerungsfähigkeiten von LLMs auf und unterstreichen die Notwendigkeit robusterer Evaluierungsmethoden. Der Benchmark und detaillierte Ergebnisse sind verfügbar unter: https://github.com/open-compass/GPassK.