FlagEval-Bericht: Eine vorläufige Bewertung großer Reasoning-Modelle bei automatisch verifizierbaren textuellen und visuellen Fragen

Zusammenfassung

Wir führen eine mittelgroße, weitgehend kontaminationsfreie Bewertung aktueller großer Reasoning-Modelle (LRMs) durch und präsentieren einige vorläufige Ergebnisse. Zudem veröffentlichen wir ROME, unseren Evaluierungsbenchmark für Vision-Language-Modelle, der darauf abzielt, das Reasoning anhand visueller Hinweise zu testen. Wir stellen Links zum Benchmark, den Evaluierungsdaten und weiteren Updates auf dieser Website bereit: https://flageval-baai.github.io/LRM-Eval/

English

We conduct a moderate-scale contamination-free (to some extent) evaluation of current large reasoning models (LRMs) with some preliminary findings. We also release ROME, our evaluation benchmark for vision language models intended to test reasoning from visual clues. We attach links to the benchmark, evaluation data, and other updates on this website: https://flageval-baai.github.io/LRM-Eval/