FlagEval Bevindingenrapport: Een Voorlopige Evaluatie van Grote Redeneermodellen op Automatisch Verifieerbare Tekstuele en Visuele Vragen

Samenvatting

We voeren een middelgrote, tot op zekere hoogte vervuiling-vrije evaluatie uit van huidige grote redeneermodellen (LRMs) met enkele voorlopige bevindingen. We brengen ook ROME uit, onze evaluatiebenchmark voor visuele taalmodellen die bedoeld is om redeneren vanuit visuele aanwijzingen te testen. We voegen links toe naar de benchmark, evaluatiedata en andere updates op deze website: https://flageval-baai.github.io/LRM-Eval/

English

We conduct a moderate-scale contamination-free (to some extent) evaluation of current large reasoning models (LRMs) with some preliminary findings. We also release ROME, our evaluation benchmark for vision language models intended to test reasoning from visual clues. We attach links to the benchmark, evaluation data, and other updates on this website: https://flageval-baai.github.io/LRM-Eval/

FlagEval Bevindingenrapport: Een Voorlopige Evaluatie van Grote Redeneermodellen op Automatisch Verifieerbare Tekstuele en Visuele Vragen

FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions

Samenvatting

Support