Rapport des conclusions de FlagEval : Une évaluation préliminaire des grands modèles de raisonnement sur des questions textuelles et visuelles vérifiables automatiquement

papers.abstract

Nous menons une évaluation à échelle modérée et relativement exempte de contamination des modèles de raisonnement à grande échelle (LRM) actuels, avec quelques résultats préliminaires. Nous publions également ROME, notre benchmark d'évaluation pour les modèles de langage visuel, conçu pour tester le raisonnement à partir d'indices visuels. Nous fournissons des liens vers le benchmark, les données d'évaluation et d'autres mises à jour sur ce site web : https://flageval-baai.github.io/LRM-Eval/

English

We conduct a moderate-scale contamination-free (to some extent) evaluation of current large reasoning models (LRMs) with some preliminary findings. We also release ROME, our evaluation benchmark for vision language models intended to test reasoning from visual clues. We attach links to the benchmark, evaluation data, and other updates on this website: https://flageval-baai.github.io/LRM-Eval/

Rapport des conclusions de FlagEval : Une évaluation préliminaire des grands modèles de raisonnement sur des questions textuelles et visuelles vérifiables automatiquement

FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions

papers.abstract

Support