Rapporto sui Risultati di FlagEval: Una Valutazione Preliminare dei Modelli di Ragionamento su Grande Scala su Domande Testuali e Visive Verificabili Automaticamente

Abstract

Conduciamo una valutazione su scala moderata, in una certa misura priva di contaminazioni, dei modelli di ragionamento su larga scala (LRM) attuali, con alcuni risultati preliminari. Rilasciamo inoltre ROME, il nostro benchmark di valutazione per modelli linguistici visivi progettato per testare il ragionamento a partire da indizi visivi. Sul sito web https://flageval-baai.github.io/LRM-Eval/ sono disponibili i link al benchmark, ai dati di valutazione e ad altri aggiornamenti.

English

We conduct a moderate-scale contamination-free (to some extent) evaluation of current large reasoning models (LRMs) with some preliminary findings. We also release ROME, our evaluation benchmark for vision language models intended to test reasoning from visual clues. We attach links to the benchmark, evaluation data, and other updates on this website: https://flageval-baai.github.io/LRM-Eval/

Rapporto sui Risultati di FlagEval: Una Valutazione Preliminare dei Modelli di Ragionamento su Grande Scala su Domande Testuali e Visive Verificabili Automaticamente

FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions

Abstract

Support