Informe de Hallazgos de FlagEval: Una Evaluación Preliminar de Modelos de Razonamiento a Gran Escala en Preguntas Textuales y Visuales Automáticamente Verificables

Resumen

Realizamos una evaluación a escala moderada y, en cierta medida, libre de contaminación de los modelos actuales de razonamiento a gran escala (LRMs, por sus siglas en inglés), con algunos hallazgos preliminares. También presentamos ROME, nuestro punto de referencia de evaluación para modelos de lenguaje visual diseñado para probar el razonamiento a partir de pistas visuales. Adjuntamos enlaces al punto de referencia, los datos de evaluación y otras actualizaciones en este sitio web: https://flageval-baai.github.io/LRM-Eval/.

English

We conduct a moderate-scale contamination-free (to some extent) evaluation of current large reasoning models (LRMs) with some preliminary findings. We also release ROME, our evaluation benchmark for vision language models intended to test reasoning from visual clues. We attach links to the benchmark, evaluation data, and other updates on this website: https://flageval-baai.github.io/LRM-Eval/

Informe de Hallazgos de FlagEval: Una Evaluación Preliminar de Modelos de Razonamiento a Gran Escala en Preguntas Textuales y Visuales Automáticamente Verificables

FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions

Resumen

Support