Examen Final en Classe : Un Référentiel de Raisonnement Validé par des Enseignants

Résumé

Nous présentons (Examen Final en Classe), un benchmark multimodal pour évaluer les capacités de raisonnement des grands modèles de langage à travers plus de 20 domaines des STEM. est constitué à partir de problèmes authentiques et récurrents de devoirs universitaires et d'examens, accompagnés de solutions de référence fournies par les enseignants. représente un défi significatif, même pour les modèles les plus avancés : le nouveau Gemini-3.1-pro-preview atteint une précision globale de 59,69 %, tandis que le deuxième meilleur modèle, Gemini-3-flash-preview, atteint 55,46 %, laissant une marge d'amélioration considérable. Au-delà des résultats du classement, nous effectuons une analyse diagnostique en décomposant les solutions de référence en flux de raisonnement. Nous constatons que si les modèles de pointe peuvent souvent répondre correctement à des sous-questions intermédiaires, ils éprouvent des difficultés à dériver et à maintenir de manière fiable des états intermédiaires corrects tout au long des solutions à multiples étapes. Nous observons en outre que les solutions générées par les modèles comportent généralement plus d'étapes de raisonnement que celles fournies par l'enseignant, ce qui indique une efficacité d'étape sous-optimale et un risque accru d'accumulation d'erreurs. Les données et le code sont disponibles à l'adresse https://github.com/Analogy-AI/CFE_Bench.

English

We introduce (Classroom Final Exam), a multimodal benchmark for evaluating the reasoning capabilities of large language models across more than 20 STEM domains. is curated from repeatedly used, authentic university homework and exam problems, together with reference solutions provided by course instructors. presents a significant challenge even for frontier models: the newly released Gemini-3.1-pro-preview achieves an overall accuracy of 59.69\%, while the second-best model, Gemini-3-flash-preview, reaches 55.46\%, leaving considerable room for improvement. Beyond leaderboard results, we perform a diagnostic analysis by decomposing reference solutions into reasoning flows. We find that although frontier models can often answer intermediate sub-questions correctly, they struggle to reliably derive and maintain correct intermediate states throughout multi-step solutions. We further observe that model-generated solutions typically have more reasoning steps than those provided by the instructor, indicating suboptimal step efficiency and a higher risk of error accumulation. The data and code are available at https://github.com/Analogy-AI/CFE_Bench.

Examen Final en Classe : Un Référentiel de Raisonnement Validé par des Enseignants

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Résumé

Support