ChatPaper.aiChatPaper

ViExam : Les modèles de vision et de langage surpassent-ils les humains sur les questions d'examen multimodales vietnamiennes ?

ViExam: Are Vision Language Models Better than Humans on Vietnamese Multimodal Exam Questions?

August 19, 2025
papers.authors: Vy Tuong Dang, An Vo, Quang Tau, Duc Dm, Daeyoung Kim
cs.AI

papers.abstract

Les modèles de langage visuel (VLMs) démontrent des capacités remarquables sur les tâches multimodales en anglais, mais leurs performances sur les langues à faibles ressources avec un contenu éducatif véritablement multimodal restent largement inexplorées. Dans ce travail, nous testons comment les VLMs se comportent sur des évaluations éducatives vietnamiennes, en examinant si les VLMs principalement entraînés sur des données en anglais peuvent gérer un raisonnement multimodal multilingue dans des contextes réels. Notre étude présente la première évaluation complète des capacités des VLMs sur des examens multimodaux vietnamiens en proposant ViExam, un benchmark contenant 2 548 questions multimodales. Nous constatons que les VLMs de pointe atteignent seulement 57,74 % de précision moyenne, tandis que les modèles open-source atteignent 27,70 % sur 7 domaines académiques, incluant les Mathématiques, la Physique, la Chimie, la Biologie, la Géographie, le Test de Conduite et le Test de QI. La plupart des VLMs sous-performent par rapport aux candidats humains moyens (66,54 %), avec seulement le VLM pensant o3 (74,07 %) dépassant la performance humaine moyenne, tout en restant nettement en deçà de la meilleure performance humaine (99,60 %). L'incitation multilingue avec des instructions en anglais tout en conservant le contenu en vietnamien n'améliore pas les performances, réduisant même la précision de 1 point de pourcentage pour les VLMs de pointe. La collaboration humaine en boucle peut partiellement améliorer les performances des VLMs de 5 points de pourcentage. Le code et les données sont disponibles à l'adresse : https://vi-exam.github.io.
English
Vision language models (VLMs) demonstrate remarkable capabilities on English multimodal tasks, but their performance on low-resource languages with genuinely multimodal educational content remains largely unexplored. In this work, we test how VLMs perform on Vietnamese educational assessments, investigating whether VLMs trained predominantly on English data can handle real-world cross-lingual multimodal reasoning. Our work presents the first comprehensive evaluation of VLM capabilities on multimodal Vietnamese exams through proposing ViExam, a benchmark containing 2,548 multimodal questions. We find that state-of-the-art VLMs achieve only 57.74% while open-source models achieve 27.70% mean accuracy across 7 academic domains, including Mathematics, Physics, Chemistry, Biology, Geography, Driving Test, and IQ Test. Most VLMs underperform average human test-takers (66.54%), with only the thinking VLM o3 (74.07%) exceeding human average performance, yet still falling substantially short of human best performance (99.60%). Cross-lingual prompting with English instructions while maintaining Vietnamese content fails to improve performance, decreasing accuracy by 1 percentage point for SOTA VLMs. Human-in-the-loop collaboration can partially improve VLM performance by 5 percentage points. Code and data are available at: https://vi-exam.github.io.
PDF53August 21, 2025