ViExam: I modelli linguistici visivi sono migliori degli esseri umani nelle domande d'esame multimodali vietnamite?
ViExam: Are Vision Language Models Better than Humans on Vietnamese Multimodal Exam Questions?
August 19, 2025
Autori: Vy Tuong Dang, An Vo, Quang Tau, Duc Dm, Daeyoung Kim
cs.AI
Abstract
I modelli linguistici visivi (VLMs) dimostrano capacità notevoli nei compiti multimodali in inglese, ma le loro prestazioni su lingue a bassa risorsa con contenuti educativi autenticamente multimodali rimangono in gran parte inesplorate. In questo lavoro, testiamo come i VLMs si comportano nelle valutazioni educative vietnamite, indagando se i VLMs addestrati prevalentemente su dati in inglese possano gestire il ragionamento multimodale cross-linguale nel mondo reale. Il nostro lavoro presenta la prima valutazione completa delle capacità dei VLMs sugli esami multimodali vietnamiti attraverso la proposta di ViExam, un benchmark contenente 2.548 domande multimodali. Scopriamo che i VLMs all'avanguardia raggiungono solo il 57,74%, mentre i modelli open-source ottengono una precisione media del 27,70% in 7 domini accademici, tra cui Matematica, Fisica, Chimica, Biologia, Geografia, Test di Guida e Test di QI. La maggior parte dei VLMs ha prestazioni inferiori alla media dei partecipanti umani (66,54%), con solo il VLM pensante o3 (74,07%) che supera la media umana, ma rimane comunque significativamente al di sotto della migliore prestazione umana (99,60%). Il prompting cross-linguale con istruzioni in inglese mantenendo il contenuto in vietnamita non migliora le prestazioni, riducendo la precisione di 1 punto percentuale per i VLMs all'avanguardia. La collaborazione human-in-the-loop può migliorare parzialmente le prestazioni dei VLMs di 5 punti percentuali. Codice e dati sono disponibili su: https://vi-exam.github.io.
English
Vision language models (VLMs) demonstrate remarkable capabilities on English
multimodal tasks, but their performance on low-resource languages with
genuinely multimodal educational content remains largely unexplored. In this
work, we test how VLMs perform on Vietnamese educational assessments,
investigating whether VLMs trained predominantly on English data can handle
real-world cross-lingual multimodal reasoning. Our work presents the first
comprehensive evaluation of VLM capabilities on multimodal Vietnamese exams
through proposing ViExam, a benchmark containing 2,548 multimodal questions. We
find that state-of-the-art VLMs achieve only 57.74% while open-source models
achieve 27.70% mean accuracy across 7 academic domains, including Mathematics,
Physics, Chemistry, Biology, Geography, Driving Test, and IQ Test. Most VLMs
underperform average human test-takers (66.54%), with only the thinking VLM o3
(74.07%) exceeding human average performance, yet still falling substantially
short of human best performance (99.60%). Cross-lingual prompting with English
instructions while maintaining Vietnamese content fails to improve performance,
decreasing accuracy by 1 percentage point for SOTA VLMs. Human-in-the-loop
collaboration can partially improve VLM performance by 5 percentage points.
Code and data are available at: https://vi-exam.github.io.