ViExam: 비전 언어 모델이 베트남어 다중모드 시험 문제에서 인간보다 뛰어난가?
ViExam: Are Vision Language Models Better than Humans on Vietnamese Multimodal Exam Questions?
August 19, 2025
저자: Vy Tuong Dang, An Vo, Quang Tau, Duc Dm, Daeyoung Kim
cs.AI
초록
비전 언어 모델(VLMs)은 영어 다중모달 작업에서 뛰어난 성능을 보여주지만, 진정한 다중모달 교육 콘텐츠를 포함한 저자원 언어에 대한 성능은 여전히 크게 탐구되지 않았다. 본 연구에서는 VLMs가 베트남 교육 평가에서 어떻게 수행되는지 테스트하며, 주로 영어 데이터로 훈련된 VLMs가 실제 세계의 교차 언어 다중모달 추론을 처리할 수 있는지 조사한다. 우리의 연구는 2,548개의 다중모달 질문을 포함한 벤치마크인 ViExam을 제안함으로써 베트남 다중모달 시험에 대한 VLMs의 능력을 처음으로 종합적으로 평가한다. 우리는 최첨단 VLMs가 수학, 물리학, 화학, 생물학, 지리, 운전 시험, IQ 테스트를 포함한 7개 학문 영역에서 평균 57.74%의 정확도를 달성하는 반면, 오픈소스 모델은 27.70%의 평균 정확도를 달성한다는 것을 발견했다. 대부분의 VLMs는 평균 인간 응시자(66.54%)보다 낮은 성적을 보이며, 사고 VLM o3(74.07%)만이 인간 평균 성능을 초과했지만, 여전히 인간 최고 성능(99.60%)에 크게 미치지 못한다. 베트남 콘텐츠를 유지하면서 영어 지시로 교차 언어 프롬프팅을 사용하는 것은 성능을 개선하지 못하고, 최첨단 VLMs의 정확도를 1%포인트 감소시킨다. 인간-루프 협업은 VLMs의 성능을 부분적으로 5%포인트 향상시킬 수 있다. 코드와 데이터는 https://vi-exam.github.io에서 확인할 수 있다.
English
Vision language models (VLMs) demonstrate remarkable capabilities on English
multimodal tasks, but their performance on low-resource languages with
genuinely multimodal educational content remains largely unexplored. In this
work, we test how VLMs perform on Vietnamese educational assessments,
investigating whether VLMs trained predominantly on English data can handle
real-world cross-lingual multimodal reasoning. Our work presents the first
comprehensive evaluation of VLM capabilities on multimodal Vietnamese exams
through proposing ViExam, a benchmark containing 2,548 multimodal questions. We
find that state-of-the-art VLMs achieve only 57.74% while open-source models
achieve 27.70% mean accuracy across 7 academic domains, including Mathematics,
Physics, Chemistry, Biology, Geography, Driving Test, and IQ Test. Most VLMs
underperform average human test-takers (66.54%), with only the thinking VLM o3
(74.07%) exceeding human average performance, yet still falling substantially
short of human best performance (99.60%). Cross-lingual prompting with English
instructions while maintaining Vietnamese content fails to improve performance,
decreasing accuracy by 1 percentage point for SOTA VLMs. Human-in-the-loop
collaboration can partially improve VLM performance by 5 percentage points.
Code and data are available at: https://vi-exam.github.io.