SO-Bench: 멀티모달 LLM의 구조적 출력 평가
SO-Bench: A Structural Output Evaluation of Multimodal LLMs
November 23, 2025
저자: Di Feng, Kaixin Ma, Feng Nan, Haofeng Chen, Bohan Zhai, David Griffiths, Mingfei Gao, Zhe Gan, Eshan Verma, Yinfei Yang, Zhifeng Chen, Afshin Dehghan
cs.AI
초록
멀티모달 대규모 언어 모델(MLLM)은 출력이 정확할 뿐만 아니라 미리 정의된 데이터 스키마를 준수해야 하는 실제 에이전트 환경에 점점 더 많이 배포되고 있습니다. 텍스트 영역에서 구조화된 생성에 관한 최근의 진전에도 불구하고, 시각적 입력에 대한 스키마 기반 정보 추출 및 추론을 체계적으로 평가하는 벤치마크는 아직 부재합니다. 본 연구에서는 신중하게 설계된 SO-Bench 벤치마크를 통해 MLLM의 시각적 구조적 출력 능력에 대한 포괄적인 연구를 수행합니다. UI 화면, 자연 이미지, 문서, 차트 등 4개의 시각적 영역을 아우르는 SO-Bench는 6,500개 이상의 다양한 JSON 스키마와 인간이 검증한 품질의 1,800개의 선별된 이미지-스키마 쌍으로 구성됩니다. 오픈 소스 및 최첨단 상용 모델에 대한 벤치마킹 실험은 정확하고 스키마를 준수하는 출력 예측에서 지속적인 격차를 보여주며, 더 나은 멀티모달 구조적 추론의 필요성을 강조합니다. 벤치마킹을 넘어서, 우리는 모델의 구조적 출력 능력을 크게 향상시키기 위한 추가 교육 실험을 수행합니다. 본 벤치마크를 커뮤니티에 공개할 계획입니다.
English
Multimodal large language models (MLLMs) are increasingly deployed in real-world, agentic settings where outputs must not only be correct, but also conform to predefined data schemas. Despite recent progress in structured generation in textual domain, there is still no benchmark that systematically evaluates schema-grounded information extraction and reasoning over visual inputs. In this work, we conduct a comprehensive study of visual structural output capabilities for MLLMs with our carefully designed SO-Bench benchmark. Covering four visual domains, including UI screens, natural images, documents, and charts, SO-Bench is built from over 6.5K diverse JSON schemas and 1.8K curated image-schema pairs with human-verified quality. Benchmarking experiments on open-sourced and frontier proprietary models reveal persistent gaps in predicting accurate, schema compliant outputs, highlighting the need for better multimodal structured reasoning. Beyond benchmarking, we further conduct training experiments to largely improve the model's structured output capability. We plan to make the benchmark available to the community.