SO-Bench: マルチモーダルLLMの構造化出力評価
SO-Bench: A Structural Output Evaluation of Multimodal LLMs
November 23, 2025
著者: Di Feng, Kaixin Ma, Feng Nan, Haofeng Chen, Bohan Zhai, David Griffiths, Mingfei Gao, Zhe Gan, Eshan Verma, Yinfei Yang, Zhifeng Chen, Afshin Dehghan
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)は、出力が正確であるだけでなく、事前定義されたデータスキーマに準拠する必要があるエージェント的設定の実世界で、ますます展開されている。テキスト領域における構造化生成の最近の進展にもかかわらず、視覚的入力に対するスキーマに基づく情報抽出と推論を体系的に評価するベンチマークはまだ存在しない。本研究では、慎重に設計されたSO-Benchベンチマークを用いて、MLLMの視覚的構造化出力能力に関する包括的な調査を実施する。UI画面、自然画像、文書、図表の4つの視覚領域をカバーするSO-Benchは、6,500以上の多様なJSONスキーマと、人間による検証を経た1,800の厳選された画像とスキーマのペアから構築されている。オープンソースおよび最先端のプロプライエタリモデルに対するベンチマーク実験では、正確でスキーマに準拠した出力を予測する際に持続的なギャップが明らかになり、より優れたマルチモーダル構造化推論の必要性が浮き彫りになった。ベンチマーク評価を超えて、モデルの構造化出力能力を大幅に改善するための訓練実験もさらに実施した。当ベンチマークはコミュニティに公開する予定である。
English
Multimodal large language models (MLLMs) are increasingly deployed in real-world, agentic settings where outputs must not only be correct, but also conform to predefined data schemas. Despite recent progress in structured generation in textual domain, there is still no benchmark that systematically evaluates schema-grounded information extraction and reasoning over visual inputs. In this work, we conduct a comprehensive study of visual structural output capabilities for MLLMs with our carefully designed SO-Bench benchmark. Covering four visual domains, including UI screens, natural images, documents, and charts, SO-Bench is built from over 6.5K diverse JSON schemas and 1.8K curated image-schema pairs with human-verified quality. Benchmarking experiments on open-sourced and frontier proprietary models reveal persistent gaps in predicting accurate, schema compliant outputs, highlighting the need for better multimodal structured reasoning. Beyond benchmarking, we further conduct training experiments to largely improve the model's structured output capability. We plan to make the benchmark available to the community.