SO-Bench: Eine strukturelle Ausgabebewertung multimodaler LLMs
SO-Bench: A Structural Output Evaluation of Multimodal LLMs
November 23, 2025
papers.authors: Di Feng, Kaixin Ma, Feng Nan, Haofeng Chen, Bohan Zhai, David Griffiths, Mingfei Gao, Zhe Gan, Eshan Verma, Yinfei Yang, Zhifeng Chen, Afshin Dehghan
cs.AI
papers.abstract
Multimodale große Sprachmodelle (MLLMs) werden zunehmend in realen, agentenartigen Umgebungen eingesetzt, in denen Ausgaben nicht nur korrekt, sondern auch konform mit vordefinierten Datenschemata sein müssen. Trotz jüngster Fortschritte bei der strukturierten Generierung im textuellen Bereich existiert noch kein Benchmark, der schema-gesteuerte Informationsextraktion und Reasoning über visuelle Eingaben systematisch evaluiert. In dieser Arbeit führen wir eine umfassende Studie zu den visuellen Strukturausgabefähigkeiten von MLLMs mit unserem sorgfältig konzipierten SO-Bench Benchmark durch. SO-Bench, das vier visuelle Domänen abdeckt – einschließlich UI-Oberflächen, natürlicher Bilder, Dokumente und Diagramme – basiert auf über 6.500 diversen JSON-Schemata und 1.800 kuratierten Bild-Schema-Paaren mit humanüberprüfter Qualität. Benchmarking-Experimente mit Open-Source- und proprietären Spitzenmodellen zeigen anhaltende Lücken bei der Vorhersage präziser, schemakonformer Ausgaben auf und unterstreichen den Bedarf an besserem multimodalen strukturierten Reasoning. Über das Benchmarking hinaus führen wir weitere Trainingsexperimente durch, um die Strukturausgabefähigkeit der Modelle erheblich zu verbessern. Wir planen, den Benchmark der Community zur Verfügung zu stellen.
English
Multimodal large language models (MLLMs) are increasingly deployed in real-world, agentic settings where outputs must not only be correct, but also conform to predefined data schemas. Despite recent progress in structured generation in textual domain, there is still no benchmark that systematically evaluates schema-grounded information extraction and reasoning over visual inputs. In this work, we conduct a comprehensive study of visual structural output capabilities for MLLMs with our carefully designed SO-Bench benchmark. Covering four visual domains, including UI screens, natural images, documents, and charts, SO-Bench is built from over 6.5K diverse JSON schemas and 1.8K curated image-schema pairs with human-verified quality. Benchmarking experiments on open-sourced and frontier proprietary models reveal persistent gaps in predicting accurate, schema compliant outputs, highlighting the need for better multimodal structured reasoning. Beyond benchmarking, we further conduct training experiments to largely improve the model's structured output capability. We plan to make the benchmark available to the community.