Wissenschaftliche Bildsynthese: Benchmarking, Methoden und nachgelagerte Anwendungsmöglichkeiten
Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility
January 17, 2026
papers.authors: Honglin Lin, Chonghan Qin, Zheng Liu, Qizhi Pei, Yu Li, Zhanping Zhong, Xin Gao, Yanfeng Wang, Conghui He, Lijun Wu
cs.AI
papers.abstract
Während sich synthetische Daten im Textbereich als wirksam für die Verbesserung wissenschaftlichen Denkens erwiesen haben, bleibt das multimodale Schließen durch die Schwierigkeit eingeschränkt, wissenschaftlich fundierte Bilder zu synthetisieren. Bestehende Text-zu-Bild (T2I)-Modelle erzeugen oft visuell plausible, aber wissenschaftlich inkorrekte Ergebnisse, was zu einer anhaltenden visuell-logischen Diskrepanz führt, die ihren Wert für nachgelagertes Schließen begrenzt. Angeregt durch jüngste Fortschritte bei T2I-Modellen der nächsten Generation führen wir eine systematische Studie zur Synthese wissenschaftlicher Bilder über Erzeugungsparadigmen, Evaluation und nachgelagerte Nutzung hinweg durch. Wir analysieren sowohl direkte pixelbasierte Erzeugung als auch programmatische Synthese und schlagen ImgCoder vor, ein logikgesteuertes Framework, das einem expliziten "Verstehen-Planen-Coden"-Ablauf folgt, um die strukturelle Präzision zu verbessern. Um wissenschaftliche Korrektheit rigoros zu bewerten, führen wir SciGenBench ein, das generierte Bilder auf der Grundlage von Informationsnutzen und logischer Validität evaluiert. Unsere Auswertung deckt systematische Fehlermodi in pixelbasierten Modellen auf und verdeutlicht einen fundamentalen Zielkonflikt zwischen Ausdrucksstärke und Präzision. Abschließend zeigen wir, dass das Feinabstimmen Großer Multimodaler Modelle (LMMs) auf rigoros verifizierten synthetischen wissenschaftlichen Bildern zu konsistenten Verbesserungen im Schließen führt, mit potenziellen Skalierungstrends analog zum Textbereich. Dies validiert hochpräzise wissenschaftliche Synthese als einen gangbaren Weg, um umfangreiche multimodale Schließfähigkeiten zu erschließen.
English
While synthetic data has proven effective for improving scientific reasoning in the text domain, multimodal reasoning remains constrained by the difficulty of synthesizing scientifically rigorous images. Existing Text-to-Image (T2I) models often produce outputs that are visually plausible yet scientifically incorrect, resulting in a persistent visual-logic divergence that limits their value for downstream reasoning. Motivated by recent advances in next-generation T2I models, we conduct a systematic study of scientific image synthesis across generation paradigms, evaluation, and downstream use. We analyze both direct pixel-based generation and programmatic synthesis, and propose ImgCoder, a logic-driven framework that follows an explicit "understand - plan - code" workflow to improve structural precision. To rigorously assess scientific correctness, we introduce SciGenBench, which evaluates generated images based on information utility and logical validity. Our evaluation reveals systematic failure modes in pixel-based models and highlights a fundamental expressiveness-precision trade-off. Finally, we show that fine-tuning Large Multimodal Models (LMMs) on rigorously verified synthetic scientific images yields consistent reasoning gains, with potential scaling trends analogous to the text domain, validating high-fidelity scientific synthesis as a viable path to unlocking massive multimodal reasoning capabilities.