Wetenschappelijke Beeldsynthese: Prestatievergelijking, Methodologieën en Toepassingsmogelijkheden
Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility
January 17, 2026
Auteurs: Honglin Lin, Chonghan Qin, Zheng Liu, Qizhi Pei, Yu Li, Zhanping Zhong, Xin Gao, Yanfeng Wang, Conghui He, Lijun Wu
cs.AI
Samenvatting
Hoewel synthetische data effectief is gebleken voor het verbeteren van wetenschappelijk redeneren in het tekstdomein, wordt multimodaal redeneren nog steeds beperkt door de moeilijkheid om wetenschappelijk rigoureuze afbeeldingen te synthetiseren. Bestaande Text-to-Image (T2I) modellen produceren vaak output die visueel aannemelijk is maar wetenschappelijk incorrect, wat resulteert in een hardnekkige visueel-logische divergentie die hun waarde voor downstream redeneren beperkt. Gemotiveerd door recente vooruitgang in next-generation T2I-modellen, voeren we een systematische studie uit naar wetenschappelijke beeld synthese over generatieparadigma's, evaluatie en downstream gebruik heen. We analyseren zowel directe pixelgebaseerde generatie als programmatische synthese, en stellen ImgCoder voor, een logisch-gestuurd framework dat een expliciete "begrijp - plan - code" werkstroom volgt om de structurele precisie te verbeteren. Om wetenschappelijke correctheid rigoureus te beoordelen, introduceren we SciGenBench, dat gegenereerde afbeeldingen evalueert op basis van informatie-utiliteit en logische geldigheid. Onze evaluatie onthult systematische faalmodi in pixelgebaseerde modellen en benadrukt een fundamentele expressiviteit-precisie afweging. Ten slotte tonen we aan dat het fine-tunen van Large Multimodal Models (LMM's) op rigoureus geverifieerde synthetische wetenschappelijke afbeeldingen consistente redeneerwinst oplevert, met potentiële schaalverbanden analoog aan het tekstdomein, wat hoogwaardige wetenschappelijke synthese valideert als een haalbare weg om massale multimodale redeneercapaciteiten te ontsluiten.
English
While synthetic data has proven effective for improving scientific reasoning in the text domain, multimodal reasoning remains constrained by the difficulty of synthesizing scientifically rigorous images. Existing Text-to-Image (T2I) models often produce outputs that are visually plausible yet scientifically incorrect, resulting in a persistent visual-logic divergence that limits their value for downstream reasoning. Motivated by recent advances in next-generation T2I models, we conduct a systematic study of scientific image synthesis across generation paradigms, evaluation, and downstream use. We analyze both direct pixel-based generation and programmatic synthesis, and propose ImgCoder, a logic-driven framework that follows an explicit "understand - plan - code" workflow to improve structural precision. To rigorously assess scientific correctness, we introduce SciGenBench, which evaluates generated images based on information utility and logical validity. Our evaluation reveals systematic failure modes in pixel-based models and highlights a fundamental expressiveness-precision trade-off. Finally, we show that fine-tuning Large Multimodal Models (LMMs) on rigorously verified synthetic scientific images yields consistent reasoning gains, with potential scaling trends analogous to the text domain, validating high-fidelity scientific synthesis as a viable path to unlocking massive multimodal reasoning capabilities.