Synthèse d'images scientifiques : Évaluation comparative, méthodologies et utilité en aval
Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility
January 17, 2026
papers.authors: Honglin Lin, Chonghan Qin, Zheng Liu, Qizhi Pei, Yu Li, Zhanping Zhong, Xin Gao, Yanfeng Wang, Conghui He, Lijun Wu
cs.AI
papers.abstract
Si les données synthétiques ont démontré leur efficacité pour améliorer le raisonnement scientifique dans le domaine textuel, le raisonnement multimodal reste limité par la difficulté de synthétiser des images scientifiquement rigoureuses. Les modèles de génération d'images à partir de texte (Text-to-Image, T2I) existants produisent souvent des résultats visuellement plausibles mais scientifiquement incorrects, ce qui entraîne une divergence persistante entre la logique visuelle et la logique formelle, limitant ainsi leur utilité pour le raisonnement en aval. Motivés par les récents progrès des modèles T2I de nouvelle génération, nous menons une étude systématique sur la synthèse d'images scientifiques, couvrant les paradigmes de génération, l'évaluation et les applications en aval. Nous analysons à la fois la génération directe basée sur les pixels et la synthèse programmatique, et proposons ImgCoder, un cadre logique qui suit un workflow explicite « comprendre – planifier – coder » pour améliorer la précision structurelle. Pour évaluer rigoureusement l'exactitude scientifique, nous introduisons SciGenBench, qui évalue les images générées sur la base de leur utilité informationnelle et de leur validité logique. Notre évaluation révèle des modes d'échec systématiques dans les modèles basés sur les pixels et met en lumière un compromis fondamental entre expressivité et précision. Enfin, nous montrons que le fine-tuning de Grands Modèles Multimodaux (LMMs) sur des images scientifiques synthétiques rigoureusement vérifiées permet d'obtenir des gains de raisonnement constants, avec des tendances à l'échelle potentielles analogues au domaine textuel, validant ainsi la synthèse scientifique haute fidélité comme une voie viable pour débloquer des capacités massives de raisonnement multimodal.
English
While synthetic data has proven effective for improving scientific reasoning in the text domain, multimodal reasoning remains constrained by the difficulty of synthesizing scientifically rigorous images. Existing Text-to-Image (T2I) models often produce outputs that are visually plausible yet scientifically incorrect, resulting in a persistent visual-logic divergence that limits their value for downstream reasoning. Motivated by recent advances in next-generation T2I models, we conduct a systematic study of scientific image synthesis across generation paradigms, evaluation, and downstream use. We analyze both direct pixel-based generation and programmatic synthesis, and propose ImgCoder, a logic-driven framework that follows an explicit "understand - plan - code" workflow to improve structural precision. To rigorously assess scientific correctness, we introduce SciGenBench, which evaluates generated images based on information utility and logical validity. Our evaluation reveals systematic failure modes in pixel-based models and highlights a fundamental expressiveness-precision trade-off. Finally, we show that fine-tuning Large Multimodal Models (LMMs) on rigorously verified synthetic scientific images yields consistent reasoning gains, with potential scaling trends analogous to the text domain, validating high-fidelity scientific synthesis as a viable path to unlocking massive multimodal reasoning capabilities.