科学的画像合成:ベンチマーク、方法論、および下流応用
Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility
January 17, 2026
著者: Honglin Lin, Chonghan Qin, Zheng Liu, Qizhi Pei, Yu Li, Zhanping Zhong, Xin Gao, Yanfeng Wang, Conghui He, Lijun Wu
cs.AI
要旨
合成データがテキスト領域における科学的推論の改善に有効であることが実証されている一方で、マルチモーダル推論は、科学的に厳密な画像を合成する困難さによって制約を受け続けている。既存のText-to-Image(T2I)モデルは、視覚的にはもっともらしいが科学的には誤った出力を生成することが多く、これが持続的な視覚-論理の乖離を生み、下流の推論タスクにおける価値を制限している。次世代T2Iモデルの最近の進歩に触発され、我々は生成パラダイム、評価、下流利用にわたる科学的画像合成に関する体系的研究を実施する。我々は直接的なピクセルベースの生成とプログラムによる合成の両方を分析し、構造的精度を向上させるための明示的な「理解-計画-コーディング」ワークフローに従う論理駆動型フレームワークであるImgCoderを提案する。科学的正確性を厳密に評価するため、生成画像を情報の有用性と論理的妥当性に基づいて評価するSciGenBenchを導入する。我々の評価は、ピクセルベースモデルにおける体系的な失敗モードを明らかにし、表現力と精度の根本的なトレードオフを浮き彫りにする。最後に、厳密に検証された合成科学画像で大規模マルチモーダルモデル(LMM)をファインチューニングすることにより、一貫した推論の向上が得られ、テキスト領域と類似したスケーリングの可能性を示すことで、高忠実度な科学合成が大規模なマルチモーダル推論能力を解放する実行可能な道筋であることを実証する。
English
While synthetic data has proven effective for improving scientific reasoning in the text domain, multimodal reasoning remains constrained by the difficulty of synthesizing scientifically rigorous images. Existing Text-to-Image (T2I) models often produce outputs that are visually plausible yet scientifically incorrect, resulting in a persistent visual-logic divergence that limits their value for downstream reasoning. Motivated by recent advances in next-generation T2I models, we conduct a systematic study of scientific image synthesis across generation paradigms, evaluation, and downstream use. We analyze both direct pixel-based generation and programmatic synthesis, and propose ImgCoder, a logic-driven framework that follows an explicit "understand - plan - code" workflow to improve structural precision. To rigorously assess scientific correctness, we introduce SciGenBench, which evaluates generated images based on information utility and logical validity. Our evaluation reveals systematic failure modes in pixel-based models and highlights a fundamental expressiveness-precision trade-off. Finally, we show that fine-tuning Large Multimodal Models (LMMs) on rigorously verified synthetic scientific images yields consistent reasoning gains, with potential scaling trends analogous to the text domain, validating high-fidelity scientific synthesis as a viable path to unlocking massive multimodal reasoning capabilities.