ChatPaper.aiChatPaper

과학적 이미지 합성: 벤치마킹, 방법론 및 다운스트림 활용성

Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility

January 17, 2026
저자: Honglin Lin, Chonghan Qin, Zheng Liu, Qizhi Pei, Yu Li, Zhanping Zhong, Xin Gao, Yanfeng Wang, Conghui He, Lijun Wu
cs.AI

초록

합성 데이터가 텍스트 영역에서 과학적 추론 향상에 효과적임이 입증되었지만, 다중모달 추론은 과학적으로 엄밀한 이미지 합성의 어려움으로 인해 여전히 제약을 받고 있습니다. 기존 텍스트-이미지(T2I) 모델들은 시각적으로 그럴듯하지만 과학적으로 부정확한 결과물을 자주 생성하여, 하위 추론 작업의 가치를 제한하는 지속적인 시각-논리 괴리를 초래합니다. 차세대 T2I 모델의 최근 발전에 고무되어, 우리는 생성 패러다임, 평가, 하위 활용을 아우르는 과학적 이미지 합성에 대한 체계적인 연구를 수행합니다. 우리는 직접 픽셀 기반 생성과 프로그램적 합성 모두를 분석하고, 구조적 정밀도를 향상시키기 위해 명시적인 "이해-계획-코딩" 워크플로우를 따르는 논리 주도 프레임워크인 ImgCoder를 제안합니다. 과학적 정확성을 엄격하게 평가하기 위해, 생성된 이미지를 정보 유용성과 논리적 타당성에 기반하여 평가하는 SciGenBench를 도입합니다. 우리의 평가는 픽셀 기반 모델들의 체계적인 실패 모드를 드러내고 표현력과 정밀도 사이의 근본적인 상충 관계를 부각합니다. 마지막으로, 엄격하게 검증된 합성 과학 이미지로 대규모 다중모달 모델(LMM)을 미세 조정하면 일관된 추론 향상을 얻을 수 있으며, 텍스트 영역과 유사한 확장 경향을 보여 잠재적인 가능성을 확인함으로써, 고충실도 과학적 합성이 대규모 다중모달 추론 능력을 개척하는 실현 가능한 경로임을 입증합니다.
English
While synthetic data has proven effective for improving scientific reasoning in the text domain, multimodal reasoning remains constrained by the difficulty of synthesizing scientifically rigorous images. Existing Text-to-Image (T2I) models often produce outputs that are visually plausible yet scientifically incorrect, resulting in a persistent visual-logic divergence that limits their value for downstream reasoning. Motivated by recent advances in next-generation T2I models, we conduct a systematic study of scientific image synthesis across generation paradigms, evaluation, and downstream use. We analyze both direct pixel-based generation and programmatic synthesis, and propose ImgCoder, a logic-driven framework that follows an explicit "understand - plan - code" workflow to improve structural precision. To rigorously assess scientific correctness, we introduce SciGenBench, which evaluates generated images based on information utility and logical validity. Our evaluation reveals systematic failure modes in pixel-based models and highlights a fundamental expressiveness-precision trade-off. Finally, we show that fine-tuning Large Multimodal Models (LMMs) on rigorously verified synthetic scientific images yields consistent reasoning gains, with potential scaling trends analogous to the text domain, validating high-fidelity scientific synthesis as a viable path to unlocking massive multimodal reasoning capabilities.
PDF342January 28, 2026