Síntese Científica de Imagens: Benchmarking, Metodologias e Utilidade em Aplicações Secundárias
Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility
January 17, 2026
Autores: Honglin Lin, Chonghan Qin, Zheng Liu, Qizhi Pei, Yu Li, Zhanping Zhong, Xin Gao, Yanfeng Wang, Conghui He, Lijun Wu
cs.AI
Resumo
Embora os dados sintéticos tenham se mostrado eficazes para melhorar o raciocínio científico no domínio textual, o raciocínio multimodal continua limitado pela dificuldade de sintetizar imagens cientificamente rigorosas. Os modelos existentes de Texto para Imagem (T2I) frequentemente produzem resultados visualmente plausíveis, mas cientificamente incorretos, resultando em uma persistente divergência lógico-visual que limita seu valor para o raciocínio subsequente. Motivados pelos avanços recentes em modelos T2I de próxima geração, realizamos um estudo sistemático sobre a síntese de imagens científicas, abrangendo paradigmas de geração, avaliação e uso subsequente. Analisamos tanto a geração direta baseada em pixels quanto a síntese programática, e propomos o ImgCoder, uma estrutura orientada pela lógica que segue um fluxo de trabalho explícito de "compreender - planejar - codificar" para melhorar a precisão estrutural. Para avaliar rigorosamente a correção científica, introduzimos o SciGenBench, que avalia as imagens geradas com base na utilidade da informação e na validade lógica. Nossa avaliação revela modos de falha sistemáticos nos modelos baseados em pixels e destaca uma compensação fundamental entre expressividade e precisão. Por fim, demonstramos que o ajuste fino de Modelos Multimodais de Grande Escala (LMMs) em imagens científicas sintéticas rigorosamente verificadas produz ganhos consistentes de raciocínio, com tendências de escalabilidade análogas às do domínio textual, validando a síntese científica de alta fidelidade como um caminho viável para desbloquear capacidades massivas de raciocínio multimodal.
English
While synthetic data has proven effective for improving scientific reasoning in the text domain, multimodal reasoning remains constrained by the difficulty of synthesizing scientifically rigorous images. Existing Text-to-Image (T2I) models often produce outputs that are visually plausible yet scientifically incorrect, resulting in a persistent visual-logic divergence that limits their value for downstream reasoning. Motivated by recent advances in next-generation T2I models, we conduct a systematic study of scientific image synthesis across generation paradigms, evaluation, and downstream use. We analyze both direct pixel-based generation and programmatic synthesis, and propose ImgCoder, a logic-driven framework that follows an explicit "understand - plan - code" workflow to improve structural precision. To rigorously assess scientific correctness, we introduce SciGenBench, which evaluates generated images based on information utility and logical validity. Our evaluation reveals systematic failure modes in pixel-based models and highlights a fundamental expressiveness-precision trade-off. Finally, we show that fine-tuning Large Multimodal Models (LMMs) on rigorously verified synthetic scientific images yields consistent reasoning gains, with potential scaling trends analogous to the text domain, validating high-fidelity scientific synthesis as a viable path to unlocking massive multimodal reasoning capabilities.