Síntesis de Imágenes Científicas: Evaluación Comparativa, Metodologías y Utilidad en Aplicaciones Posteriores
Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility
January 17, 2026
Autores: Honglin Lin, Chonghan Qin, Zheng Liu, Qizhi Pei, Yu Li, Zhanping Zhong, Xin Gao, Yanfeng Wang, Conghui He, Lijun Wu
cs.AI
Resumen
Si bien los datos sintéticos han demostrado ser efectivos para mejorar el razonamiento científico en el dominio textual, el razonamiento multimodal sigue limitado por la dificultad de sintetizar imágenes científicamente rigurosas. Los modelos existentes de Texto a Imagen (T2I) a menudo producen resultados visualmente plausibles pero científicamente incorrectos, lo que genera una divergencia lógico-visual persistente que limita su valor para el razonamiento posterior. Motivados por los recientes avances en modelos T2I de próxima generación, realizamos un estudio sistemático de la síntesis de imágenes científicas a través de los paradigmas de generación, evaluación y uso posterior. Analizamos tanto la generación directa basada en píxeles como la síntesis programática, y proponemos ImgCoder, un marco impulsado por la lógica que sigue un flujo de trabajo explícito de "comprender - planificar - codificar" para mejorar la precisión estructural. Para evaluar rigurosamente la corrección científica, presentamos SciGenBench, que evalúa las imágenes generadas en función de su utilidad informativa y validez lógica. Nuestra evaluación revela modos de fallo sistemáticos en los modelos basados en píxeles y destaca una compensación fundamental entre expresividad y precisión. Finalmente, demostramos que el ajuste fino de Modelos Multimodales Grandes (LMM) en imágenes científicas sintéticas rigurosamente verificadas produce ganancias consistentes en el razonamiento, con tendencias de escalado potenciales análogas al dominio textual, validando la síntesis científica de alta fidelidad como un camino viable para desbloquear capacidades masivas de razonamiento multimodal.
English
While synthetic data has proven effective for improving scientific reasoning in the text domain, multimodal reasoning remains constrained by the difficulty of synthesizing scientifically rigorous images. Existing Text-to-Image (T2I) models often produce outputs that are visually plausible yet scientifically incorrect, resulting in a persistent visual-logic divergence that limits their value for downstream reasoning. Motivated by recent advances in next-generation T2I models, we conduct a systematic study of scientific image synthesis across generation paradigms, evaluation, and downstream use. We analyze both direct pixel-based generation and programmatic synthesis, and propose ImgCoder, a logic-driven framework that follows an explicit "understand - plan - code" workflow to improve structural precision. To rigorously assess scientific correctness, we introduce SciGenBench, which evaluates generated images based on information utility and logical validity. Our evaluation reveals systematic failure modes in pixel-based models and highlights a fundamental expressiveness-precision trade-off. Finally, we show that fine-tuning Large Multimodal Models (LMMs) on rigorously verified synthetic scientific images yields consistent reasoning gains, with potential scaling trends analogous to the text domain, validating high-fidelity scientific synthesis as a viable path to unlocking massive multimodal reasoning capabilities.