ChatPaper.aiChatPaper

Научный синтез изображений: бенчмаркинг, методологии и прикладное применение

Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility

January 17, 2026
Авторы: Honglin Lin, Chonghan Qin, Zheng Liu, Qizhi Pei, Yu Li, Zhanping Zhong, Xin Gao, Yanfeng Wang, Conghui He, Lijun Wu
cs.AI

Аннотация

Хотя синтетические данные доказали свою эффективность для улучшения научных рассуждений в текстовой сфере, мультимодальные рассуждения по-прежнему ограничены сложностью синтеза научно строгих изображений. Существующие модели преобразования текста в изображение (T2I) часто выдают визуально правдоподобные, но научно некорректные результаты, что приводит к устойчивому расхождению между визуальной составляющей и логикой, ограничивающему их ценность для последующих рассуждений. Мотивированные недавними достижениями в моделях T2I нового поколения, мы проводим систематическое исследование синтеза научных изображений, охватывающее парадигмы генерации, оценку и последующее использование. Мы анализируем как прямую генерацию на основе пикселей, так и программный синтез, и предлагаем ImgCoder — логически управляемую структуру, которая следует явному рабочему процессу «понять — спланировать — запрограммировать» для повышения структурной точности. Для строгой оценки научной корректности мы представляем SciGenBench, который оценивает сгенерированные изображения на основе информационной полезности и логической достоверности. Наша оценка выявляет систематические режимы сбоев в пиксельных моделях и подчеркивает фундаментальный компромисс между выразительностью и точностью. Наконец, мы показываем, что дообучение больших мультимодальных моделей (LMM) на тщательно проверенных синтетических научных изображениях приводит к устойчивому улучшению рассуждений, с потенциальными тенденциями масштабирования, аналогичными текстовой области, что подтверждает высокоточный научный синтез как жизнеспособный путь к раскрытию массовых мультимодальных способностей к рассуждению.
English
While synthetic data has proven effective for improving scientific reasoning in the text domain, multimodal reasoning remains constrained by the difficulty of synthesizing scientifically rigorous images. Existing Text-to-Image (T2I) models often produce outputs that are visually plausible yet scientifically incorrect, resulting in a persistent visual-logic divergence that limits their value for downstream reasoning. Motivated by recent advances in next-generation T2I models, we conduct a systematic study of scientific image synthesis across generation paradigms, evaluation, and downstream use. We analyze both direct pixel-based generation and programmatic synthesis, and propose ImgCoder, a logic-driven framework that follows an explicit "understand - plan - code" workflow to improve structural precision. To rigorously assess scientific correctness, we introduce SciGenBench, which evaluates generated images based on information utility and logical validity. Our evaluation reveals systematic failure modes in pixel-based models and highlights a fundamental expressiveness-precision trade-off. Finally, we show that fine-tuning Large Multimodal Models (LMMs) on rigorously verified synthetic scientific images yields consistent reasoning gains, with potential scaling trends analogous to the text domain, validating high-fidelity scientific synthesis as a viable path to unlocking massive multimodal reasoning capabilities.
PDF342January 28, 2026