Sintesi di Immagini Scientifiche: Benchmarking, Metodologie e Utilità a Valle

Abstract

Sebbene i dati sintetici si siano dimostrati efficaci per migliorare il ragionamento scientifico nel dominio testuale, il ragionamento multimodale rimane limitato dalla difficoltà di sintetizzare immagini scientificamente rigorose. I modelli Text-to-Image (T2I) esistenti spesso producono output visivamente plausibili ma scientificamente scorretti, risultando in una persistente divergenza logico-visiva che ne limita il valore per il ragionamento a valle. Sulla scia dei recenti progressi nei modelli T2I di nuova generazione, conduciamo uno studio sistematico sulla sintesi di immagini scientifiche, analizzando i paradigmi di generazione, la valutazione e l'utilizzo downstream. Analizziamo sia la generazione diretta basata sui pixel che la sintesi programmatica, e proponiamo ImgCoder, un framework guidato dalla logica che segue un flusso di lavoro esplicito "comprendi - pianifica - programma" per migliorare la precisione strutturale. Per valutare rigorosamente la correttezza scientifica, introduciamo SciGenBench, che valuta le immagini generate in base all'utilità informativa e alla validità logica. La nostra valutazione rivela modalità di fallimento sistematiche nei modelli basati sui pixel ed evidenzia un fondamentale compromesso tra espressività e precisione. Infine, dimostriamo che il fine-tuning di Large Multimodal Models (LMMs) su immagini scientifiche sintetiche e rigorosamente verificate produce miglioramenti consistenti nel ragionamento, con potenziali trend di scalabilità analoghi al dominio testuale, convalidando la sintesi scientifica ad alta fedeltà come un percorso percorribile per sbloccare capacità massive di ragionamento multimodale.

English

While synthetic data has proven effective for improving scientific reasoning in the text domain, multimodal reasoning remains constrained by the difficulty of synthesizing scientifically rigorous images. Existing Text-to-Image (T2I) models often produce outputs that are visually plausible yet scientifically incorrect, resulting in a persistent visual-logic divergence that limits their value for downstream reasoning. Motivated by recent advances in next-generation T2I models, we conduct a systematic study of scientific image synthesis across generation paradigms, evaluation, and downstream use. We analyze both direct pixel-based generation and programmatic synthesis, and propose ImgCoder, a logic-driven framework that follows an explicit "understand - plan - code" workflow to improve structural precision. To rigorously assess scientific correctness, we introduce SciGenBench, which evaluates generated images based on information utility and logical validity. Our evaluation reveals systematic failure modes in pixel-based models and highlights a fundamental expressiveness-precision trade-off. Finally, we show that fine-tuning Large Multimodal Models (LMMs) on rigorously verified synthetic scientific images yields consistent reasoning gains, with potential scaling trends analogous to the text domain, validating high-fidelity scientific synthesis as a viable path to unlocking massive multimodal reasoning capabilities.

Sintesi di Immagini Scientifiche: Benchmarking, Metodologie e Utilità a Valle

Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility

Abstract

Support