ChatPaper.aiChatPaper

MicroVQA++: Dataset di Ragionamento Microscopico di Alta Qualità con Grafi Debolmente Supervisionati per Modelli Linguistici Multimodali di Grandi Dimensioni

MicroVQA++: High-Quality Microscopy Reasoning Dataset with Weakly Supervised Graphs for Multimodal Large Language Model

November 14, 2025
Autori: Manyu Li, Ruian He, Chenxi Ma, Weimin Tan, Bo Yan
cs.AI

Abstract

I modelli linguistici multimodali di grandi dimensioni sono sempre più applicati all'imaging biomedico, tuttavia il ragionamento scientifico per la microscopia rimane limitato dalla scarsità di dati di addestramento su larga scala e di alta qualità. Presentiamo MicroVQA++, un corpus VQA per microscopia su larga scala e di alta qualità, derivato dall'archivio BIOMEDICA e sviluppato in tre fasi. La prima fase avvia un processo di supervisione a partire da coppie figura-didascalia validate da esperti e provenienti da articoli sottoposti a revisione paritaria. La seconda fase applica HiCQA-Graph, un nuovo grafo eterogeneo su immagini, didascalie e domande-risposte che fonde l'inferenza testuale basata su NLI, l'allineamento visivo-linguistico basato su CLIP e segnali di agente per identificare e filtrare campioni inconsistenti. La terza fase utilizza un agente MLLM (MultiModal Large Language Model) per generare domande a scelta multipla (MCQ) seguite da uno screening umano. La versione rilasciata comprende un ampio split di addestramento e uno split di test verificato da umani, la cui distribuzione di campioni difficili per livello di Bloom supera il benchmark MicroVQA. Il nostro lavoro fornisce (i) un dataset controllato in qualità che combina letteratura specialistica con filtraggio basato su grafi e raffinamento umano; (ii) HiCQA-Graph, il primo grafo che modella congiuntamente (immagine, didascalia, QA) per il filtraggio della coerenza cross-modale; (iii) evidenza che un'attenta costruzione dei dati consente a MLLM di dimensioni pari a 4B di raggiungere prestazioni competitive nel ragionamento microscopico (ad esempio, rispetto a GPT-5) e di ottenere prestazioni all'avanguardia tra i MLLM open-source. Il codice e il dataset saranno rilasciati al termine del processo di revisione.
English
Multimodal Large Language Models are increasingly applied to biomedical imaging, yet scientific reasoning for microscopy remains limited by the scarcity of large-scale, high-quality training data. We introduce MicroVQA++, a three-stage, large-scale and high-quality microscopy VQA corpus derived from the BIOMEDICA archive. Stage one bootstraps supervision from expert-validated figure-caption pairs sourced from peer-reviewed articles. Stage two applies HiCQA-Graph, a novel heterogeneous graph over images, captions, and QAs that fuses NLI-based textual entailment, CLIP-based vision-language alignment, and agent signals to identify and filter inconsistent samples. Stage three uses a MultiModal Large Language Model (MLLM) agent to generate multiple-choice questions (MCQ) followed by human screening. The resulting release comprises a large training split and a human-checked test split whose Bloom's level hard-sample distribution exceeds the MicroVQA benchmark. Our work delivers (i) a quality-controlled dataset that couples expert literature with graph-based filtering and human refinement; (ii) HiCQA-Graph, the first graph that jointly models (image, caption, QA) for cross-modal consistency filtering; (iii) evidence that careful data construction enables 4B-scale MLLMs to reach competitive microscopy reasoning performance (e.g., GPT-5) and achieve state-of-the-art performance among open-source MLLMs. Code and dataset will be released after the review process concludes.
PDF42December 1, 2025