ChatPaper.aiChatPaper

MicroVQA++: Conjunto de Dados de Raciocínio em Microscopia de Alta Qualidade com Grafos Supervisionados Fracamente para Modelos de Linguagem Grande Multimodais

MicroVQA++: High-Quality Microscopy Reasoning Dataset with Weakly Supervised Graphs for Multimodal Large Language Model

November 14, 2025
Autores: Manyu Li, Ruian He, Chenxi Ma, Weimin Tan, Bo Yan
cs.AI

Resumo

Os Modelos de Linguagem Multimodais de Grande Porte são cada vez mais aplicados à imagem biomédica, mas o raciocínio científico para a microscopia continua limitado pela escassez de dados de treino em larga escala e de alta qualidade. Apresentamos o MicroVQA++, um corpus de VQA (Visual Question Answering) para microscopia de alta qualidade e larga escala, derivado do arquivo BIOMIC, construído em três fases. A primeira fase inicia a supervisão a partir de pares legenda-figura validados por especialistas, provenientes de artigos revistos por pares. A segunda fase aplica o HiCQA-Graph, um novo grafo heterogéneo sobre imagens, legendas e perguntas-respostas (QA) que funde a implicação textual baseada em NLI (Natural Language Inference), o alinhamento visão-linguagem baseado no CLIP e sinais de agente para identificar e filtrar amostras inconsistentes. A terceira fase utiliza um agente Modelo de Linguagem Multimodal de Grande Porte (MLLM) para gerar questões de escolha múltipla (MCQ), seguidas de uma triagem humana. A versão resultante compreende uma grande divisão de treino e uma divisão de teste verificada por humanos, cuja distribuição de amostras difíceis ao nível de Bloom excede o benchmark MicroVQA. O nosso trabalho oferece (i) um conjunto de dados controlado em qualidade que associa a literatura especializada com a filtragem baseada em grafos e o refinamento humano; (ii) o HiCQA-Graph, o primeiro grafo que modela conjuntamente (imagem, legenda, QA) para filtragem de consistência cross-modal; (iii) evidências de que uma construção cuidadosa dos dados permite que MLLMs à escala de 4B atinjam um desempenho competitivo no raciocínio em microscopia (comparável, por exemplo, ao GPT-4) e alcancem um desempenho state-of-the-art entre os MLLMs de código aberto. O código e o conjunto de dados serão disponibilizados após a conclusão do processo de revisão.
English
Multimodal Large Language Models are increasingly applied to biomedical imaging, yet scientific reasoning for microscopy remains limited by the scarcity of large-scale, high-quality training data. We introduce MicroVQA++, a three-stage, large-scale and high-quality microscopy VQA corpus derived from the BIOMEDICA archive. Stage one bootstraps supervision from expert-validated figure-caption pairs sourced from peer-reviewed articles. Stage two applies HiCQA-Graph, a novel heterogeneous graph over images, captions, and QAs that fuses NLI-based textual entailment, CLIP-based vision-language alignment, and agent signals to identify and filter inconsistent samples. Stage three uses a MultiModal Large Language Model (MLLM) agent to generate multiple-choice questions (MCQ) followed by human screening. The resulting release comprises a large training split and a human-checked test split whose Bloom's level hard-sample distribution exceeds the MicroVQA benchmark. Our work delivers (i) a quality-controlled dataset that couples expert literature with graph-based filtering and human refinement; (ii) HiCQA-Graph, the first graph that jointly models (image, caption, QA) for cross-modal consistency filtering; (iii) evidence that careful data construction enables 4B-scale MLLMs to reach competitive microscopy reasoning performance (e.g., GPT-5) and achieve state-of-the-art performance among open-source MLLMs. Code and dataset will be released after the review process concludes.
PDF52February 27, 2026