MicroVQA++: マルチモーダル大規模言語モデルのための弱教師付きグラフを備えた高品質顕微鏡推論データセット
MicroVQA++: High-Quality Microscopy Reasoning Dataset with Weakly Supervised Graphs for Multimodal Large Language Model
November 14, 2025
著者: Manyu Li, Ruian He, Chenxi Ma, Weimin Tan, Bo Yan
cs.AI
要旨
マルチモーダル大規模言語モデルは生体医学画像分野への応用が進んでいるが、顕微鏡画像における科学的推論は、大規模で高品質な訓練データの不足によって制限されている。本研究では、BIOMEMORICAアーカイブから構築した3段階構成の大規模高品質顕微鏡画像VQAコーパス「MicroVQA++」を提案する。第1段階では、査読付き論文から収集した専門家検証済みの図版-キャプションペアから教師信号をブートストラップする。第2段階では、画像・キャプション・QAをノードとする新規異種グラフ「HiCQA-Graph」を適用し、NLIベースのテキスト含意関係、CLIPベースの視覚言語アライメント、エージェント信号を融合することで、不整合サンプルの特定とフィルタリングを行う。第3段階では、マルチモーダル大規模言語モデル(MLLM)エージェントを用いて多肢選択問題(MCQ)を生成後、人手によるスクリーニングを実施する。最終リリースでは、大規模な訓練用分割と人手チェック済みのテスト用分割を提供し、そのブルーム分類水準に基づく難問分布はMicroVQAベンチマークを上回る。本成果は以下を含む:(i)専門家による文献データとグラフベースフィルタリング・人手精選を結合した品質管理データセット、(ii)画像・キャプション・QAのクロスモーダル整合性フィルタリングを共同モデル化する初のグラフ構造であるHiCQA-Graph、(iii)注意深いデータ構築により4B規模MLLMが競合的な顕微鏡推論性能(例:GPT-5)を達成し、オープンソースMLLMの中で最先端性能を実現する実証。コードとデータセットは査読終了後に公開予定。
English
Multimodal Large Language Models are increasingly applied to biomedical imaging, yet scientific reasoning for microscopy remains limited by the scarcity of large-scale, high-quality training data. We introduce MicroVQA++, a three-stage, large-scale and high-quality microscopy VQA corpus derived from the BIOMEDICA archive. Stage one bootstraps supervision from expert-validated figure-caption pairs sourced from peer-reviewed articles. Stage two applies HiCQA-Graph, a novel heterogeneous graph over images, captions, and QAs that fuses NLI-based textual entailment, CLIP-based vision-language alignment, and agent signals to identify and filter inconsistent samples. Stage three uses a MultiModal Large Language Model (MLLM) agent to generate multiple-choice questions (MCQ) followed by human screening. The resulting release comprises a large training split and a human-checked test split whose Bloom's level hard-sample distribution exceeds the MicroVQA benchmark. Our work delivers (i) a quality-controlled dataset that couples expert literature with graph-based filtering and human refinement; (ii) HiCQA-Graph, the first graph that jointly models (image, caption, QA) for cross-modal consistency filtering; (iii) evidence that careful data construction enables 4B-scale MLLMs to reach competitive microscopy reasoning performance (e.g., GPT-5) and achieve state-of-the-art performance among open-source MLLMs. Code and dataset will be released after the review process concludes.