ChatPaper.aiChatPaper

Bee: 高度な完全オープンMLLMを解き放つための高品質コーパスとフルスタックスイート

Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs

October 15, 2025
著者: Yi Zhang, Bolin Ni, Xin-Sheng Chen, Heng-Rui Zhang, Yongming Rao, Houwen Peng, Qinglin Lu, Han Hu, Meng-Hao Guo, Shi-Min Hu
cs.AI

要旨

完全オープンなマルチモーダル大規模言語モデル(MLLM)は現在、主に教師ありファインチューニング(SFT)のためのデータ品質の大きなギャップにより、プロプライエタリなモデルに遅れを取っています。既存のオープンソースデータセットは、広範なノイズやChain-of-Thought(CoT)などの複雑な推論データの深刻な不足に悩まされており、高度なモデル能力の開発を妨げています。これらの課題に対処するため、本研究では3つの主要な貢献を行います。まず、約1500万のQAペアからなる新しいSFTデータセットであるHoney-Data-15Mを紹介します。このデータセットは、複数のクリーニング技術を経て処理され、新たな二段階(短いものと長いもの)のCoT強化戦略によって強化されています。次に、データキュレーションパイプラインであるHoneyPipeとその基盤となるフレームワークDataStudioを紹介し、静的データセットのリリースを超えた透明で適応可能なデータキュレーション手法をコミュニティに提供します。最後に、Honey-Data-15Mでトレーニングした8BモデルであるBee-8Bを検証します。実験結果は、Bee-8Bが完全オープンなMLLMの新たな最先端(SOTA)を確立し、InternVL3.5-8Bなどの最近のセミオープンモデルと競争力があり、場合によってはそれを上回る性能を達成することを示しています。本研究は、Honey-Data-15Mコーパス、HoneyPipeとDataStudioを含むフルスタックスイート、トレーニングレシピ、評価ハーネス、およびモデルウェイトを含む一連の基礎リソースをコミュニティに提供します。この取り組みは、データ品質に焦点を当てることが、セミオープンなモデルと競争力のある完全オープンなMLLMを開発するための重要な道筋であることを示しています。
English
Fully open multimodal large language models (MLLMs) currently lag behind proprietary counterparts, primarily due to a significant gap in data quality for supervised fine-tuning (SFT). Existing open-source datasets are often plagued by widespread noise and a critical deficit in complex reasoning data, such as Chain-of-Thought (CoT), which hinders the development of advanced model capabilities. Addressing these challenges, our work makes three primary contributions. First, we introduce Honey-Data-15M, a new SFT dataset comprising approximately 15 million QA pairs, processed through multiple cleaning techniques and enhanced with a novel dual-level (short and long) CoT enrichment strategy. Second, we introduce HoneyPipe, the data curation pipeline, and its underlying framework DataStudio, providing the community with a transparent and adaptable methodology for data curation that moves beyond static dataset releases. Finally, to validate our dataset and pipeline, we train Bee-8B, an 8B model on Honey-Data-15M. Experiments show that Bee-8B establishes a new state-of-the-art (SOTA) for fully open MLLMs, achieving performance that is competitive with, and in some cases surpasses, recent semi-open models such as InternVL3.5-8B. Our work delivers to the community a suite of foundational resources, including: the Honey-Data-15M corpus; the full-stack suite comprising HoneyPipe and DataStudio; training recipes; an evaluation harness; and the model weights. This effort demonstrates that a principled focus on data quality is a key pathway to developing fully open MLLMs that are highly competitive with their semi-open counterparts.
PDF472October 16, 2025