Bee : Un corpus de haute qualité et une suite complète pour débloquer des modèles de langage multilingues entièrement ouverts de pointe
Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs
October 15, 2025
papers.authors: Yi Zhang, Bolin Ni, Xin-Sheng Chen, Heng-Rui Zhang, Yongming Rao, Houwen Peng, Qinglin Lu, Han Hu, Meng-Hao Guo, Shi-Min Hu
cs.AI
papers.abstract
Les modèles de langage multimodal (MLLM) entièrement ouverts accusent actuellement un retard par rapport à leurs homologues propriétaires, principalement en raison d'un écart significatif dans la qualité des données utilisées pour le réglage supervisé (SFT). Les ensembles de données open source existants sont souvent entachés de bruit généralisé et d'un déficit critique en données de raisonnement complexe, telles que la Chaîne de Pensée (CoT), ce qui entrave le développement de capacités avancées des modèles. Pour relever ces défis, notre travail apporte trois contributions principales. Premièrement, nous introduisons Honey-Data-15M, un nouvel ensemble de données SFT comprenant environ 15 millions de paires question-réponse, traitées à l'aide de plusieurs techniques de nettoyage et enrichies par une nouvelle stratégie d'enrichissement CoT à double niveau (court et long). Deuxièmement, nous présentons HoneyPipe, le pipeline de curation de données, ainsi que son cadre sous-jacent DataStudio, offrant à la communauté une méthodologie transparente et adaptable pour la curation de données qui va au-delà des publications statiques d'ensembles de données. Enfin, pour valider notre ensemble de données et notre pipeline, nous entraînons Bee-8B, un modèle de 8 milliards de paramètres sur Honey-Data-15M. Les expériences montrent que Bee-8B établit un nouvel état de l'art (SOTA) pour les MLLM entièrement ouverts, atteignant des performances compétitives avec, et dans certains cas surpassant, les modèles semi-ouverts récents tels qu'InternVL3.5-8B. Notre travail fournit à la communauté un ensemble de ressources fondamentales, comprenant : le corpus Honey-Data-15M ; la suite complète incluant HoneyPipe et DataStudio ; les recettes d'entraînement ; un cadre d'évaluation ; et les poids du modèle. Cet effort démontre qu'une focalisation méthodique sur la qualité des données est une voie clé pour développer des MLLM entièrement ouverts hautement compétitifs par rapport à leurs homologues semi-ouverts.
English
Fully open multimodal large language models (MLLMs) currently lag behind
proprietary counterparts, primarily due to a significant gap in data quality
for supervised fine-tuning (SFT). Existing open-source datasets are often
plagued by widespread noise and a critical deficit in complex reasoning data,
such as Chain-of-Thought (CoT), which hinders the development of advanced model
capabilities. Addressing these challenges, our work makes three primary
contributions. First, we introduce Honey-Data-15M, a new SFT dataset comprising
approximately 15 million QA pairs, processed through multiple cleaning
techniques and enhanced with a novel dual-level (short and long) CoT enrichment
strategy. Second, we introduce HoneyPipe, the data curation pipeline, and its
underlying framework DataStudio, providing the community with a transparent and
adaptable methodology for data curation that moves beyond static dataset
releases. Finally, to validate our dataset and pipeline, we train Bee-8B, an 8B
model on Honey-Data-15M. Experiments show that Bee-8B establishes a new
state-of-the-art (SOTA) for fully open MLLMs, achieving performance that is
competitive with, and in some cases surpasses, recent semi-open models such as
InternVL3.5-8B. Our work delivers to the community a suite of foundational
resources, including: the Honey-Data-15M corpus; the full-stack suite
comprising HoneyPipe and DataStudio; training recipes; an evaluation harness;
and the model weights. This effort demonstrates that a principled focus on data
quality is a key pathway to developing fully open MLLMs that are highly
competitive with their semi-open counterparts.