Bee : Un corpus de haute qualité et une suite complète pour débloquer des modèles de langage multilingues entièrement ouverts de pointe

papers.abstract

Les modèles de langage multimodal (MLLM) entièrement ouverts accusent actuellement un retard par rapport à leurs homologues propriétaires, principalement en raison d'un écart significatif dans la qualité des données utilisées pour le réglage supervisé (SFT). Les ensembles de données open source existants sont souvent entachés de bruit généralisé et d'un déficit critique en données de raisonnement complexe, telles que la Chaîne de Pensée (CoT), ce qui entrave le développement de capacités avancées des modèles. Pour relever ces défis, notre travail apporte trois contributions principales. Premièrement, nous introduisons Honey-Data-15M, un nouvel ensemble de données SFT comprenant environ 15 millions de paires question-réponse, traitées à l'aide de plusieurs techniques de nettoyage et enrichies par une nouvelle stratégie d'enrichissement CoT à double niveau (court et long). Deuxièmement, nous présentons HoneyPipe, le pipeline de curation de données, ainsi que son cadre sous-jacent DataStudio, offrant à la communauté une méthodologie transparente et adaptable pour la curation de données qui va au-delà des publications statiques d'ensembles de données. Enfin, pour valider notre ensemble de données et notre pipeline, nous entraînons Bee-8B, un modèle de 8 milliards de paramètres sur Honey-Data-15M. Les expériences montrent que Bee-8B établit un nouvel état de l'art (SOTA) pour les MLLM entièrement ouverts, atteignant des performances compétitives avec, et dans certains cas surpassant, les modèles semi-ouverts récents tels qu'InternVL3.5-8B. Notre travail fournit à la communauté un ensemble de ressources fondamentales, comprenant : le corpus Honey-Data-15M ; la suite complète incluant HoneyPipe et DataStudio ; les recettes d'entraînement ; un cadre d'évaluation ; et les poids du modèle. Cet effort démontre qu'une focalisation méthodique sur la qualité des données est une voie clé pour développer des MLLM entièrement ouverts hautement compétitifs par rapport à leurs homologues semi-ouverts.

English

Fully open multimodal large language models (MLLMs) currently lag behind proprietary counterparts, primarily due to a significant gap in data quality for supervised fine-tuning (SFT). Existing open-source datasets are often plagued by widespread noise and a critical deficit in complex reasoning data, such as Chain-of-Thought (CoT), which hinders the development of advanced model capabilities. Addressing these challenges, our work makes three primary contributions. First, we introduce Honey-Data-15M, a new SFT dataset comprising approximately 15 million QA pairs, processed through multiple cleaning techniques and enhanced with a novel dual-level (short and long) CoT enrichment strategy. Second, we introduce HoneyPipe, the data curation pipeline, and its underlying framework DataStudio, providing the community with a transparent and adaptable methodology for data curation that moves beyond static dataset releases. Finally, to validate our dataset and pipeline, we train Bee-8B, an 8B model on Honey-Data-15M. Experiments show that Bee-8B establishes a new state-of-the-art (SOTA) for fully open MLLMs, achieving performance that is competitive with, and in some cases surpasses, recent semi-open models such as InternVL3.5-8B. Our work delivers to the community a suite of foundational resources, including: the Honey-Data-15M corpus; the full-stack suite comprising HoneyPipe and DataStudio; training recipes; an evaluation harness; and the model weights. This effort demonstrates that a principled focus on data quality is a key pathway to developing fully open MLLMs that are highly competitive with their semi-open counterparts.

Bee : Un corpus de haute qualité et une suite complète pour débloquer des modèles de langage multilingues entièrement ouverts de pointe

Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs

papers.abstract

Support