Bee: Een hoogwaardig corpus en een full-stack suite om geavanceerde volledig open MLLMs te ontsluiten
Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs
October 15, 2025
Auteurs: Yi Zhang, Bolin Ni, Xin-Sheng Chen, Heng-Rui Zhang, Yongming Rao, Houwen Peng, Qinglin Lu, Han Hu, Meng-Hao Guo, Shi-Min Hu
cs.AI
Samenvatting
Volledig open multimodal large language models (MLLMs) blijven momenteel achter bij propriëtaire tegenhangers, voornamelijk vanwege een aanzienlijk verschil in de kwaliteit van de gegevens die worden gebruikt voor supervised fine-tuning (SFT). Bestaande open-source datasets worden vaak geteisterd door wijdverbreide ruis en een kritisch tekort aan complexe redeneergegevens, zoals Chain-of-Thought (CoT), wat de ontwikkeling van geavanceerde modelmogelijkheden belemmert. Om deze uitdagingen aan te pakken, levert ons werk drie primaire bijdragen. Ten eerste introduceren we Honey-Data-15M, een nieuwe SFT-dataset bestaande uit ongeveer 15 miljoen vraag-antwoordparen, verwerkt via meerdere reinigingstechnieken en verrijkt met een nieuwe dual-level (kort en lang) CoT-verrijkingsstrategie. Ten tweede introduceren we HoneyPipe, de data-curatiepijplijn, en het onderliggende framework DataStudio, waarmee we de gemeenschap voorzien van een transparante en aanpasbare methodologie voor data-curatie die verder gaat dan statische datasetreleases. Tot slot trainen we, om onze dataset en pijplijn te valideren, Bee-8B, een 8B-model op Honey-Data-15M. Experimenten tonen aan dat Bee-8B een nieuwe state-of-the-art (SOTA) vestigt voor volledig open MLLMs, waarbij de prestaties concurrerend zijn met, en in sommige gevallen zelfs overtreffen, recente semi-open modellen zoals InternVL3.5-8B. Ons werk levert aan de gemeenschap een reeks fundamentele bronnen, waaronder: het Honey-Data-15M-corpus; de full-stack suite bestaande uit HoneyPipe en DataStudio; trainingsrecepten; een evaluatieharness; en de modelgewichten. Deze inspanning toont aan dat een principiële focus op data-kwaliteit een sleutelpad is naar de ontwikkeling van volledig open MLLMs die zeer concurrerend zijn met hun semi-open tegenhangers.
English
Fully open multimodal large language models (MLLMs) currently lag behind
proprietary counterparts, primarily due to a significant gap in data quality
for supervised fine-tuning (SFT). Existing open-source datasets are often
plagued by widespread noise and a critical deficit in complex reasoning data,
such as Chain-of-Thought (CoT), which hinders the development of advanced model
capabilities. Addressing these challenges, our work makes three primary
contributions. First, we introduce Honey-Data-15M, a new SFT dataset comprising
approximately 15 million QA pairs, processed through multiple cleaning
techniques and enhanced with a novel dual-level (short and long) CoT enrichment
strategy. Second, we introduce HoneyPipe, the data curation pipeline, and its
underlying framework DataStudio, providing the community with a transparent and
adaptable methodology for data curation that moves beyond static dataset
releases. Finally, to validate our dataset and pipeline, we train Bee-8B, an 8B
model on Honey-Data-15M. Experiments show that Bee-8B establishes a new
state-of-the-art (SOTA) for fully open MLLMs, achieving performance that is
competitive with, and in some cases surpasses, recent semi-open models such as
InternVL3.5-8B. Our work delivers to the community a suite of foundational
resources, including: the Honey-Data-15M corpus; the full-stack suite
comprising HoneyPipe and DataStudio; training recipes; an evaluation harness;
and the model weights. This effort demonstrates that a principled focus on data
quality is a key pathway to developing fully open MLLMs that are highly
competitive with their semi-open counterparts.