Bee: Ein hochwertiges Korpus und eine Full-Stack-Suite zur Freischaltung fortschrittlicher vollständig offener MLLMs
Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs
October 15, 2025
papers.authors: Yi Zhang, Bolin Ni, Xin-Sheng Chen, Heng-Rui Zhang, Yongming Rao, Houwen Peng, Qinglin Lu, Han Hu, Meng-Hao Guo, Shi-Min Hu
cs.AI
papers.abstract
Vollständig offene multimodale große Sprachmodelle (MLLMs) liegen derzeit hinter proprietären Gegenstücken zurück, hauptsächlich aufgrund einer erheblichen Lücke in der Datenqualität für das überwachte Feinabstimmen (SFT). Bestehende Open-Source-Datensätze sind oft von weit verbreitetem Rauschen und einem kritischen Mangel an komplexen Denkdaten, wie Chain-of-Thought (CoT), betroffen, was die Entwicklung fortgeschrittener Modellfähigkeiten behindert. Um diese Herausforderungen zu bewältigen, leistet unsere Arbeit drei primäre Beiträge. Erstens führen wir Honey-Data-15M ein, einen neuen SFT-Datensatz, der etwa 15 Millionen Frage-Antwort-Paare umfasst, die durch mehrere Reinigungstechniken verarbeitet und mit einer neuartigen Dual-Level (kurz und lang) CoT-Anreicherungsstrategie verbessert wurden. Zweitens stellen wir HoneyPipe, die Datenkuratierungspipeline, und ihr zugrunde liegendes Framework DataStudio vor, das der Gemeinschaft eine transparente und anpassbare Methodik für die Datenkuratierung bietet, die über statische Datensatzveröffentlichungen hinausgeht. Schließlich trainieren wir, um unseren Datensatz und unsere Pipeline zu validieren, Bee-8B, ein 8B-Modell auf Honey-Data-15M. Experimente zeigen, dass Bee-8B einen neuen Stand der Technik (SOTA) für vollständig offene MLLMs etabliert und eine Leistung erzielt, die mit neueren semi-offenen Modellen wie InternVL3.5-8B wettbewerbsfähig ist und diese in einigen Fällen sogar übertrifft. Unsere Arbeit liefert der Gemeinschaft eine Reihe von grundlegenden Ressourcen, darunter: das Honey-Data-15M-Korpus; das Full-Stack-Suite bestehend aus HoneyPipe und DataStudio; Trainingsrezepte; ein Evaluationsharness; und die Modellgewichte. Diese Bemühungen zeigen, dass ein prinzipieller Fokus auf Datenqualität ein entscheidender Weg zur Entwicklung vollständig offener MLLMs ist, die mit ihren semi-offenen Gegenstücken hochgradig wettbewerbsfähig sind.
English
Fully open multimodal large language models (MLLMs) currently lag behind
proprietary counterparts, primarily due to a significant gap in data quality
for supervised fine-tuning (SFT). Existing open-source datasets are often
plagued by widespread noise and a critical deficit in complex reasoning data,
such as Chain-of-Thought (CoT), which hinders the development of advanced model
capabilities. Addressing these challenges, our work makes three primary
contributions. First, we introduce Honey-Data-15M, a new SFT dataset comprising
approximately 15 million QA pairs, processed through multiple cleaning
techniques and enhanced with a novel dual-level (short and long) CoT enrichment
strategy. Second, we introduce HoneyPipe, the data curation pipeline, and its
underlying framework DataStudio, providing the community with a transparent and
adaptable methodology for data curation that moves beyond static dataset
releases. Finally, to validate our dataset and pipeline, we train Bee-8B, an 8B
model on Honey-Data-15M. Experiments show that Bee-8B establishes a new
state-of-the-art (SOTA) for fully open MLLMs, achieving performance that is
competitive with, and in some cases surpasses, recent semi-open models such as
InternVL3.5-8B. Our work delivers to the community a suite of foundational
resources, including: the Honey-Data-15M corpus; the full-stack suite
comprising HoneyPipe and DataStudio; training recipes; an evaluation harness;
and the model weights. This effort demonstrates that a principled focus on data
quality is a key pathway to developing fully open MLLMs that are highly
competitive with their semi-open counterparts.