ChatPaper.aiChatPaper

Bee: Un Corpus di Alta Qualità e una Suite Completa per Sbloccare Modelli di Apprendimento Automatico Multilingue Avanzati e Completamente Aperti

Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs

October 15, 2025
Autori: Yi Zhang, Bolin Ni, Xin-Sheng Chen, Heng-Rui Zhang, Yongming Rao, Houwen Peng, Qinglin Lu, Han Hu, Meng-Hao Guo, Shi-Min Hu
cs.AI

Abstract

I modelli linguistici multimodali (MLLM) completamente open attualmente sono in ritardo rispetto alle controparti proprietarie, principalmente a causa di un significativo divario nella qualità dei dati per il fine-tuning supervisionato (SFT). I dataset open-source esistenti sono spesso afflitti da un rumore diffuso e da un deficit critico nei dati di ragionamento complesso, come il Chain-of-Thought (CoT), che ostacola lo sviluppo di capacità avanzate dei modelli. Affrontando queste sfide, il nostro lavoro apporta tre contributi principali. In primo luogo, introduciamo Honey-Data-15M, un nuovo dataset SFT composto da circa 15 milioni di coppie domanda-risposta, elaborato attraverso molteplici tecniche di pulizia e arricchito con una nuova strategia di arricchimento CoT a doppio livello (breve e lungo). In secondo luogo, introduciamo HoneyPipe, la pipeline di curatela dei dati, e il suo framework sottostante DataStudio, fornendo alla comunità una metodologia trasparente e adattabile per la curatela dei dati che va oltre il semplice rilascio di dataset statici. Infine, per validare il nostro dataset e la pipeline, addestriamo Bee-8B, un modello da 8B su Honey-Data-15M. Gli esperimenti mostrano che Bee-8B stabilisce un nuovo stato dell'arte (SOTA) per gli MLLM completamente open, raggiungendo prestazioni competitive e, in alcuni casi, superiori rispetto ai recenti modelli semi-open come InternVL3.5-8B. Il nostro lavoro fornisce alla comunità una suite di risorse fondamentali, tra cui: il corpus Honey-Data-15M; la suite completa che comprende HoneyPipe e DataStudio; ricette di addestramento; un sistema di valutazione; e i pesi del modello. Questo sforzo dimostra che un focus principiato sulla qualità dei dati è una via chiave per sviluppare MLLM completamente open altamente competitivi rispetto alle loro controparti semi-open.
English
Fully open multimodal large language models (MLLMs) currently lag behind proprietary counterparts, primarily due to a significant gap in data quality for supervised fine-tuning (SFT). Existing open-source datasets are often plagued by widespread noise and a critical deficit in complex reasoning data, such as Chain-of-Thought (CoT), which hinders the development of advanced model capabilities. Addressing these challenges, our work makes three primary contributions. First, we introduce Honey-Data-15M, a new SFT dataset comprising approximately 15 million QA pairs, processed through multiple cleaning techniques and enhanced with a novel dual-level (short and long) CoT enrichment strategy. Second, we introduce HoneyPipe, the data curation pipeline, and its underlying framework DataStudio, providing the community with a transparent and adaptable methodology for data curation that moves beyond static dataset releases. Finally, to validate our dataset and pipeline, we train Bee-8B, an 8B model on Honey-Data-15M. Experiments show that Bee-8B establishes a new state-of-the-art (SOTA) for fully open MLLMs, achieving performance that is competitive with, and in some cases surpasses, recent semi-open models such as InternVL3.5-8B. Our work delivers to the community a suite of foundational resources, including: the Honey-Data-15M corpus; the full-stack suite comprising HoneyPipe and DataStudio; training recipes; an evaluation harness; and the model weights. This effort demonstrates that a principled focus on data quality is a key pathway to developing fully open MLLMs that are highly competitive with their semi-open counterparts.
PDF472October 16, 2025