Bee: Um Corpus de Alta Qualidade e um Conjunto Completo de Ferramentas para Desbloquear MLLMs Totalmente Abertos e Avançados
Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs
October 15, 2025
Autores: Yi Zhang, Bolin Ni, Xin-Sheng Chen, Heng-Rui Zhang, Yongming Rao, Houwen Peng, Qinglin Lu, Han Hu, Meng-Hao Guo, Shi-Min Hu
cs.AI
Resumo
Modelos de linguagem multimodal totalmente abertos (MLLMs) atualmente ficam atrás de suas contrapartes proprietárias, principalmente devido a uma lacuna significativa na qualidade dos dados para ajuste fino supervisionado (SFT). Os conjuntos de dados de código aberto existentes frequentemente sofrem com ruído generalizado e uma deficiência crítica em dados de raciocínio complexo, como Chain-of-Thought (CoT), o que dificulta o desenvolvimento de capacidades avançadas dos modelos. Para enfrentar esses desafios, nosso trabalho faz três contribuições principais. Primeiro, introduzimos o Honey-Data-15M, um novo conjunto de dados SFT composto por aproximadamente 15 milhões de pares de perguntas e respostas, processados por meio de múltiplas técnicas de limpeza e aprimorados com uma nova estratégia de enriquecimento CoT de dois níveis (curto e longo). Segundo, apresentamos o HoneyPipe, o pipeline de curadoria de dados, e sua estrutura subjacente, o DataStudio, fornecendo à comunidade uma metodologia transparente e adaptável para curadoria de dados que vai além de lançamentos estáticos de conjuntos de dados. Por fim, para validar nosso conjunto de dados e pipeline, treinamos o Bee-8B, um modelo de 8B no Honey-Data-15M. Experimentos mostram que o Bee-8B estabelece um novo estado da arte (SOTA) para MLLMs totalmente abertos, alcançando desempenho competitivo e, em alguns casos, superando modelos semi-abertos recentes, como o InternVL3.5-8B. Nosso trabalho entrega à comunidade um conjunto de recursos fundamentais, incluindo: o corpus Honey-Data-15M; o pacote completo composto por HoneyPipe e DataStudio; receitas de treinamento; um conjunto de avaliação; e os pesos do modelo. Esse esforço demonstra que um foco principiado na qualidade dos dados é um caminho essencial para desenvolver MLLMs totalmente abertos altamente competitivos com suas contrapartes semi-abertas.
English
Fully open multimodal large language models (MLLMs) currently lag behind
proprietary counterparts, primarily due to a significant gap in data quality
for supervised fine-tuning (SFT). Existing open-source datasets are often
plagued by widespread noise and a critical deficit in complex reasoning data,
such as Chain-of-Thought (CoT), which hinders the development of advanced model
capabilities. Addressing these challenges, our work makes three primary
contributions. First, we introduce Honey-Data-15M, a new SFT dataset comprising
approximately 15 million QA pairs, processed through multiple cleaning
techniques and enhanced with a novel dual-level (short and long) CoT enrichment
strategy. Second, we introduce HoneyPipe, the data curation pipeline, and its
underlying framework DataStudio, providing the community with a transparent and
adaptable methodology for data curation that moves beyond static dataset
releases. Finally, to validate our dataset and pipeline, we train Bee-8B, an 8B
model on Honey-Data-15M. Experiments show that Bee-8B establishes a new
state-of-the-art (SOTA) for fully open MLLMs, achieving performance that is
competitive with, and in some cases surpasses, recent semi-open models such as
InternVL3.5-8B. Our work delivers to the community a suite of foundational
resources, including: the Honey-Data-15M corpus; the full-stack suite
comprising HoneyPipe and DataStudio; training recipes; an evaluation harness;
and the model weights. This effort demonstrates that a principled focus on data
quality is a key pathway to developing fully open MLLMs that are highly
competitive with their semi-open counterparts.