ChatPaper.aiChatPaper

Bee: Un Corpus de Alta Calidad y un Conjunto Integral para Desbloquear Modelos de Lenguaje Multimodales (MLLMs) Totalmente Abiertos y Avanzados

Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs

October 15, 2025
Autores: Yi Zhang, Bolin Ni, Xin-Sheng Chen, Heng-Rui Zhang, Yongming Rao, Houwen Peng, Qinglin Lu, Han Hu, Meng-Hao Guo, Shi-Min Hu
cs.AI

Resumen

Los modelos de lenguaje multimodal de gran escala (MLLMs) completamente abiertos actualmente se encuentran rezagados en comparación con sus contrapartes propietarias, principalmente debido a una brecha significativa en la calidad de los datos para el ajuste fino supervisado (SFT). Los conjuntos de datos de código abierto existentes a menudo están plagados de ruido generalizado y un déficit crítico en datos de razonamiento complejo, como el Chain-of-Thought (CoT), lo que dificulta el desarrollo de capacidades avanzadas en los modelos. Para abordar estos desafíos, nuestro trabajo realiza tres contribuciones principales. En primer lugar, presentamos Honey-Data-15M, un nuevo conjunto de datos de SFT que comprende aproximadamente 15 millones de pares de preguntas y respuestas, procesados mediante múltiples técnicas de limpieza y enriquecidos con una novedosa estrategia de enriquecimiento de CoT de doble nivel (corto y largo). En segundo lugar, introducimos HoneyPipe, la pipeline de curación de datos, y su marco subyacente DataStudio, proporcionando a la comunidad una metodología transparente y adaptable para la curación de datos que va más allá de las liberaciones estáticas de conjuntos de datos. Finalmente, para validar nuestro conjunto de datos y pipeline, entrenamos Bee-8B, un modelo de 8B en Honey-Data-15M. Los experimentos muestran que Bee-8B establece un nuevo estado del arte (SOTA) para los MLLMs completamente abiertos, logrando un rendimiento que es competitivo y, en algunos casos, supera a modelos semiabiertos recientes como InternVL3.5-8B. Nuestro trabajo entrega a la comunidad un conjunto de recursos fundamentales, que incluyen: el corpus Honey-Data-15M; la suite completa que comprende HoneyPipe y DataStudio; recetas de entrenamiento; un sistema de evaluación; y los pesos del modelo. Este esfuerzo demuestra que un enfoque basado en principios sobre la calidad de los datos es una vía clave para desarrollar MLLMs completamente abiertos que sean altamente competitivos con sus contrapartes semiabiertas.
English
Fully open multimodal large language models (MLLMs) currently lag behind proprietary counterparts, primarily due to a significant gap in data quality for supervised fine-tuning (SFT). Existing open-source datasets are often plagued by widespread noise and a critical deficit in complex reasoning data, such as Chain-of-Thought (CoT), which hinders the development of advanced model capabilities. Addressing these challenges, our work makes three primary contributions. First, we introduce Honey-Data-15M, a new SFT dataset comprising approximately 15 million QA pairs, processed through multiple cleaning techniques and enhanced with a novel dual-level (short and long) CoT enrichment strategy. Second, we introduce HoneyPipe, the data curation pipeline, and its underlying framework DataStudio, providing the community with a transparent and adaptable methodology for data curation that moves beyond static dataset releases. Finally, to validate our dataset and pipeline, we train Bee-8B, an 8B model on Honey-Data-15M. Experiments show that Bee-8B establishes a new state-of-the-art (SOTA) for fully open MLLMs, achieving performance that is competitive with, and in some cases surpasses, recent semi-open models such as InternVL3.5-8B. Our work delivers to the community a suite of foundational resources, including: the Honey-Data-15M corpus; the full-stack suite comprising HoneyPipe and DataStudio; training recipes; an evaluation harness; and the model weights. This effort demonstrates that a principled focus on data quality is a key pathway to developing fully open MLLMs that are highly competitive with their semi-open counterparts.
PDF472October 16, 2025