ChatPaper.aiChatPaper

Bee: Высококачественный корпус и комплексный набор инструментов для раскрытия потенциала полностью открытых многоязыковых языковых моделей (MLLMs)

Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs

October 15, 2025
Авторы: Yi Zhang, Bolin Ni, Xin-Sheng Chen, Heng-Rui Zhang, Yongming Rao, Houwen Peng, Qinglin Lu, Han Hu, Meng-Hao Guo, Shi-Min Hu
cs.AI

Аннотация

Полностью открытые многомодальные большие языковые модели (MLLMs) в настоящее время отстают от проприетарных аналогов, что в первую очередь связано с существенным разрывом в качестве данных для контролируемой тонкой настройки (SFT). Существующие открытые наборы данных часто страдают от повсеместного шума и критического дефицита данных, связанных со сложными рассуждениями, такими как цепочка мыслей (Chain-of-Thought, CoT), что препятствует развитию продвинутых возможностей моделей. Решая эти проблемы, наша работа вносит три основных вклада. Во-первых, мы представляем Honey-Data-15M — новый набор данных для SFT, содержащий около 15 миллионов пар вопросов и ответов, обработанных с использованием нескольких методов очистки и дополненных новой стратегией обогащения CoT на двух уровнях (кратком и длинном). Во-вторых, мы представляем HoneyPipe — конвейер обработки данных и его базовую платформу DataStudio, предоставляя сообществу прозрачную и адаптируемую методологию обработки данных, выходящую за рамки статических выпусков наборов данных. Наконец, чтобы подтвердить эффективность нашего набора данных и конвейера, мы обучаем модель Bee-8B на основе Honey-Data-15M. Эксперименты показывают, что Bee-8B устанавливает новый эталонный уровень (SOTA) для полностью открытых MLLMs, демонстрируя производительность, которая конкурирует, а в некоторых случаях превосходит последние полуоткрытые модели, такие как InternVL3.5-8B. Наша работа предоставляет сообществу набор фундаментальных ресурсов, включая: корпус Honey-Data-15M; полный стек инструментов, состоящий из HoneyPipe и DataStudio; рецепты обучения; систему оценки; и веса модели. Этот проект демонстрирует, что принципиальный акцент на качестве данных является ключевым путем к разработке полностью открытых MLLMs, которые могут успешно конкурировать с полуоткрытыми аналогами.
English
Fully open multimodal large language models (MLLMs) currently lag behind proprietary counterparts, primarily due to a significant gap in data quality for supervised fine-tuning (SFT). Existing open-source datasets are often plagued by widespread noise and a critical deficit in complex reasoning data, such as Chain-of-Thought (CoT), which hinders the development of advanced model capabilities. Addressing these challenges, our work makes three primary contributions. First, we introduce Honey-Data-15M, a new SFT dataset comprising approximately 15 million QA pairs, processed through multiple cleaning techniques and enhanced with a novel dual-level (short and long) CoT enrichment strategy. Second, we introduce HoneyPipe, the data curation pipeline, and its underlying framework DataStudio, providing the community with a transparent and adaptable methodology for data curation that moves beyond static dataset releases. Finally, to validate our dataset and pipeline, we train Bee-8B, an 8B model on Honey-Data-15M. Experiments show that Bee-8B establishes a new state-of-the-art (SOTA) for fully open MLLMs, achieving performance that is competitive with, and in some cases surpasses, recent semi-open models such as InternVL3.5-8B. Our work delivers to the community a suite of foundational resources, including: the Honey-Data-15M corpus; the full-stack suite comprising HoneyPipe and DataStudio; training recipes; an evaluation harness; and the model weights. This effort demonstrates that a principled focus on data quality is a key pathway to developing fully open MLLMs that are highly competitive with their semi-open counterparts.
PDF472October 16, 2025