Bee: 고품질 코퍼스와 풀스택 스위트를 통한 고급 완전 개방형 MLLM의 잠금 해제
Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs
October 15, 2025
저자: Yi Zhang, Bolin Ni, Xin-Sheng Chen, Heng-Rui Zhang, Yongming Rao, Houwen Peng, Qinglin Lu, Han Hu, Meng-Hao Guo, Shi-Min Hu
cs.AI
초록
완전 개방형 다중모달 대형 언어 모델(MLLMs)은 현재 독점 모델에 비해 뒤처져 있으며, 이는 주로 지도 미세 조정(SFT)을 위한 데이터 품질의 상당한 격차 때문입니다. 기존의 오픈소스 데이터셋은 널리 퍼진 노이즈와 체인 오브 사고(CoT)와 같은 복잡한 추론 데이터의 심각한 부족으로 인해 고급 모델 능력의 개발이 저해되고 있습니다. 이러한 문제를 해결하기 위해, 본 연구는 세 가지 주요 기여를 합니다. 첫째, 약 1,500만 개의 질문-답변 쌍으로 구성된 새로운 SFT 데이터셋인 Honey-Data-15M을 소개합니다. 이 데이터셋은 여러 정제 기술을 통해 처리되었으며, 새로운 이중 수준(짧은 및 긴) CoT 강화 전략으로 보강되었습니다. 둘째, 데이터 큐레이션 파이프라인인 HoneyPipe과 그 기반 프레임워크인 DataStudio를 소개하여, 정적 데이터셋 릴리스를 넘어서는 투명하고 적응 가능한 데이터 큐레이션 방법론을 커뮤니티에 제공합니다. 마지막으로, 우리의 데이터셋과 파이프라인을 검증하기 위해 Honey-Data-15M으로 학습된 8B 모델인 Bee-8B을 학습시킵니다. 실험 결과, Bee-8B은 완전 개방형 MLLMs의 새로운 최첨단(SOTA) 성능을 달성하며, 최근의 반개방형 모델인 InternVL3.5-8B와 경쟁적이고 경우에 따라 이를 능가하는 성능을 보여줍니다. 본 연구는 커뮤니티에 Honey-Data-15M 코퍼스, HoneyPipe과 DataStudio를 포함한 풀스택 제품군, 학습 레시피, 평가 도구, 모델 가중치 등 일련의 기초 자원을 제공합니다. 이 작업은 데이터 품질에 대한 원칙적인 초점이 반개방형 모델과 경쟁력 있는 완전 개방형 MLLMs를 개발하는 핵심 경로임을 입증합니다.
English
Fully open multimodal large language models (MLLMs) currently lag behind
proprietary counterparts, primarily due to a significant gap in data quality
for supervised fine-tuning (SFT). Existing open-source datasets are often
plagued by widespread noise and a critical deficit in complex reasoning data,
such as Chain-of-Thought (CoT), which hinders the development of advanced model
capabilities. Addressing these challenges, our work makes three primary
contributions. First, we introduce Honey-Data-15M, a new SFT dataset comprising
approximately 15 million QA pairs, processed through multiple cleaning
techniques and enhanced with a novel dual-level (short and long) CoT enrichment
strategy. Second, we introduce HoneyPipe, the data curation pipeline, and its
underlying framework DataStudio, providing the community with a transparent and
adaptable methodology for data curation that moves beyond static dataset
releases. Finally, to validate our dataset and pipeline, we train Bee-8B, an 8B
model on Honey-Data-15M. Experiments show that Bee-8B establishes a new
state-of-the-art (SOTA) for fully open MLLMs, achieving performance that is
competitive with, and in some cases surpasses, recent semi-open models such as
InternVL3.5-8B. Our work delivers to the community a suite of foundational
resources, including: the Honey-Data-15M corpus; the full-stack suite
comprising HoneyPipe and DataStudio; training recipes; an evaluation harness;
and the model weights. This effort demonstrates that a principled focus on data
quality is a key pathway to developing fully open MLLMs that are highly
competitive with their semi-open counterparts.