Piccolo2: 멀티태스크 하이브리드 손실 학습을 통한 일반 텍스트 임베딩
Piccolo2: General Text Embedding with Multi-task Hybrid Loss Training
May 11, 2024
저자: Junqin Huang, Zhongjie Hu, Zihao Jing, Mengya Gao, Yichao Wu
cs.AI
초록
본 보고서에서는 CMTEB 벤치마크의 6가지 과제에 대한 종합 평가에서 다른 모델들을 능가하며 새로운 최첨단 기술을 선보인 임베딩 모델 Piccolo2를 소개합니다. Piccolo2는 주로 효율적인 다중 과제 하이브리드 손실 훈련 방식을 활용하여 다양한 다운스트림 과제의 텍스트 데이터와 레이블을 효과적으로 활용합니다. 또한, Piccolo2는 임베딩 차원을 확장하고 MRL 훈련을 사용하여 더 유연한 벡터 차원을 지원합니다. Piccolo 모델의 최신 정보는 https://huggingface.co/sensenova/에서 확인할 수 있습니다.
English
In this report, we introduce Piccolo2, an embedding model that surpasses
other models in the comprehensive evaluation over 6 tasks on CMTEB benchmark,
setting a new state-of-the-art. Piccolo2 primarily leverages an efficient
multi-task hybrid loss training approach, effectively harnessing textual data
and labels from diverse downstream tasks. In addition, Piccolo2 scales up the
embedding dimension and uses MRL training to support more flexible vector
dimensions. The latest information of piccolo models can be accessed via:
https://huggingface.co/sensenova/Summary
AI-Generated Summary