EuroBERT: 유럽 언어를 위한 다국어 인코더 확장
EuroBERT: Scaling Multilingual Encoders for European Languages
March 7, 2025
저자: Nicolas Boizard, Hippolyte Gisserot-Boukhlef, Duarte M. Alves, André Martins, Ayoub Hammal, Caio Corro, Céline Hudelot, Emmanuel Malherbe, Etienne Malaboeuf, Fanny Jourdan, Gabriel Hautreux, João Alves, Kevin El-Haddad, Manuel Faysse, Maxime Peyrard, Nuno M. Guerreiro, Patrick Fernandes, Ricardo Rei, Pierre Colombo
cs.AI
초록
검색, 회귀, 분류 등에 사용되는 범용 다국어 벡터 표현은 전통적으로 양방향 인코더 모델에서 얻어집니다. 이러한 인코더 모델은 넓은 적용 범위를 가지고 있음에도 불구하고, 최근 생성형 디코더 전용 모델의 발전에 의해 그 빛이 다소 가려졌습니다. 그러나 이러한 발전을 이끈 많은 혁신들은 본질적으로 디코더에만 국한된 것은 아닙니다. 본 논문에서는 이러한 발전의 관점에서 다국어 인코더의 개발을 재조명하고, 유럽 및 세계적으로 널리 사용되는 언어를 포괄하는 다국어 인코더 패밀리인 EuroBERT를 소개합니다. 우리의 모델은 다국어 능력, 수학, 코딩 등 다양한 작업에서 기존 대안들을 능가하며, 최대 8,192 토큰 길이의 시퀀스를 기본적으로 지원합니다. 또한 EuroBERT의 설계 결정을 검토하며, 데이터셋 구성과 훈련 파이프라인에 대한 통찰을 제공합니다. 우리는 EuroBERT 모델을 공개하며, 중간 훈련 체크포인트와 함께 훈련 프레임워크도 함께 공개합니다.
English
General-purpose multilingual vector representations, used in retrieval,
regression and classification, are traditionally obtained from bidirectional
encoder models. Despite their wide applicability, encoders have been recently
overshadowed by advances in generative decoder-only models. However, many
innovations driving this progress are not inherently tied to decoders. In this
paper, we revisit the development of multilingual encoders through the lens of
these advances, and introduce EuroBERT, a family of multilingual encoders
covering European and widely spoken global languages. Our models outperform
existing alternatives across a diverse range of tasks, spanning multilingual
capabilities, mathematics, and coding, and natively supporting sequences of up
to 8,192 tokens. We also examine the design decisions behind EuroBERT, offering
insights into our dataset composition and training pipeline. We publicly
release the EuroBERT models, including intermediate training checkpoints,
together with our training framework.Summary
AI-Generated Summary