RexBERT: 전자상거래 맞춤형 양방향 인코더
RexBERT: Context Specialized Bidirectional Encoders for E-commerce
February 4, 2026
저자: Rahul Bajaj, Anuj Garg
cs.AI
초록
인코더 전용 트랜스포머는 지연 시간, 안정성, 비용이 가장 중요한 검색, 분류, 순위 지정 시스템에서 여전히 필수적입니다. 그러나 대부분의 범용 인코더는 특수 분야의 Coverage가 제한적인 일반 코퍼스로 학습됩니다. 본 논문에서는 전자상거래 의미 체계에 특화되도록 설계된 BERT 스타일 인코더 패밀리인 RexBERT를 소개합니다. 우리는 세 가지 기여를 합니다. 첫째, 다양한 리테일 및 쇼핑 소스에서 선별된 3,500억 개의 토큰으로 구성된 코퍼스인 Ecom-niverse를 공개합니다. FineFineWeb 및 기타 오픈 웹 리소스에서 전자상거래 콘텐츠를 분리 및 추출하는 모듈형 파이프라인을 설명하고, 결과적인 도메인 분포를 특성화합니다. 둘째, ModernBERT의 구조적 발전을 기반으로 재현 가능한 사전 학습 방법을 제시합니다. 이 방법은 일반 사전 학습, 컨텍스트 확장, 어닐링 도메인 특화의 세 단계로 구성됩니다. 셋째, 17M에서 400M 매개변수에 이르는 RexBERT 모델을 학습하고, 전자상거래 데이터셋을 사용하여 토큰 분류, 의미적 유사성, 일반 자연어 이해 작업에서 이를 평가합니다. 매개변수 수가 2-3배 적음에도 불구하고, RexBERT는 더 큰 범용 인코더를 능가하며 도메인 특화 벤치마크에서 현대적인 장문 컨텍스트 모델과 동등하거나 더 나은 성능을 보입니다. 우리의 결과는 무분별한 규모 확장 alone보다 고품질의 도메인 내 데이터와 원칙에 입각한 학습 접근법의 결합이 전자상거래 애플리케이션에 더 강력한 기반을 제공함을 입증합니다.
English
Encoder-only transformers remain indispensable in retrieval, classification, and ranking systems where latency, stability, and cost are paramount. Most general purpose encoders, however, are trained on generic corpora with limited coverage of specialized domains. We introduce RexBERT, a family of BERT-style encoders designed specifically for e-commerce semantics. We make three contributions. First, we release Ecom-niverse, a 350 billion token corpus curated from diverse retail and shopping sources. We describe a modular pipeline that isolates and extracts e-commerce content from FineFineWeb and other open web resources, and characterize the resulting domain distribution. Second, we present a reproducible pretraining recipe building on ModernBERT's architectural advances. The recipe consists of three phases: general pre-training, context extension, and annealed domain specialization. Third, we train RexBERT models ranging from 17M to 400M parameters and evaluate them on token classification, semantic similarity, and general natural language understanding tasks using e-commerce datasets. Despite having 2-3x fewer parameters, RexBERT outperforms larger general-purpose encoders and matches or surpasses modern long-context models on domain-specific benchmarks. Our results demonstrate that high quality in-domain data combined with a principled training approach provides a stronger foundation for e-commerce applications than indiscriminate scaling alone.