ChatPaper.aiChatPaper

RexBERT: Eコマース向け文脈特化型双方向エンコーダー

RexBERT: Context Specialized Bidirectional Encoders for E-commerce

February 4, 2026
著者: Rahul Bajaj, Anuj Garg
cs.AI

要旨

エンコーダのみのトランスフォーマーは、レイテンシ、安定性、コストが最優先される検索、分類、ランキングシステムにおいて不可欠な存在であり続けています。しかし、汎用エンコーダの多くは、専門領域の網羅性が限られた一般的なコーパスで学習されています。本稿では、Eコマースのセマンティクスに特化して設計されたBERTスタイルのエンコーダファミリーであるRexBERTを提案します。主な貢献は三つあります。第一に、多様な小売・ショッピング関連ソースから収集した3500億トークンのコーパス「Ecom-niverse」を公開します。FineWebなどのオープンなウェブリソースからEコマースコンテンツを分離・抽出するモジュール式パイプラインと、結果として得られるドメイン分布の特性について説明します。第二に、ModernBERTのアーキテクチャ進歩を基盤とした再現可能な事前学習レシピを提示します。このレシピは、汎用事前学習、コンテキスト拡張、アニーリング型ドメイン特化の3段階から構成されます。第三に、1700万から4億パラメータまでのRexBERTモデルを学習し、Eコマースデータセットを用いたトークン分類、セマンティック類似度、一般的な自然言語理解タスクで評価します。パラメータ数が2~3倍少ないにもかかわらず、RexBERTはより大規模な汎用エンコーダを上回り、ドメイン特化型ベンチマークでは最新の長文脈モデルに匹敵、あるいは凌駕する性能を示しました。我々の結果は、高品質なドメイン内データと原理に基づいた学習アプローチの組み合わせが、無差別なスケーリング単独よりも、Eコマースアプリケーションにとってより強固な基盤を提供することを実証しています。
English
Encoder-only transformers remain indispensable in retrieval, classification, and ranking systems where latency, stability, and cost are paramount. Most general purpose encoders, however, are trained on generic corpora with limited coverage of specialized domains. We introduce RexBERT, a family of BERT-style encoders designed specifically for e-commerce semantics. We make three contributions. First, we release Ecom-niverse, a 350 billion token corpus curated from diverse retail and shopping sources. We describe a modular pipeline that isolates and extracts e-commerce content from FineFineWeb and other open web resources, and characterize the resulting domain distribution. Second, we present a reproducible pretraining recipe building on ModernBERT's architectural advances. The recipe consists of three phases: general pre-training, context extension, and annealed domain specialization. Third, we train RexBERT models ranging from 17M to 400M parameters and evaluate them on token classification, semantic similarity, and general natural language understanding tasks using e-commerce datasets. Despite having 2-3x fewer parameters, RexBERT outperforms larger general-purpose encoders and matches or surpasses modern long-context models on domain-specific benchmarks. Our results demonstrate that high quality in-domain data combined with a principled training approach provides a stronger foundation for e-commerce applications than indiscriminate scaling alone.
PDF11February 6, 2026