RexBERT: Kontextspezialisierte bidirektionale Encoder für den E-Commerce
RexBERT: Context Specialized Bidirectional Encoders for E-commerce
February 4, 2026
papers.authors: Rahul Bajaj, Anuj Garg
cs.AI
papers.abstract
Encoder-only-Transformer bleiben unverzichtbar für Retrieval-, Klassifizierungs- und Ranking-Systeme, bei denen Latenz, Stabilität und Kosten entscheidend sind. Die meisten allgemeinen Encoder werden jedoch auf generischen Korpora trainiert, deren Abdeckung spezialisierter Domänen begrenzt ist. Wir stellen RexBERT vor, eine Familie von BERT-artigen Encodern, die speziell für E-Commerce-Semantik entwickelt wurde. Wir leisten drei Beiträge. Erstens veröffentlichen wir Ecom-niverse, einen Korpus mit 350 Milliarden Tokens, der aus diversen Einzelhandels- und Shopping-Quellen kuratiert wurde. Wir beschreiben eine modulare Pipeline, die E-Commerce-Inhalte aus FineFineWeb und anderen offenen Webressourcen isoliert und extrahiert, und charakterisieren die resultierende Domänenverteilung. Zweitens präsentieren wir ein reproduzierbares Vortrainierungsrezept, das auf den architektonischen Fortschritten von ModernBERT aufbaut. Das Rezept besteht aus drei Phasen: allgemeines Vortraining, Kontextverlängerung und temperierte Domänenspezialisierung. Drittens trainieren wir RexBERT-Modelle mit Parametergrößen von 17M bis 400M und evaluieren sie anhand von Token-Klassifizierung, semantischer Ähnlichkeit und allgemeinen Natural Language Understanding-Aufgaben mit E-Commerce-Datensätzen. Trotz 2-3 mal weniger Parameter übertrifft RexBERT größere allgemeine Encoder und erreicht oder übertrifft moderne Long-Context-Modelle in domänenspezifischen Benchmarks. Unsere Ergebnisse zeigen, dass hochwertige Domänendaten in Kombination mit einem prinzipienbasierten Trainingsansatz eine solidere Grundlage für E-Commerce-Anwendungen bieten als wahllose Skalierung allein.
English
Encoder-only transformers remain indispensable in retrieval, classification, and ranking systems where latency, stability, and cost are paramount. Most general purpose encoders, however, are trained on generic corpora with limited coverage of specialized domains. We introduce RexBERT, a family of BERT-style encoders designed specifically for e-commerce semantics. We make three contributions. First, we release Ecom-niverse, a 350 billion token corpus curated from diverse retail and shopping sources. We describe a modular pipeline that isolates and extracts e-commerce content from FineFineWeb and other open web resources, and characterize the resulting domain distribution. Second, we present a reproducible pretraining recipe building on ModernBERT's architectural advances. The recipe consists of three phases: general pre-training, context extension, and annealed domain specialization. Third, we train RexBERT models ranging from 17M to 400M parameters and evaluate them on token classification, semantic similarity, and general natural language understanding tasks using e-commerce datasets. Despite having 2-3x fewer parameters, RexBERT outperforms larger general-purpose encoders and matches or surpasses modern long-context models on domain-specific benchmarks. Our results demonstrate that high quality in-domain data combined with a principled training approach provides a stronger foundation for e-commerce applications than indiscriminate scaling alone.