RexBERT: Encoder Bidirezionali Specializzati per il Contesto nell'E-Commerce
RexBERT: Context Specialized Bidirectional Encoders for E-commerce
February 4, 2026
Autori: Rahul Bajaj, Anuj Garg
cs.AI
Abstract
I transformer di tipo encoder-only rimangono indispensabili nei sistemi di retrieval, classificazione e ranking dove latenza, stabilità e costo sono di primaria importanza. Tuttavia, la maggior parte degli encoder per scopi generici viene addestrata su corpora generici con una copertura limitata dei domini specializzati. Introduciamo RexBERT, una famiglia di encoder in stile BERT progettati specificamente per la semantica dell'e-commerce. Forniamo tre contributi. In primo luogo, rilasciamo Ecom-niverse, un corpus da 350 miliardi di token curato da diverse fonti di retail e shopping. Descriviamo una pipeline modulare che isola ed estrae contenuti di e-commerce da FineFineWeb e altre risorse web aperte, e caratterizziamo la distribuzione di dominio risultante. In secondo luogo, presentiamo una ricetta di pre-addestramento riproducibile che si basa sui progressi architetturali di ModernBERT. La ricetta consiste in tre fasi: pre-addestramento generale, estensione del contesto e specializzazione di dominio ricottata (annealed). In terzo luogo, addestriamo modelli RexBERT con parametri che vanno da 17M a 400M e li valutiamo su attività di classificazione di token, similarità semantica e comprensione del linguaggio naturale generale utilizzando dataset di e-commerce. Nonostante abbia da 2 a 3 volte meno parametri, RexBERT supera encoder general-purpose più grandi e uguaglia o supera modelli moderni a contesto lungo su benchmark di dominio specifico. I nostri risultati dimostrano che dati in-domain di alta qualità combinati con un approccio di addestramento basato su principi solidi forniscono una base più solida per le applicazioni di e-commerce rispetto al semplice scaling indiscriminato.
English
Encoder-only transformers remain indispensable in retrieval, classification, and ranking systems where latency, stability, and cost are paramount. Most general purpose encoders, however, are trained on generic corpora with limited coverage of specialized domains. We introduce RexBERT, a family of BERT-style encoders designed specifically for e-commerce semantics. We make three contributions. First, we release Ecom-niverse, a 350 billion token corpus curated from diverse retail and shopping sources. We describe a modular pipeline that isolates and extracts e-commerce content from FineFineWeb and other open web resources, and characterize the resulting domain distribution. Second, we present a reproducible pretraining recipe building on ModernBERT's architectural advances. The recipe consists of three phases: general pre-training, context extension, and annealed domain specialization. Third, we train RexBERT models ranging from 17M to 400M parameters and evaluate them on token classification, semantic similarity, and general natural language understanding tasks using e-commerce datasets. Despite having 2-3x fewer parameters, RexBERT outperforms larger general-purpose encoders and matches or surpasses modern long-context models on domain-specific benchmarks. Our results demonstrate that high quality in-domain data combined with a principled training approach provides a stronger foundation for e-commerce applications than indiscriminate scaling alone.