ChatPaper.aiChatPaper

RexBERT: Codificadores Bidirecionais Especializados em Contexto para E-commerce

RexBERT: Context Specialized Bidirectional Encoders for E-commerce

February 4, 2026
Autores: Rahul Bajaj, Anuj Garg
cs.AI

Resumo

Os transformadores apenas com codificador continuam indispensáveis em sistemas de recuperação, classificação e ranqueamento onde latência, estabilidade e custo são primordiais. Contudo, a maioria dos codificadores de propósito geral é treinada em corpora genéricos com cobertura limitada de domínios especializados. Apresentamos o RexBERT, uma família de codificadores no estilo BERT projetada especificamente para semântica de comércio eletrônico. Realizamos três contribuições. Primeiro, disponibilizamos o Ecom-niverse, um corpus de 350 bilhões de tokens curado a partir de diversas fontes de varejo e compras. Descrevemos um pipeline modular que isola e extrai conteúdo de e-commerce do FineFineWeb e de outros recursos web abertos, e caracterizamos a distribuição de domínio resultante. Segundo, apresentamos uma receita reprodutível de pré-treinamento baseada nos avanços arquiteturais do ModernBERT. A receita consiste em três fases: pré-treinamento geral, extensão de contexto e especialização de domínio com recozimento. Terceiro, treinamos modelos RexBERT variando de 17M a 400M de parâmetros e os avaliamos em tarefas de classificação de tokens, similaridade semântica e compreensão geral de linguagem natural usando conjuntos de dados de e-commerce. Apesar de ter 2-3 vezes menos parâmetros, o RexBERT supera codificadores de propósito geral maiores e iguala ou ultrapassa modelos modernos de contexto longo em benchmarks de domínio específico. Nossos resultados demonstram que dados de alta qualidade dentro do domínio, combinados com uma abordagem de treinamento fundamentada, fornecem uma base mais sólida para aplicações de e-commerce do que o simples escalonamento indiscriminado.
English
Encoder-only transformers remain indispensable in retrieval, classification, and ranking systems where latency, stability, and cost are paramount. Most general purpose encoders, however, are trained on generic corpora with limited coverage of specialized domains. We introduce RexBERT, a family of BERT-style encoders designed specifically for e-commerce semantics. We make three contributions. First, we release Ecom-niverse, a 350 billion token corpus curated from diverse retail and shopping sources. We describe a modular pipeline that isolates and extracts e-commerce content from FineFineWeb and other open web resources, and characterize the resulting domain distribution. Second, we present a reproducible pretraining recipe building on ModernBERT's architectural advances. The recipe consists of three phases: general pre-training, context extension, and annealed domain specialization. Third, we train RexBERT models ranging from 17M to 400M parameters and evaluate them on token classification, semantic similarity, and general natural language understanding tasks using e-commerce datasets. Despite having 2-3x fewer parameters, RexBERT outperforms larger general-purpose encoders and matches or surpasses modern long-context models on domain-specific benchmarks. Our results demonstrate that high quality in-domain data combined with a principled training approach provides a stronger foundation for e-commerce applications than indiscriminate scaling alone.
PDF11February 6, 2026