BidirLM: De texto a codificadores bidireccionales omnimodales mediante la adaptación y composición de LLMs causales

Resumen

La transformación de modelos generativos causales de lenguaje en codificadores bidireccionales ofrece una alternativa potente a las arquitecturas estilo BERT. Sin embargo, los enfoques actuales siguen siendo limitados: carecen de consenso sobre los objetivos de entrenamiento óptimos, sufren de olvido catastrófico a escala y no logran integrar de manera flexible el vasto ecosistema de modelos generativos especializados. En este trabajo, mediante ablaciones sistemáticas en las familias Gemma3 y Qwen3, identificamos los factores clave que impulsan una adaptación exitosa, destacando el papel crítico de una fase de enmascaramiento previo a menudo omitida. Para escalar este proceso sin los datos originales de preentrenamiento, introducimos una estrategia dual que combina la fusión lineal de pesos con una mezcla de datos ligera de múltiples dominios que mitiga el olvido catastrófico. Finalmente, potenciamos nuestros codificadores fusionándolos con modelos causales especializados, transfiriendo de manera transparente capacidades específicas de modalidad y dominio. Esta receta de código abierto, diseñada para cualquier LLM decodificador causal, produce BidirLM, una familia de cinco codificadores que superan a las alternativas en benchmarks de representación de texto, visión y audio.

English

Transforming causal generative language models into bidirectional encoders offers a powerful alternative to BERT-style architectures. However, current approaches remain limited: they lack consensus on optimal training objectives, suffer from catastrophic forgetting at scale, and fail to flexibly integrate the vast ecosystem of specialized generative models. In this work, through systematic ablations on the Gemma3 and Qwen3 families, we identify the key factors driving successful adaptation, highlighting the critical role of an often-omitted prior masking phase. To scale this process without original pre-training data, we introduce a dual strategy combining linear weight merging with a lightweight multi-domain data mixture that mitigates catastrophic forgetting. Finally, we augment our encoders by merging them with specialized causal models, seamlessly transferring modality- and domain-specific capabilities. This open-source recipe, designed for any causal decoder LLM, yields BidirLM, a family of five encoders that outperform alternatives on text, vision, and audio representation benchmarks.

BidirLM: De texto a codificadores bidireccionales omnimodales mediante la adaptación y composición de LLMs causales

BidirLM: From Text to Omnimodal Bidirectional Encoders by Adapting and Composing Causal LLMs

Resumen

Support