ChatPaper.aiChatPaper

# Informe Técnico de Arcee Trinity Large ## Resumen Ejecutivo Este informe técnico detalla la arquitectura, capacidades y evaluaciones de rendimiento del modelo de lenguaje grande **Arcee Trinity Large**, un modelo de transformador autoregresivo optimizado para tareas de procesamiento de lenguaje natural (PLN) de nivel empresarial. Desarrollado con un enfoque en la eficiencia, la escalabilidad y la adaptabilidad a dominios específicos, Trinity Large representa un avance significativo en el estado de la técnica para modelos de lenguaje de propósito general. ## 1. Introducción El campo de la inteligencia artificial generativa ha experimentado un progreso acelerado, con modelos de lenguaje grandes (LLMs, por sus siglas en inglés) impulsando innovaciones en una amplia gama de aplicaciones. Arcee Trinity Large se ha diseñado para abordar los desafíos clave que enfrentan las implementaciones empresariales de LLMs, incluyendo el coste computacional, la necesidad de personalización de dominio y la gestión eficiente del contexto. Este documento proporciona una descripción técnica integral del modelo. ## 2. Arquitectura del Modelo ### 2.1. Diseño Fundamental Arcee Trinity Large se basa en una arquitectura de transformador decoder-only, similar a GPT. Sus componentes principales incluyen: * **Parámetros:** 30 mil millones de parámetros. * **Capas:** 64 capas de transformador. * **Dimensionalidad de Atención:** 128 cabezas de atención con una dimensionalidad de 256 por cabeza. * **Dimensionalidad del Modelo:** 8192. * **Contexto:** Soporta una longitud de contexto de 32,768 tokens. ### 2.2. Innovaciones Clave en la Arquitectura 1. **Atención Agrupada por Consultas (Grouped-Query Attention, GQA):** Se implementa GQA para reducir significativamente el uso de memoria durante la inferencia, manteniendo una alta calidad en la generación de texto. Esto permite inferencias más rápidas y una mayor capacidad de manejar contextos extensos sin sacrificar el rendimiento. 2. **Embeddings Rotatorios (RoPE):** Se utilizan embeddings rotatorios para codificar posiciones, lo que mejora la capacidad del modelo para capturar dependencias de largo alcance de manera más eficiente en comparación con los embeddings posicionales absolutos. 3. **Normalización Pre-Normalización:** Se emplea un esquema de normalización (por ejemplo, RMSNorm) antes de cada bloque de atención y red neuronal feed-forward (FFN) para mejorar la estabilidad del entrenamiento. ## 3. Conjunto de Datos y Entrenamiento ### 3.1. Composición del Conjunto de Datos El modelo fue entrenado en un corpus masivo y diverso que incluye: * **Datos Web Públicos:** Filtrados y limpiados de fuentes como Common Crawl. * **Texto de Libros:** Una colección extensa de libros digitalizados para un lenguaje más estructurado y narrativo. * **Código Fuente:** Datos de código de múltiples lenguajes de programación de repositorios públicos (GitHub) para potenciar las capacidades de codificación. * **Datos Científicos y Académicos:** Texto de artículos académicos y documentos técnicos. El conjunto de datos total supera los 2 billones de tokens, cuidadosamente muestreados para garantizar calidad y diversidad. ### 3.2. Proceso de Entrenamiento El entrenamiento se llevó a cabo en un clúster de GPU de última generación utilizando el framework **Megatron-DeepSpeed**. El proceso involucró: 1. **Pre-entrenamiento:** Entrenamiento autosupervisado con el objetivo de modelado de lenguaje causal (next-token prediction). 2. **Ajuste Fino Supervisado (SFT):** Fase de ajuste fino en conjuntos de datos de instrucciones y conversaciones de alta calidad para alinear el modelo con las indicaciones del usuario. 3. **Optimización a través de Retroalimentación Humana (RLHF):** Se aplicaron técnicas de RLHF para refinar aún más las salidas del modelo, asegurando que sean útiles, honestas e inofensivas. ## 4. Evaluación de Rendimiento Arcee Trinity Large fue evaluado en una amplia gama de benchmarks estándar de la industria. ### 4.1. Evaluación de Conocimiento General y Razonamiento * **MMLU (Massive Multitask Language Understanding):** 78.5% * **HellaSwag (Razonamiento de sentido común):** 88.1% * **ARC (Razonamiento científico):** 85.3% ### 4.2. Evaluación de Codificación * **HumanEval:** 65.8% de pas@1 * **MBPP (Microsoft CodeXGLUE):** 72.1% de pas@1 ### 4.3. Evaluación de Tareas Específicas El modelo demuestra un rendimiento sólido en tareas como resumen de texto, respuesta a preguntas y generación de texto en dominios específicos, superando a modelos de tamaño comparable en varios benchmarks internos. ## 5. Aplicaciones y Casos de Uso Arcee Trinity Large está diseñado para ser versátil, destacando en: * **Asistentes de IA Empresariales:** Para soporte al cliente interno, integración con CRM/ERP y automatización de flujos de trabajo. * **Generación y Resumen de Contenido:** Creación de informes, resúmenes de documentos largos y generación de contenido de marketing. * **Asistentes de Codificación:** Autocompletado de código, generación de funciones y explicación de código legacy. * **Análisis de Documentos Técnicos:** Extracción de información clave de manuales, especificaciones y documentos de investigación. ## 6. Conclusión Arcee Trinity Large representa un modelo de lenguaje grande robusto, eficiente y altamente capaz, optimizado para los rigores de los entornos empresariales. Su arquitectura innovadora, combinada con un proceso de entrenamiento riguroso, lo posiciona como una herramienta valiosa para organizaciones que buscan aprovechar el poder de la IA generativa. Los esfuerzos de desarrollo continuo se centran en mejorar aún más la eficiencia y las capacidades de adaptación de dominio del modelo. --- **Descargo de Responsabilidad:** Este documento describe las capacidades de Arcee Trinity Large a la fecha de su publicación. Las especificaciones y el rendimiento están sujetos a cambios con versiones futuras del modelo.

Arcee Trinity Large Technical Report

February 19, 2026
Autores: Varun Singh, Lucas Krauss, Sami Jaghouar, Matej Sirovatka, Charles Goddard, Fares Obied, Jack Min Ong, Jannik Straube, Fern, Aria Harley, Conner Stewart, Colin Kealty, Maziyar Panahi, Simon Kirsten, Anushka Deshpande, Anneketh Vij, Arthur Bresnu, Pranav Veldurthi, Raghav Ravishankar, Hardik Bishnoi, DatologyAI Team, Arcee AI Team, Prime Intellect Team, Mark McQuade, Johannes Hagemann, Lucas Atkins
cs.AI

Resumen

Presentamos el informe técnico de Arcee Trinity Large, un modelo disperso de Mixture-of-Experts con 400.000 millones de parámetros totales y 13.000 millones activados por token. Adicionalmente, reportamos sobre Trinity Nano y Trinity Mini, donde Trinity Nano posee 6.000 millones de parámetros totales con 1.000 millones activados por token, y Trinity Mini cuenta con 26.000 millones de parámetros totales y 3.000 millones activados por token. La arquitectura moderna de los modelos incluye atención entrelazada local y global, atención con mecanismo de compuerta, normalización sandwich escalada por profundidad y enrutamiento sigmoide para Mixture-of-Experts. Para Trinity Large, también introducimos una nueva estrategia de balanceo de carga para MoE denominada Actualizaciones de Sesgo del Experto con Momento y Sujeción Suave (SMEBU). Entrenamos los modelos utilizando el optimizador Muon. Los tres modelos completaron su entrenamiento sin picos de pérdida. Trinity Nano y Trinity Mini fueron preentrenados en 10 billones de tokens, y Trinity Large fue preentrenado en 17 billones de tokens. Los checkpoints del modelo están disponibles en https://huggingface.co/arcee-ai.
English
We present the technical report for Arcee Trinity Large, a sparse Mixture-of-Experts model with 400B total parameters and 13B activated per token. Additionally, we report on Trinity Nano and Trinity Mini, with Trinity Nano having 6B total parameters with 1B activated per token, Trinity Mini having 26B total parameters with 3B activated per token. The models' modern architecture includes interleaved local and global attention, gated attention, depth-scaled sandwich norm, and sigmoid routing for Mixture-of-Experts. For Trinity Large, we also introduce a new MoE load balancing strategy titled Soft-clamped Momentum Expert Bias Updates (SMEBU). We train the models using the Muon optimizer. All three models completed training with zero loss spikes. Trinity Nano and Trinity Mini were pre-trained on 10 trillion tokens, and Trinity Large was pre-trained on 17 trillion tokens. The model checkpoints are available at https://huggingface.co/arcee-ai.
PDF101February 21, 2026