Informe técnico de Ling and Ring 2.6: Inteligencia agéntica eficiente e instantánea a escala de billones de parámetros

Resumen

La inteligencia agente eficiente y escalable requiere modelos que puedan ofrecer tanto respuestas de baja latencia como capacidades sólidas de razonamiento, manteniéndose prácticos para entrenar, servir e implementar. En este informe, presentamos Ling-2.6 y Ring-2.6, una familia de modelos diseñados para abordar este desafío a escala. Ling-2.6 está optimizado para la generación instantánea de respuestas y una alta capacidad por token de salida, mientras que Ring-2.6 está diseñado para un razonamiento más profundo y flujos de trabajo agente más avanzados. En lugar de entrenar desde cero, mejoramos el modelo base Ling-2.0 mediante preentrenamiento con migración arquitectónica y postentrenamiento a gran escala. Esta mejora se guía por un diseño conjunto unificado de la arquitectura del modelo, los objetivos de optimización, los sistemas de servicio y los entornos de entrenamiento agente, lo que permite mejoras tanto en la capacidad del modelo como en la eficiencia de implementación. A nivel arquitectónico, introducimos un diseño de atención lineal híbrida que integra Lightning Attention con MLA, mejorando la eficiencia del entrenamiento y la decodificación con contextos largos. Para mejorar aún más la eficiencia de los tokens, optimizamos la capacidad por token de salida mediante Cadena de Pensamiento Evolutiva, Optimización de Políticas de Unidades Lingüísticas, alineación de preferencias bidireccional y destilación de la respuesta correcta más corta. Para las capacidades agente, proponemos KPop, un marco de aprendizaje por refuerzo diseñado para apoyar el entrenamiento estable de Ring-2.6-1T en datos basados en entornos a gran escala. KPop mejora la eficiencia del entrenamiento mediante la programación asíncrona en codificación, búsqueda, uso de herramientas y ejecución de flujos de trabajo, permitiendo un aprendizaje escalable a partir de interacciones complejas agente-entorno. En conjunto, Ling-2.6 y Ring-2.6 proporcionan un camino práctico hacia sistemas agente eficientes, escalables y abiertos. Liberamos todos los puntos de control de la familia 2.6 como código abierto para apoyar la investigación y el desarrollo adicionales en inteligencia agente práctica.

English

Efficient and scalable agentic intelligence requires models that can deliver both low-latency responses and strong reasoning capabilities while remaining practical to train, serve, and deploy. In this report, we present Ling-2.6 and Ring-2.6, a family of models designed to address this challenge at scale. Ling-2.6 is optimized for instant response generation and high capability per output token, whereas Ring-2.6 is tailored for deeper reasoning and more advanced agentic workflows. Instead of training from scratch, we upgrade the Ling-2.0 base model through architectural migration pre-training and large-scale post-training. This upgrade is guided by a unified co-design of model architecture, optimization objectives, serving systems, and agent training environments, enabling improvements in both model capability and deployment efficiency. At the architectural level, we introduce a hybrid linear attention design that integrates Lightning Attention with MLA, improving the efficiency of long-context training and decoding. To further enhance token efficiency, we optimize capability per output token through Evolutionary Chain-of-Thought, Linguistic Unit Policy Optimization, bidirectional preference alignment, and shortest-correct-response distillation. For agentic capabilities, we propose KPop, a reinforcement learning framework designed to support stable training of Ring-2.6-1T on large-scale environment-grounded data. KPop improves training efficiency through asynchronous scheduling across coding, search, tool use, and workflow execution, enabling scalable learning from complex agent-environment interactions. Together, Ling-2.6 and Ring-2.6 provide a practical pathway toward efficient, scalable, and open agentic systems. We open-source all checkpoints in the 2.6 family to support further research and development in practical agentic intelligence.