Каждое внимание имеет значение: эффективная гибридная архитектура для рассуждений в длинных контекстах

Аннотация

В данном техническом отчете мы представляем серию моделей Ring-linear, включая конкретно Ring-mini-linear-2.0 и Ring-flash-linear-2.0. Ring-mini-linear-2.0 состоит из 16 миллиардов параметров и 957 миллионов активаций, тогда как Ring-flash-linear-2.0 содержит 104 миллиарда параметров и 6,1 миллиарда активаций. Обе модели используют гибридную архитектуру, которая эффективно интегрирует линейное внимание и внимание с использованием softmax, значительно снижая накладные расходы на ввод-вывод и вычисления в сценариях вывода с длинным контекстом. По сравнению с плотной моделью на 32 миллиарда параметров, данная серия снижает стоимость вывода до 1/10, а по сравнению с оригинальной серией Ring стоимость также снижена более чем на 50%. Более того, благодаря систематическому исследованию соотношения различных механизмов внимания в гибридной архитектуре, мы определили оптимальную на данный момент структуру модели. Дополнительно, за счет использования нашей собственной высокопроизводительной библиотеки операторов FP8 — linghe, общая эффективность обучения повышена на 50%. Благодаря высокой согласованности операторов движка обучения и вывода, модели могут проходить долгосрочную, стабильную и высокоэффективную оптимизацию на этапе обучения с подкреплением, сохраняя стабильно передовые результаты (SOTA) на множестве сложных тестовых наборов для проверки рассуждений.

English

In this technical report, we present the Ring-linear model series, specifically including Ring-mini-linear-2.0 and Ring-flash-linear-2.0. Ring-mini-linear-2.0 comprises 16B parameters and 957M activations, while Ring-flash-linear-2.0 contains 104B parameters and 6.1B activations. Both models adopt a hybrid architecture that effectively integrates linear attention and softmax attention, significantly reducing I/O and computational overhead in long-context inference scenarios. Compared to a 32 billion parameter dense model, this series reduces inference cost to 1/10, and compared to the original Ring series, the cost is also reduced by over 50%. Furthermore, through systematic exploration of the ratio between different attention mechanisms in the hybrid architecture, we have identified the currently optimal model structure. Additionally, by leveraging our self-developed high-performance FP8 operator library-linghe, overall training efficiency has been improved by 50%. Benefiting from the high alignment between the training and inference engine operators, the models can undergo long-term, stable, and highly efficient optimization during the reinforcement learning phase, consistently maintaining SOTA performance across multiple challenging complex reasoning benchmarks.