Apriel-Reasoner: Обучение с подкреплением для пост-обработки в целях создания универсальных и эффективных систем логического вывода

Аннотация

Создание моделей общего назначения для логических рассуждений с использованием обучения с подкреплением и верифицируемыми вознаграждениями (RLVR) в различных областях широко применяется передовыми открытыми моделями. Однако их рецепты обучения и комбинации доменов часто не раскрываются. Совместная оптимизация по нескольким доменам создает значительные трудности: домены сильно различаются по длине генерации, сложности задач и эффективности использования данных. Кроме того, модели с длинными цепочками рассуждений увеличивают стоимость и задержку вывода, что делает эффективность критически важной для практического развертывания. Мы представляем Apriel-Reasoner, обученную с помощью полностью воспроизводимого рецепта пост-обучения RL на многодоменных данных на основе модели Apriel-Base (открытая LLM с 15 млрд параметров) в пяти доменах с использованием публичных наборов данных: математика, генерация кода, выполнение инструкций, логические головоломки и вызов функций. Мы вводим механизм адаптивной выборки доменов, который сохраняет целевые пропорции доменов несмотря на неоднородную динамику генерации, и расширение стандартного штрафа за длину с учетом сложности, которое без дополнительных вычислительных затрат поощряет длинные рассуждения для сложных задач и короткие — для простых. Обученная со строгим лимитом в 16K токенов на вывод, модель Apriel-Reasoner обобщается до 32K токенов при инференсе и превосходит Apriel-Base на benchmarks AIME 2025, GPQA, MMLU-Pro и LiveCodeBench, генерируя при этом на 30-50% более короткие цепочки рассуждений. Она достигает результатов сильных открытых моделей сравнимого размера при меньших затратах токенов, продвигая тем самым Парето-границу точности и токенного бюджета.

English

Building general-purpose reasoning models using reinforcement learning with verifiable rewards (RLVR) across diverse domains has been widely adopted by frontier open-weight models. However, their training recipes and domain mixtures are often not disclosed. Joint optimization across domains poses significant challenges: domains vary widely in rollout length, problem difficulty and sample efficiency. Further, models with long chain-of-thought traces increase inference cost and latency, making efficiency critical for practical deployment. We present Apriel-Reasoner, trained with a fully reproducible multi-domain RL post-training recipe on Apriel-Base, a 15B-parameter open-weight LLM, across five domains using public datasets: mathematics, code generation, instruction following, logical puzzles and function calling. We introduce an adaptive domain sampling mechanism that preserves target domain ratios despite heterogeneous rollout dynamics, and a difficulty-aware extension of the standard length penalty that, with no additional training overhead, encourages longer reasoning for difficult problems and shorter traces for easy ones. Trained with a strict 16K-token output budget, Apriel-Reasoner generalizes to 32K tokens at inference and improves over Apriel-Base on AIME 2025, GPQA, MMLU-Pro, and LiveCodeBench while producing 30-50% shorter reasoning traces. It matches strong open-weight models of similar size at lower token cost, thereby pushing the Pareto frontier of accuracy versus token budget.

Apriel-Reasoner: Обучение с подкреплением для пост-обработки в целях создания универсальных и эффективных систем логического вывода

Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning

Аннотация

Support