ChatPaper.aiChatPaper

Apriel-1.5-15b-Thinker

Apriel-1.5-15b-Thinker

October 1, 2025
Авторы: Shruthan Radhakrishna, Aman Tiwari, Aanjaneya Shukla, Masoud Hashemi, Rishabh Maheshwary, Shiva Krishna Reddy Malay, Jash Mehta, Pulkit Pattnaik, Saloni Mittal, Khalil Slimi, Kelechi Ogueji, Akintunde Oladipo, Soham Parikh, Oluwanifemi Bamgbose, Toby Liang, Ahmed Masry, Khyati Mahajan, Sai Rajeswar Mudumba, Vikas Yadav, Sathwik Tejaswi Madhusudhan, Torsten Scholak, Sagar Davasam, Srinivas Sunkara, Nicholas Chapados
cs.AI

Аннотация

Мы представляем Apriel-1.5-15B-Thinker, 15-миллиардную модель с открытыми весами для мультимодального рассуждения, которая достигает передовых показателей благодаря продуманному дизайну обучения, а не просто масштабу. Начиная с Pixtral-12B, мы применяем прогрессивную трехэтапную методологию: (1) масштабирование глубины для расширения способности к рассуждению без предварительного обучения с нуля, (2) поэтапное непрерывное предварительное обучение, которое сначала развивает базовое понимание текста и изображений, а затем улучшает визуальное рассуждение за счет целенаправленной генерации синтетических данных, охватывающих пространственную структуру, композиционное понимание и детальное восприятие, и (3) высококачественная тонкая настройка только на текстовых данных с использованием курированных пар "инструкция-ответ", включающих явные траектории рассуждений в математике, программировании, науке и использовании инструментов. Примечательно, что наша модель достигает конкурентоспособных результатов без обучения с подкреплением или оптимизации предпочтений, что подчеркивает вклад нашего подхода, ориентированного на данные и непрерывное предварительное обучение. На Индексе Искусственного Интеллекта Artificial Analysis Apriel-1.5-15B-Thinker получает оценку 52, что соответствует результату DeepSeek-R1-0528, несмотря на значительно меньшие вычислительные ресурсы. На десяти бенчмарках для изображений её производительность в среднем находится в пределах пяти баллов от Gemini-2.5-Flash и Claude Sonnet-3.7, что является ключевым достижением для модели, работающей в условиях ограничений на развертывание с использованием одного GPU. Наши результаты демонстрируют, что продуманный дизайн обучения на промежуточных этапах может сократить значительные разрывы в возможностях без массивного масштабирования, делая передовые мультимодальные рассуждения доступными для организаций с ограниченной инфраструктурой. Мы публикуем контрольную точку модели, все рецепты обучения и протоколы оценки под лицензией MIT для продвижения исследований в области открытого исходного кода.
English
We present Apriel-1.5-15B-Thinker, a 15-billion parameter open-weights multimodal reasoning model that achieves frontier-level performance through training design rather than sheer scale. Starting from Pixtral-12B, we apply a progressive three-stage methodology: (1) depth upscaling to expand reasoning capacity without pretraining from scratch, (2) staged continual pre-training that first develops foundational text and vision understanding, then enhances visual reasoning through targeted synthetic data generation addressing spatial structure, compositional understanding, and fine-grained perception, and (3) high-quality text-only supervised fine-tuning on curated instruction-response pairs with explicit reasoning traces spanning mathematics, coding, science, and tool use. Notably, our model achieves competitive results without reinforcement learning or preference optimization, isolating the contribution of our data-centric continual pre-training approach. On the Artificial Analysis Intelligence Index, Apriel-1.5-15B-Thinker attains a score of 52, matching DeepSeek-R1-0528 despite requiring significantly fewer computational resources. Across ten image benchmarks, its performance is on average within five points of Gemini-2.5-Flash and Claude Sonnet-3.7, a key achievement for a model operating within single-GPU deployment constraints. Our results demonstrate that thoughtful mid-training 2 design can close substantial capability gaps without massive scale, making frontier-level multimodal reasoning accessible to organizations with limited infrastructure. We release the model checkpoint, all training recipes, and evaluation protocols under the MIT license to to advance open-source research.
PDF1054October 6, 2025