Apriel-1.5-15b-Pensador
Apriel-1.5-15b-Thinker
October 1, 2025
Autores: Shruthan Radhakrishna, Aman Tiwari, Aanjaneya Shukla, Masoud Hashemi, Rishabh Maheshwary, Shiva Krishna Reddy Malay, Jash Mehta, Pulkit Pattnaik, Saloni Mittal, Khalil Slimi, Kelechi Ogueji, Akintunde Oladipo, Soham Parikh, Oluwanifemi Bamgbose, Toby Liang, Ahmed Masry, Khyati Mahajan, Sai Rajeswar Mudumba, Vikas Yadav, Sathwik Tejaswi Madhusudhan, Torsten Scholak, Sagar Davasam, Srinivas Sunkara, Nicholas Chapados
cs.AI
Resumo
Apresentamos o Apriel-1.5-15B-Thinker, um modelo multimodal de raciocínio com 15 bilhões de parâmetros e pesos abertos, que alcança desempenho de ponta por meio de um design de treinamento cuidadoso, em vez de escala massiva. Partindo do Pixtral-12B, aplicamos uma metodologia progressiva em três estágios: (1) escalonamento de profundidade para expandir a capacidade de raciocínio sem pré-treinamento do zero, (2) pré-treinamento contínuo em etapas que primeiro desenvolve a compreensão básica de texto e visão, e depois aprimora o raciocínio visual por meio de geração direcionada de dados sintéticos, abordando estrutura espacial, compreensão composicional e percepção detalhada, e (3) ajuste fino supervisionado de alta qualidade apenas com texto, utilizando pares de instrução-resposta curados com traços explícitos de raciocínio abrangendo matemática, programação, ciência e uso de ferramentas. Notavelmente, nosso modelo alcança resultados competitivos sem aprendizado por reforço ou otimização de preferências, isolando a contribuição de nossa abordagem centrada em dados de pré-treinamento contínuo. No Índice de Inteligência Artificial da Artificial Analysis, o Apriel-1.5-15B-Thinker atinge uma pontuação de 52, igualando o DeepSeek-R1-0528, apesar de exigir significativamente menos recursos computacionais. Em dez benchmarks de imagem, seu desempenho está, em média, a cinco pontos do Gemini-2.5-Flash e do Claude Sonnet-3.7, uma conquista importante para um modelo operando dentro das restrições de implantação em GPU única. Nossos resultados demonstram que um design cuidadoso durante o treinamento pode reduzir lacunas substanciais de capacidade sem escala massiva, tornando o raciocínio multimodal de ponta acessível a organizações com infraestrutura limitada. Disponibilizamos o checkpoint do modelo, todas as receitas de treinamento e protocolos de avaliação sob a licença MIT para avançar a pesquisa de código aberto.
English
We present Apriel-1.5-15B-Thinker, a 15-billion parameter open-weights
multimodal reasoning model that achieves frontier-level performance through
training design rather than sheer scale. Starting from Pixtral-12B, we apply a
progressive three-stage methodology: (1) depth upscaling to expand reasoning
capacity without pretraining from scratch, (2) staged continual pre-training
that first develops foundational text and vision understanding, then enhances
visual reasoning through targeted synthetic data generation addressing spatial
structure, compositional understanding, and fine-grained perception, and (3)
high-quality text-only supervised fine-tuning on curated instruction-response
pairs with explicit reasoning traces spanning mathematics, coding, science, and
tool use. Notably, our model achieves competitive results without reinforcement
learning or preference optimization, isolating the contribution of our
data-centric continual pre-training approach. On the Artificial Analysis
Intelligence Index, Apriel-1.5-15B-Thinker attains a score of 52, matching
DeepSeek-R1-0528 despite requiring significantly fewer computational resources.
Across ten image benchmarks, its performance is on average within five points
of Gemini-2.5-Flash and Claude Sonnet-3.7, a key achievement for a model
operating within single-GPU deployment constraints. Our results demonstrate
that thoughtful mid-training 2 design can close substantial capability gaps
without massive scale, making frontier-level multimodal reasoning accessible to
organizations with limited infrastructure. We release the model checkpoint, all
training recipes, and evaluation protocols under the MIT license to to advance
open-source research.