ChatPaper.aiChatPaper

Apriel-1.5-15b-Pensador

Apriel-1.5-15b-Thinker

October 1, 2025
Autores: Shruthan Radhakrishna, Aman Tiwari, Aanjaneya Shukla, Masoud Hashemi, Rishabh Maheshwary, Shiva Krishna Reddy Malay, Jash Mehta, Pulkit Pattnaik, Saloni Mittal, Khalil Slimi, Kelechi Ogueji, Akintunde Oladipo, Soham Parikh, Oluwanifemi Bamgbose, Toby Liang, Ahmed Masry, Khyati Mahajan, Sai Rajeswar Mudumba, Vikas Yadav, Sathwik Tejaswi Madhusudhan, Torsten Scholak, Sagar Davasam, Srinivas Sunkara, Nicholas Chapados
cs.AI

Resumo

Apresentamos o Apriel-1.5-15B-Thinker, um modelo multimodal de raciocínio com 15 bilhões de parâmetros e pesos abertos, que alcança desempenho de ponta por meio de um design de treinamento cuidadoso, em vez de escala massiva. Partindo do Pixtral-12B, aplicamos uma metodologia progressiva em três estágios: (1) escalonamento de profundidade para expandir a capacidade de raciocínio sem pré-treinamento do zero, (2) pré-treinamento contínuo em etapas que primeiro desenvolve a compreensão básica de texto e visão, e depois aprimora o raciocínio visual por meio de geração direcionada de dados sintéticos, abordando estrutura espacial, compreensão composicional e percepção detalhada, e (3) ajuste fino supervisionado de alta qualidade apenas com texto, utilizando pares de instrução-resposta curados com traços explícitos de raciocínio abrangendo matemática, programação, ciência e uso de ferramentas. Notavelmente, nosso modelo alcança resultados competitivos sem aprendizado por reforço ou otimização de preferências, isolando a contribuição de nossa abordagem centrada em dados de pré-treinamento contínuo. No Índice de Inteligência Artificial da Artificial Analysis, o Apriel-1.5-15B-Thinker atinge uma pontuação de 52, igualando o DeepSeek-R1-0528, apesar de exigir significativamente menos recursos computacionais. Em dez benchmarks de imagem, seu desempenho está, em média, a cinco pontos do Gemini-2.5-Flash e do Claude Sonnet-3.7, uma conquista importante para um modelo operando dentro das restrições de implantação em GPU única. Nossos resultados demonstram que um design cuidadoso durante o treinamento pode reduzir lacunas substanciais de capacidade sem escala massiva, tornando o raciocínio multimodal de ponta acessível a organizações com infraestrutura limitada. Disponibilizamos o checkpoint do modelo, todas as receitas de treinamento e protocolos de avaliação sob a licença MIT para avançar a pesquisa de código aberto.
English
We present Apriel-1.5-15B-Thinker, a 15-billion parameter open-weights multimodal reasoning model that achieves frontier-level performance through training design rather than sheer scale. Starting from Pixtral-12B, we apply a progressive three-stage methodology: (1) depth upscaling to expand reasoning capacity without pretraining from scratch, (2) staged continual pre-training that first develops foundational text and vision understanding, then enhances visual reasoning through targeted synthetic data generation addressing spatial structure, compositional understanding, and fine-grained perception, and (3) high-quality text-only supervised fine-tuning on curated instruction-response pairs with explicit reasoning traces spanning mathematics, coding, science, and tool use. Notably, our model achieves competitive results without reinforcement learning or preference optimization, isolating the contribution of our data-centric continual pre-training approach. On the Artificial Analysis Intelligence Index, Apriel-1.5-15B-Thinker attains a score of 52, matching DeepSeek-R1-0528 despite requiring significantly fewer computational resources. Across ten image benchmarks, its performance is on average within five points of Gemini-2.5-Flash and Claude Sonnet-3.7, a key achievement for a model operating within single-GPU deployment constraints. Our results demonstrate that thoughtful mid-training 2 design can close substantial capability gaps without massive scale, making frontier-level multimodal reasoning accessible to organizations with limited infrastructure. We release the model checkpoint, all training recipes, and evaluation protocols under the MIT license to to advance open-source research.
PDF1105October 6, 2025