Relatório Técnico do Phi-4-reasoning-vision-15B

Resumo

Apresentamos o Phi-4-reasoning-vision-15B, um modelo de raciocínio multimodal compacto de pesos abertos, e compartilhamos as motivações, escolhas de projeto, experimentos e aprendizados que nortearam seu desenvolvimento. Nosso objetivo é contribuir com insights práticos para a comunidade de pesquisa sobre a construção de modelos de raciocínio multimodal menores e eficientes, e compartilhar o resultado desses aprendizados como um modelo de pesos abertos que se sai bem em tarefas comuns de visão e linguagem e se destaca no raciocínio e compreensão de interfaces de usuário em contextos científicos e matemáticos. Nossas contribuições incluem demonstrar que escolhas arquiteturais criteriosas e uma curadoria de dados rigorosa permitem que modelos multimodais menores e de pesos abertos atinjam desempenho competitivo com um consumo significativamente menor de computação e de *tokens* durante o treinamento e a inferência. As melhorias mais substanciais vêm da filtragem sistemática, correção de erros e aumento sintético de dados — reforçando que a qualidade dos dados permanece como a principal alavanca para o desempenho do modelo. Ablações sistemáticas mostram que codificadores de alta resolução e resolução dinâmica produzem melhorias consistentes, uma vez que a percepção precisa é um pré-requisito para um raciocínio de alta qualidade. Por fim, uma mistura híbrida de dados de raciocínio e não-raciocínio com *tokens* de modo explícito permite que um único modelo forneça respostas diretas e rápidas para tarefas mais simples e raciocínio em cadeia (*chain-of-thought*) para problemas complexos.

English

We present Phi-4-reasoning-vision-15B, a compact open-weight multimodal reasoning model, and share the motivations, design choices, experiments, and learnings that informed its development. Our goal is to contribute practical insight to the research community on building smaller, efficient multimodal reasoning models and to share the result of these learnings as an open-weight model that is good at common vision and language tasks and excels at scientific and mathematical reasoning and understanding user interfaces. Our contributions include demonstrating that careful architecture choices and rigorous data curation enable smaller, open-weight multimodal models to achieve competitive performance with significantly less training and inference-time compute and tokens. The most substantial improvements come from systematic filtering, error correction, and synthetic augmentation -- reinforcing that data quality remains the primary lever for model performance. Systematic ablations show that high-resolution, dynamic-resolution encoders yield consistent improvements, as accurate perception is a prerequisite for high-quality reasoning. Finally, a hybrid mix of reasoning and non-reasoning data with explicit mode tokens allows a single model to deliver fast direct answers for simpler tasks and chain-of-thought reasoning for complex problems.

Relatório Técnico do Phi-4-reasoning-vision-15B

Phi-4-reasoning-vision-15B Technical Report

Resumo

Support