Rapport Technique de Phi-4-reasoning-vision-15B

Résumé

Nous présentons Phi-4-reasoning-vision-15B, un modèle de raisonnement multimodal compact à poids ouvert, et partageons les motivations, les choix de conception, les expériences et les enseignements qui ont guidé son développement. Notre objectif est d'apporter un éclairage pratique à la communauté scientifique sur la construction de modèles de raisonnement multimodaux plus petits et efficaces, et de partager le fruit de ces apprentissages sous la forme d'un modèle à poids ouvert qui performe bien sur les tâches courantes de vision et de langage, et qui excelle dans le raisonnement scientifique et mathématique ainsi que dans la compréhension des interfaces utilisateur. Nos contributions incluent la démonstration que des choix architecturaux minutieux et une curation rigoureuse des données permettent à des modèles multimodaux ouverts plus petits d'atteindre des performances compétitives avec une consommation de calcul et de tokens significativement moindre lors de l'entraînement et de l'inférence. Les améliorations les plus substantielles proviennent d'un filtrage systématique, d'une correction des erreurs et d'une augmentation synthétique des données, confirmant ainsi que la qualité des données reste le principal levier de performance des modèles. Des ablations systématiques montrent que des encodeurs à haute résolution et à résolution dynamique apportent des améliorations constantes, car une perception précise est un prérequis pour un raisonnement de haute qualité. Enfin, un mélange hybride de données de raisonnement et de non-raisonnement, associé à des jetons de mode explicites, permet à un modèle unique de fournir des réponses directes rapides pour les tâches simples et un raisonnement en chaîne de pensée pour les problèmes complexes.

English

We present Phi-4-reasoning-vision-15B, a compact open-weight multimodal reasoning model, and share the motivations, design choices, experiments, and learnings that informed its development. Our goal is to contribute practical insight to the research community on building smaller, efficient multimodal reasoning models and to share the result of these learnings as an open-weight model that is good at common vision and language tasks and excels at scientific and mathematical reasoning and understanding user interfaces. Our contributions include demonstrating that careful architecture choices and rigorous data curation enable smaller, open-weight multimodal models to achieve competitive performance with significantly less training and inference-time compute and tokens. The most substantial improvements come from systematic filtering, error correction, and synthetic augmentation -- reinforcing that data quality remains the primary lever for model performance. Systematic ablations show that high-resolution, dynamic-resolution encoders yield consistent improvements, as accurate perception is a prerequisite for high-quality reasoning. Finally, a hybrid mix of reasoning and non-reasoning data with explicit mode tokens allows a single model to deliver fast direct answers for simpler tasks and chain-of-thought reasoning for complex problems.

Rapport Technique de Phi-4-reasoning-vision-15B

Phi-4-reasoning-vision-15B Technical Report

Résumé

Support