Phi-4-reasoning-vision-15B Technisch Rapport
Phi-4-reasoning-vision-15B Technical Report
March 4, 2026
Auteurs: Jyoti Aneja, Michael Harrison, Neel Joshi, Tyler LaBonte, John Langford, Eduardo Salinas
cs.AI
Samenvatting
Wij presenteren Phi-4-reasoning-vision-15B, een compact open-weight multimodaal redeneermodel, en delen de motivaties, ontwerpkeuzes, experimenten en inzichten die de ontwikkeling ervan hebben gevormd. Ons doel is om praktische inzichten bij te dragen aan de onderzoeksgemeenschap over het bouwen van kleinere, efficiënte multimodale redeneermodellen en om de resultaten van deze inzichten te delen als een open-weight model dat goed presteert in algemene visuele en taaltaakstellingen en uitblinkt in wetenschappelijk en wiskundig redeneren en het begrijpen van gebruikersinterfaces. Onze bijdragen omvatten het aantonen dat zorgvuldige architectuurkeuzes en rigoureuze datacuratie kleinere, open-weight multimodale modellen in staat stellen om competitieve prestaties te leveren met aanzienlijk minder rekenkracht en tokens tijdens training en inferentie. De grootste verbeteringen komen van systematische filtering, foutcorrectie en synthetische augmentatie – wat bevestigt dat data-kwaliteit de belangrijkste hefboom voor modelprestaties blijft. Systematische ablatiestudies tonen aan dat encoders met hoge resolutie en dynamische resolutie tot consistente verbeteringen leiden, aangezien accurate perceptie een voorwaarde is voor hoogwaardig redeneren. Ten slotte stelt een hybride mix van redeneer- en niet-redeneerdata met expliciete modus-tokens een enkel model in staat om snelle directe antwoorden te geven voor eenvoudigere taken en chain-of-thought-redenering toe te passen voor complexe problemen.
English
We present Phi-4-reasoning-vision-15B, a compact open-weight multimodal reasoning model, and share the motivations, design choices, experiments, and learnings that informed its development. Our goal is to contribute practical insight to the research community on building smaller, efficient multimodal reasoning models and to share the result of these learnings as an open-weight model that is good at common vision and language tasks and excels at scientific and mathematical reasoning and understanding user interfaces. Our contributions include demonstrating that careful architecture choices and rigorous data curation enable smaller, open-weight multimodal models to achieve competitive performance with significantly less training and inference-time compute and tokens. The most substantial improvements come from systematic filtering, error correction, and synthetic augmentation -- reinforcing that data quality remains the primary lever for model performance. Systematic ablations show that high-resolution, dynamic-resolution encoders yield consistent improvements, as accurate perception is a prerequisite for high-quality reasoning. Finally, a hybrid mix of reasoning and non-reasoning data with explicit mode tokens allows a single model to deliver fast direct answers for simpler tasks and chain-of-thought reasoning for complex problems.