Phi-4-reasoning-vision-15B Technischer Bericht
Phi-4-reasoning-vision-15B Technical Report
March 4, 2026
Autoren: Jyoti Aneja, Michael Harrison, Neel Joshi, Tyler LaBonte, John Langford, Eduardo Salinas
cs.AI
Zusammenfassung
Wir stellen Phi-4-reasoning-vision-15B vor, ein kompaktes Open-Weight-Multimodal-Modell für schlussfolgerndes Denken, und teilen die Motivationen, Designentscheidungen, Experimente und Erkenntnisse, die seine Entwicklung geprägt haben. Unser Ziel ist es, der Forschungsgemeinschaft praktische Einblicke in die Entwicklung kleinerer, effizienter Multimodal-Modelle für schlussfolgerndes Denken zu bieten und das Ergebnis dieser Erkenntnisse als Open-Weight-Modell zu teilen, das sich bei allgemeinen Aufgaben zu Bild und Sprache gut eignet und bei wissenschaftlichem und mathematischem Denken sowie dem Verständnis von Benutzeroberflächen hervorsticht. Unsere Beiträge umfassen den Nachweis, dass sorgfältige Architekturentscheidungen und rigorose Datenkuratierung es kleineren Open-Weight-Multimodal-Modellen ermöglichen, eine wettbewerbsfähige Leistung mit deutlich weniger Rechenaufwand und Token während Training und Inferenz zu erzielen. Die bedeutendsten Verbesserungen ergeben sich aus systematischer Filterung, Fehlerkorrektur und synthetischer Augmentierung – was bekräftigt, dass die Datenqualität der primäre Hebel für die Modellleistung bleibt. Systematische Ablationen zeigen, dass Encoder mit hoher Auflösung und dynamischer Auflösung konsistente Verbesserungen bewirken, da eine genaue Wahrnehmung eine Voraussetzung für hochwertiges schlussfolgerndes Denken ist. Schließlich ermöglicht eine hybride Mischung aus Daten mit und ohne schlussfolgerndem Denken in Kombination mit expliziten Modus-Tokens, dass ein einzelnes Modell für einfachere Aufgaben schnelle direkte Antworten und für komplexe Probleme Denken in Gedankenketten (Chain-of-Thought) liefern kann.
English
We present Phi-4-reasoning-vision-15B, a compact open-weight multimodal reasoning model, and share the motivations, design choices, experiments, and learnings that informed its development. Our goal is to contribute practical insight to the research community on building smaller, efficient multimodal reasoning models and to share the result of these learnings as an open-weight model that is good at common vision and language tasks and excels at scientific and mathematical reasoning and understanding user interfaces. Our contributions include demonstrating that careful architecture choices and rigorous data curation enable smaller, open-weight multimodal models to achieve competitive performance with significantly less training and inference-time compute and tokens. The most substantial improvements come from systematic filtering, error correction, and synthetic augmentation -- reinforcing that data quality remains the primary lever for model performance. Systematic ablations show that high-resolution, dynamic-resolution encoders yield consistent improvements, as accurate perception is a prerequisite for high-quality reasoning. Finally, a hybrid mix of reasoning and non-reasoning data with explicit mode tokens allows a single model to deliver fast direct answers for simpler tasks and chain-of-thought reasoning for complex problems.