Rapporto Tecnico di Phi-4-reasoning-vision-15B

Abstract

Presentiamo Phi-4-reasoning-vision-15B, un modello di ragionamento multimodale compatto e open-weight, e condividiamo le motivazioni, le scelte progettuali, gli esperimenti e gli insegnamenti che hanno guidato il suo sviluppo. Il nostro obiettivo è fornire alla comunità di ricerca spunti pratici sulla costruzione di modelli di ragionamento multimodale più piccoli ed efficienti, e condividere il risultato di questi insegnamenti come un modello open-weight che eccelle in compiti comuni di visione e linguaggio, in particolare nel ragionamento scientifico e matematico e nella comprensione delle interfacce utente. I nostri contributi includono la dimostrazione che scelte architetturali accurate e una rigorosa cura dei dati consentono a modelli multimodali open-weight più piccoli di raggiungere prestazioni competitive con un consumo computazionale e un numero di token significativamente inferiori durante l'addestramento e l'inferenza. I miglioramenti più sostanziali derivano da un filtraggio sistematico, dalla correzione degli errori e dall'aumento sintetico dei dati, rafforzando il principio che la qualità dei dati rimane la leva primaria per le prestazioni del modello. Ablazioni sistematiche mostrano che encoder ad alta risoluzione e a risoluzione dinamica apportano miglioramenti consistenti, poiché una percezione accurata è un prerequisito per un ragionamento di alta qualità. Infine, un mix ibrido di dati di ragionamento e non-ragionamento, con token di modalità espliciti, consente a un singolo modello di fornire risposte dirette e rapide per compiti semplici e un ragionamento a catena di pensiero (chain-of-thought) per problemi complessi.

English

We present Phi-4-reasoning-vision-15B, a compact open-weight multimodal reasoning model, and share the motivations, design choices, experiments, and learnings that informed its development. Our goal is to contribute practical insight to the research community on building smaller, efficient multimodal reasoning models and to share the result of these learnings as an open-weight model that is good at common vision and language tasks and excels at scientific and mathematical reasoning and understanding user interfaces. Our contributions include demonstrating that careful architecture choices and rigorous data curation enable smaller, open-weight multimodal models to achieve competitive performance with significantly less training and inference-time compute and tokens. The most substantial improvements come from systematic filtering, error correction, and synthetic augmentation -- reinforcing that data quality remains the primary lever for model performance. Systematic ablations show that high-resolution, dynamic-resolution encoders yield consistent improvements, as accurate perception is a prerequisite for high-quality reasoning. Finally, a hybrid mix of reasoning and non-reasoning data with explicit mode tokens allows a single model to deliver fast direct answers for simpler tasks and chain-of-thought reasoning for complex problems.

Rapporto Tecnico di Phi-4-reasoning-vision-15B

Phi-4-reasoning-vision-15B Technical Report

Abstract

Support