ChatPaper.aiChatPaper

# Informe Técnico de Phi-4-reasoning-vision-15B

Phi-4-reasoning-vision-15B Technical Report

March 4, 2026
Autores: Jyoti Aneja, Michael Harrison, Neel Joshi, Tyler LaBonte, John Langford, Eduardo Salinas
cs.AI

Resumen

Presentamos Phi-4-reasoning-vision-15B, un modelo de razonamiento multimodal compacto y de pesos abiertos, y compartimos las motivaciones, decisiones de diseño, experimentos y aprendizajes que guiaron su desarrollo. Nuestro objetivo es aportar información práctica a la comunidad investigadora sobre la construcción de modelos de razonamiento multimodal más pequeños y eficientes, y compartir el resultado de estos aprendizajes como un modelo de pesos abiertos que se desempeña bien en tareas comunes de visión y lenguaje, y sobresale en el razonamiento científico y matemático, así como en la comprensión de interfaces de usuario. Nuestras contribuciones incluyen demostrar que elecciones arquitectónicas cuidadosas y una rigurosa curación de datos permiten que modelos multimodales más pequeños y de pesos abiertos alcancen un rendimiento competitivo con un consumo significativamente menor de cómputo y de *tokens* tanto en el entrenamiento como en la inferencia. Las mejoras más sustanciales provienen del filtrado sistemático, la corrección de errores y la aumentación sintética de datos, lo que refuerza que la calidad de los datos sigue siendo el principal factor de influencia en el rendimiento del modelo. Las ablaciones sistemáticas muestran que los codificadores de alta resolución y resolución dinámica producen mejoras consistentes, ya que una percepción precisa es un requisito previo para un razonamiento de alta calidad. Finalmente, una mezcla híbrida de datos de razonamiento y no razonamiento, con *tokens* de modo explícitos, permite que un único modelo proporcione respuestas directas y rápidas para tareas más simples y un razonamiento de cadena de pensamiento (*chain-of-thought*) para problemas complejos.
English
We present Phi-4-reasoning-vision-15B, a compact open-weight multimodal reasoning model, and share the motivations, design choices, experiments, and learnings that informed its development. Our goal is to contribute practical insight to the research community on building smaller, efficient multimodal reasoning models and to share the result of these learnings as an open-weight model that is good at common vision and language tasks and excels at scientific and mathematical reasoning and understanding user interfaces. Our contributions include demonstrating that careful architecture choices and rigorous data curation enable smaller, open-weight multimodal models to achieve competitive performance with significantly less training and inference-time compute and tokens. The most substantial improvements come from systematic filtering, error correction, and synthetic augmentation -- reinforcing that data quality remains the primary lever for model performance. Systematic ablations show that high-resolution, dynamic-resolution encoders yield consistent improvements, as accurate perception is a prerequisite for high-quality reasoning. Finally, a hybrid mix of reasoning and non-reasoning data with explicit mode tokens allows a single model to deliver fast direct answers for simpler tasks and chain-of-thought reasoning for complex problems.
PDF141March 6, 2026