Технический отчет по модели Phi-4-reasoning-vision-15B

Аннотация

Мы представляем Phi-4-reasoning-vision-15B — компактную модель с открытыми весами для мультимодальных рассуждений — и делимся мотивацией, проектными решениями, экспериментами и выводами, которые легли в основу её разработки. Наша цель — предоставить научному сообществу практические инсайты о создании более компактных и эффективных моделей для мультимодальных рассуждений, а также открыть веса модели, которая хорошо справляется с типичными задачами компьютерного зрения и обработки естественного языка и превосходно решает научные и математические задачи, а также понимает пользовательские интерфейсы. Наш вклад включает демонстрацию того, что тщательный выбор архитектуры и строгий отбор данных позволяют компактным мультимодальным моделям с открытыми весами достигать конкурентоспособных результатов при значительно меньших вычислительных затратах и количестве токенов на этапах обучения и вывода. Наиболее значительные улучшения достигаются за счёт систематической фильтрации, исправления ошибок и синтетического расширения данных — это подтверждает, что качество данных остаётся ключевым фактором производительности модели. Систематические ablation-исследования показывают, что использование высокоразрешающих энкодеров с динамическим разрешением даёт стабильное улучшение, поскольку точное восприятие является обязательным условием для качественных рассуждений. Наконец, гибридное смешение данных с рассуждениями и без них, совместно с явными токенами режимов, позволяет одной модели предоставлять быстрые прямые ответы для простых задач и применять цепочку рассуждений (chain-of-thought) для сложных проблем.

English

We present Phi-4-reasoning-vision-15B, a compact open-weight multimodal reasoning model, and share the motivations, design choices, experiments, and learnings that informed its development. Our goal is to contribute practical insight to the research community on building smaller, efficient multimodal reasoning models and to share the result of these learnings as an open-weight model that is good at common vision and language tasks and excels at scientific and mathematical reasoning and understanding user interfaces. Our contributions include demonstrating that careful architecture choices and rigorous data curation enable smaller, open-weight multimodal models to achieve competitive performance with significantly less training and inference-time compute and tokens. The most substantial improvements come from systematic filtering, error correction, and synthetic augmentation -- reinforcing that data quality remains the primary lever for model performance. Systematic ablations show that high-resolution, dynamic-resolution encoders yield consistent improvements, as accurate perception is a prerequisite for high-quality reasoning. Finally, a hybrid mix of reasoning and non-reasoning data with explicit mode tokens allows a single model to deliver fast direct answers for simpler tasks and chain-of-thought reasoning for complex problems.

Технический отчет по модели Phi-4-reasoning-vision-15B

Phi-4-reasoning-vision-15B Technical Report

Аннотация

Support