# Phi-4-reasoning-vision-15B 기술 보고서
Phi-4-reasoning-vision-15B Technical Report
March 4, 2026
저자: Jyoti Aneja, Michael Harrison, Neel Joshi, Tyler LaBonte, John Langford, Eduardo Salinas
cs.AI
초록
Phi-4-reasoning-vision-15B는 소규모 오픈 가중치 멀티모달 추론 모델로서, 본 논문은 해당 모델의 개발 동기, 설계 선택, 실험 결과 및 개발 과정에서 얻은 교훈을 공유합니다. 우리의 목표는 보다 작고 효율적인 멀티모달 추론 모델 구축에 관한 실용적인 통찰력을 연구 커뮤니티에 제공하고, 이러한 교훈의 결과물을 일반적인 시각 및 언어 작업에 능하며 과학/수학적 추론 및 사용자 인터페이스 이해에 탁월한 오픈 가중치 모델로 공개하는 것입니다. 우리의 핵심 기여는 신중한 아키텍처 선택과 엄격한 데이터 큐레이션을 통해 더 작은 규모의 오픈 가중치 멀티모달 모델이 훨씬 적은 학습 및 추론 단계의 컴퓨팅 자원과 토큰으로도 경쟁력 있는 성능을 달성할 수 있음을 입증한 데 있습니다. 가장 큰 성능 향상은 체계적인 필터링, 오류 수정 및 합성 데이터 증강에서 비롯되었으며, 이는 데이터 품질이 여전히 모델 성능의 주된 결정 요인임을 재확인시켜 줍니다. 체계적인 애블레이션 실험을 통해 고해상도 및 동적 해상도 인코더가 지속적인 성능 향상을 가져옴을 확인했는데, 이는 정확한 인식이 고품질 추론의 필수 조건이기 때문입니다. 마지막으로, 추론 데이터와 비추론 데이터를 명시적 모드 토큰과 함께 혼합하여 학습하면 단일 모델이 간단한 작업에 대해서는 빠른 직접 응답을, 복잡한 문제에 대해서는 사고 사슬(Chain-of-Thought) 추론을 모두 제공할 수 있게 됩니다.
English
We present Phi-4-reasoning-vision-15B, a compact open-weight multimodal reasoning model, and share the motivations, design choices, experiments, and learnings that informed its development. Our goal is to contribute practical insight to the research community on building smaller, efficient multimodal reasoning models and to share the result of these learnings as an open-weight model that is good at common vision and language tasks and excels at scientific and mathematical reasoning and understanding user interfaces. Our contributions include demonstrating that careful architecture choices and rigorous data curation enable smaller, open-weight multimodal models to achieve competitive performance with significantly less training and inference-time compute and tokens. The most substantial improvements come from systematic filtering, error correction, and synthetic augmentation -- reinforcing that data quality remains the primary lever for model performance. Systematic ablations show that high-resolution, dynamic-resolution encoders yield consistent improvements, as accurate perception is a prerequisite for high-quality reasoning. Finally, a hybrid mix of reasoning and non-reasoning data with explicit mode tokens allows a single model to deliver fast direct answers for simpler tasks and chain-of-thought reasoning for complex problems.