ChatPaper.aiChatPaper

프로그래밍 비전으로 사고하기: 이미지와 함께 사고하는 통합적 관점을 향하여

Thinking with Programming Vision: Towards a Unified View for Thinking with Images

December 3, 2025
저자: Zirun Guo, Minjie Hong, Feng Zhang, Kai Jia, Tao Jin
cs.AI

초록

이미지를 통해 사고하는 다중모달 대규모 언어 모델(MLLMs)은 도구를 상호작용적으로 사용하여 시각적 입력을 추론할 수 있지만, 현재의 접근법은 실질적 필요성과 확장성이 제한된 소수의 도구 집합에 의존하는 경우가 많습니다. 본 연구에서는 먼저 중요하면서도 이전에 간과된 약점을 밝혀냅니다: 최첨단 MLLMs 조차도 단순한 방향 변화나 자연스러운 손상이 있는 이미지에서 성능이 현저히 저하되는 놀라울 정도의 취약성을 보여, 보다 강력한 도구 기반 추론의 필요성을 강조합니다. 이를 해결하기 위해 우리는 CodeVision을 제안합니다. 이는 모델이 고정된 도구 등록을 넘어서어 모든 이미지 연산을 호출하기 위한 범용 인터페이스로 코드를 생성하는 유연하고 확장 가능한 코드-아스-툴(code-as-tool) 프레임워크입니다. 우리는 두 단계 방법론을 사용하여 모델을 훈련시킵니다. 먼저 복잡한 다중 턴(multi-turn) 도구 구성 및 오류 복구를 위해 선별된 고품질 데이터셋에 대한 지도 미세 조정(SFT)으로 시작하고, 이후 전략적이고 효율적인 도구 사용을 장려하기 위해 새롭고 밀집된 프로세스 보상 함수를 활용한 강화 학습(RL)을 수행합니다. 이 연구를 촉진하기 위해 우리는 새로운 SFT 및 RL 데이터셋을 구축하고, 방향 변화에 대한 강건성과 다중 도구 추론을 엄격하게 평가하도록 설계된 새로운 도전적인 벤치마크 제품군을 소개합니다. Qwen2.5-VL 및 Qwen3-VL 시리즈에 대한 실험 결과, 우리의 접근 방식이 모델 성능을 크게 향상시키고 유연한 도구 구성, 효율적인 연쇄 실행, 런타임 피드백으로부터의 강건한 오류 복구와 같은 새로운 능력을 촉진함을 보여줍니다. 코드는 https://github.com/ByteDance-BandAI/CodeVision 에서 확인할 수 있습니다.
English
Multimodal large language models (MLLMs) that think with images can interactively use tools to reason about visual inputs, but current approaches often rely on a narrow set of tools with limited real-world necessity and scalability. In this work, we first reveal a critical and previously overlooked weakness: even state-of-the-art MLLMs are surprisingly brittle, showing significant performance degradation on images with simple orientation changes or natural corruptions, underscoring the need for more robust tool-based reasoning. To address this, we propose CodeVision, a flexible and scalable code-as-tool framework where the model generates code as a universal interface to invoke any image operation, moving beyond fixed tool registries. We train our model using a two-stage methodology, beginning with Supervised Fine-Tuning (SFT) on a high-quality dataset curated for complex, multi-turn tool composition and error recovery, followed by Reinforcement Learning (RL) with a novel and dense process reward function to encourage strategic and efficient tool use. To facilitate this research, we construct new SFT and RL datasets and introduce a challenging new benchmark suite designed to rigorously evaluate robustness to orientation changes and multi-tool reasoning. Experiments on Qwen2.5-VL and Qwen3-VL series show that our approach significantly improves model performance and fosters emergent capabilities such as flexible tool composition, efficient chained execution, and robust error recovery from runtime feedback. Code is available at https://github.com/ByteDance-BandAI/CodeVision.
PDF100December 5, 2025