Мышление с помощью программирования зрения: к единому взгляду на мышление с помощью изображений

Аннотация

Мультимодальные большие языковые модели (MLLM), способные «мыслить» изображениями, могут интерактивно использовать инструменты для анализа визуальных данных. Однако современные подходы часто ограничиваются узким набором инструментов, обладающих недостаточной практической значимостью и масштабируемостью. В данной работе мы впервые выявляем ключевой и ранее игнорировавшийся недостаток: даже передовые MLLM демонстрируют удивительную хрупкость, показывая значительное снижение производительности на изображениях с простыми изменениями ориентации или естественными искажениями, что подчеркивает необходимость более надежного рассуждения на основе инструментов. Для решения этой проблемы мы предлагаем **CodeVision** — гибкую и масштабируемую структуру, где код используется как универсальный интерфейс для вызова любых операций с изображениями, выходя за рамки фиксированных реестров инструментов. Мы обучаем нашу модель с помощью двухэтапной методологии: начинаем с контролируемого тонкого настроения (SFT) на высококачественном наборе данных, созданном для сложной многошаговой композиции инструментов и восстановления после ошибок, а затем применяем обучение с подкреплением (RL) с новой плотной процессуальной функцией вознаграждения для поощрения стратегического и эффективного использования инструментов. Для содействия этим исследованиям мы создаем новые наборы данных для SFT и RL, а также представляем новый комплекс тестов, предназначенный для строгой оценки устойчивости к изменениям ориентации и рассуждений с использованием нескольких инструментов. Эксперименты на моделях серий Qwen2.5-VL и Qwen3-VL показывают, что наш подход значительно улучшает производительность модели и способствует появлению новых возможностей, таких как гибкая композиция инструментов, эффективное цепочечное выполнение и устойчивое восстановление после ошибок на основе обратной связи во время выполнения. Код доступен по адресу: https://github.com/ByteDance-BandAI/CodeVision.

English

Multimodal large language models (MLLMs) that think with images can interactively use tools to reason about visual inputs, but current approaches often rely on a narrow set of tools with limited real-world necessity and scalability. In this work, we first reveal a critical and previously overlooked weakness: even state-of-the-art MLLMs are surprisingly brittle, showing significant performance degradation on images with simple orientation changes or natural corruptions, underscoring the need for more robust tool-based reasoning. To address this, we propose CodeVision, a flexible and scalable code-as-tool framework where the model generates code as a universal interface to invoke any image operation, moving beyond fixed tool registries. We train our model using a two-stage methodology, beginning with Supervised Fine-Tuning (SFT) on a high-quality dataset curated for complex, multi-turn tool composition and error recovery, followed by Reinforcement Learning (RL) with a novel and dense process reward function to encourage strategic and efficient tool use. To facilitate this research, we construct new SFT and RL datasets and introduce a challenging new benchmark suite designed to rigorously evaluate robustness to orientation changes and multi-tool reasoning. Experiments on Qwen2.5-VL and Qwen3-VL series show that our approach significantly improves model performance and fosters emergent capabilities such as flexible tool composition, efficient chained execution, and robust error recovery from runtime feedback. Code is available at https://github.com/ByteDance-BandAI/CodeVision.

Мышление с помощью программирования зрения: к единому взгляду на мышление с помощью изображений

Thinking with Programming Vision: Towards a Unified View for Thinking with Images

Аннотация

Support