시각-언어 모델의 시각적 인식 및 추론 능력 향상을 위한 에이전트 기반 조각 맞추기 상호작용 학습
Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models
October 1, 2025
저자: Yu Zeng, Wenxuan Huang, Shiting Huang, Xikun Bao, Yukun Qi, Yiming Zhao, Qiuchen Wang, Lin Chen, Zehui Chen, Huaian Chen, Wanli Ouyang, Feng Zhao
cs.AI
초록
현재의 대규모 시각-언어 모델(VLMs)은 다중모달 이해와 추론에서 진전을 이루었지만, 그들의 기본적인 지각 및 추론 능력은 여전히 제한적이다. 구체적으로, 간단한 직소 퍼즐 과제에서도 기존 VLMs는 거의 무작위에 가까운 성능을 보이며, 핵심 지각 및 추론 능력의 결함을 드러낸다. 고품질의 시각-언어 데이터는 이러한 능력을 향상시킬 수 있지만, 그 희소성과 확장성의 한계로 인해 상당한 제약이 따른다. 이를 해결하기 위해, 우리는 VLMs의 시각적 지각과 추론 능력을 강화하기 위한 상호작용 학습 기반 에이전트 직소 퍼즐 해결 방법인 AGILE을 제안한다. AGILE은 직소 퍼즐 해결을 상호작용 과정으로 공식화하여 모델이 점진적으로 환경과 상호작용할 수 있도록 한다. 각 단계에서 모델은 현재 상태를 기반으로 실행 가능한 코드를 생성하여 행동을 수행하고, 환경은 과제 완료를 안내하는 세밀한 시각적 피드백을 제공한다. 이러한 관찰과 상호작용의 반복적 사이클을 통해 모델은 탐색과 피드백을 통해 지각 및 추론 능력을 점진적으로 향상시킨다. 실험 결과, AGILE은 다양한 복잡도의 직소 퍼즐 과제에서 성능을 크게 향상시켰을 뿐만 아니라(예: 2x2 설정에서 정확도를 9.5%에서 82.8%로 증가), 9개의 일반 시각 과제에서도 강력한 일반화 능력을 보여 평균 3.1%의 개선을 달성했다. 이러한 결과는 지각 및 추론 능력 모두에서 주목할 만한 향상을 나타낸다. 이 연구는 다중모달 모델의 추론과 일반화를 발전시키는 새로운 길을 열고, 다중모달 강화 학습 데이터의 부족 문제에 대한 효율적이고 확장 가능한 해결책을 제공한다. 코드와 데이터셋은 https://github.com/yuzeng0-0/AGILE에서 확인할 수 있다.
English
Although current large Vision-Language Models (VLMs) have advanced in
multimodal understanding and reasoning, their fundamental perceptual and
reasoning abilities remain limited. Specifically, even on simple jigsaw tasks,
existing VLMs perform near randomly, revealing deficiencies in core perception
and reasoning capabilities. While high-quality vision-language data can enhance
these capabilities, its scarcity and limited scalability impose significant
constraints. To address this, we propose AGILE, an Agentic jiGsaw Interaction
Learning for Enhancing visual perception and reasoning in VLMs. AGILE
formulates jigsaw solving as an interactive process, enabling the model to
progressively engage with the environment. At each step, the model generates
executable code to perform an action based on the current state, while the
environment provides fine-grained visual feedback to guide task completion.
Through this iterative cycle of observation and interaction, the model
incrementally improves its perceptual and reasoning capabilities via
exploration and feedback. Experimental results show that AGILE not only
substantially boosts performance on jigsaw tasks of varying complexity (e.g.,
increasing accuracy from 9.5% to 82.8% under the 2 times 2 setting) but also
demonstrates strong generalization across 9 general vision tasks, achieving an
average improvement of 3.1%. These results indicate notable enhancements in
both perceptual and reasoning abilities. This work opens a new avenue for
advancing reasoning and generalization in multimodal models and provides an
efficient, scalable solution to the scarcity of multimodal reinforcement
learning data. The code and datasets is available at
https://github.com/yuzeng0-0/AGILE .