CPPO: 시각 언어 정책 최적화를 위한 대조적 인지
CPPO: Contrastive Perception for Vision Language Policy Optimization
January 1, 2026
저자: Ahmad Rezaei, Mohsen Gholami, Saeed Ranjbar Alvar, Kevin Cannons, Mohammad Asiful Hossain, Zhou Weimin, Shunbo Zhou, Yong Zhang, Mohammad Akbari
cs.AI
초록
본 논문에서는 시각-언어 모델(VLM) 미세 조정을 위한 대조적 인지 정책 최적화(CPPO) 방법을 소개한다. 강화 학습(RL)이 언어 모델의 추론 능력을 발전시켜 왔으나, 이를 다중 모달 추론으로 확장하기 위해서는 인지와 추론 두 측면을 모두 개선해야 한다. 기존 연구들은 주로 명시적인 인지 보상을 통해 이 문제를 해결하려 했으나, 인지 토큰과 추론 토큰을 분리하는 것은 어려워 추가적인 대형 언어 모델(LLM)이나 정답 데이터가 필요하거나, 정책 모델이 인지와 추론을 강제로 분리하게 하거나, 모든 출력 토큰에 무분별하게 보상을 적용해야 하는 한계가 있었다. CPPO는 왜곡된 입력 이미지에서 모델 출력의 엔트로피 변화를 통해 인지 토큰을 탐지함으로써 이 문제를 해결한다. CPPO는 RL 목적 함수를 대조적 인지 손실(CPL)로 확장하여, 정보 보존 왜곡 하에서는 일관성을 유지하고 정보 제거 왜곡 하에서는 민감하게 반응하도록 한다. 실험 결과 CPPO는 추가 모델 없이도 기존 인지 보상 방법들을 능가하며, 더 효율적이고 확장성 있는 학습이 가능함을 보여준다.
English
We introduce CPPO, a Contrastive Perception Policy Optimization method for finetuning vision-language models (VLMs). While reinforcement learning (RL) has advanced reasoning in language models, extending it to multimodal reasoning requires improving both the perception and reasoning aspects. Prior works tackle this challenge mainly with explicit perception rewards, but disentangling perception tokens from reasoning tokens is difficult, requiring extra LLMs, ground-truth data, forced separation of perception from reasoning by policy model, or applying rewards indiscriminately to all output tokens. CPPO addresses this problem by detecting perception tokens via entropy shifts in the model outputs under perturbed input images. CPPO then extends the RL objective function with a Contrastive Perception Loss (CPL) that enforces consistency under information-preserving perturbations and sensitivity under information-removing ones. Experiments show that CPPO surpasses previous perception-rewarding methods, while avoiding extra models, making training more efficient and scalable.