CPPO: Percepção Contrastiva para Otimização de Políticas de Visão e Linguagem
CPPO: Contrastive Perception for Vision Language Policy Optimization
January 1, 2026
Autores: Ahmad Rezaei, Mohsen Gholami, Saeed Ranjbar Alvar, Kevin Cannons, Mohammad Asiful Hossain, Zhou Weimin, Shunbo Zhou, Yong Zhang, Mohammad Akbari
cs.AI
Resumo
Apresentamos o CPPO, um método de Otimização de Políticas por Percepção Contrastante para o ajuste fino de modelos de visão e linguagem (VLMs). Embora o aprendizado por reforço (RL) tenha avançado o raciocínio em modelos de linguagem, estendê-lo para o raciocínio multimodal requer a melhoria dos aspetos de perceção e de raciocínio. Trabalhos anteriores abordam este desafio principalmente com recompensas de perceção explícitas, mas separar os *tokens* de perceção dos *tokens* de raciocínio é difícil, exigindo LLMs adicionais, dados de *ground-truth*, uma separação forçada da perceção do raciocínio pelo modelo de política, ou a aplicação indiscriminada de recompensas a todos os *tokens* de saída. O CPPO resolve este problema ao detetar os *tokens* de perceção através de mudanças de entropia nas saídas do modelo sob imagens de entrada perturbadas. O CPPO estende então a função objetivo de RL com uma Perda de Perceção Contrastante (CPL) que impõe consistência sob perturbações que preservam informação e sensibilidade sob perturbações que removem informação. Experiências mostram que o CPPO supera métodos anteriores baseados em recompensas de perceção, evitando ao mesmo tempo modelos extras, tornando o treino mais eficiente e escalável.
English
We introduce CPPO, a Contrastive Perception Policy Optimization method for finetuning vision-language models (VLMs). While reinforcement learning (RL) has advanced reasoning in language models, extending it to multimodal reasoning requires improving both the perception and reasoning aspects. Prior works tackle this challenge mainly with explicit perception rewards, but disentangling perception tokens from reasoning tokens is difficult, requiring extra LLMs, ground-truth data, forced separation of perception from reasoning by policy model, or applying rewards indiscriminately to all output tokens. CPPO addresses this problem by detecting perception tokens via entropy shifts in the model outputs under perturbed input images. CPPO then extends the RL objective function with a Contrastive Perception Loss (CPL) that enforces consistency under information-preserving perturbations and sensitivity under information-removing ones. Experiments show that CPPO surpasses previous perception-rewarding methods, while avoiding extra models, making training more efficient and scalable.