ChatPaper.aiChatPaper

CPPO : Perception par contraste pour l'optimisation de politiques visio-linguistiques

CPPO: Contrastive Perception for Vision Language Policy Optimization

January 1, 2026
papers.authors: Ahmad Rezaei, Mohsen Gholami, Saeed Ranjbar Alvar, Kevin Cannons, Mohammad Asiful Hossain, Zhou Weimin, Shunbo Zhou, Yong Zhang, Mohammad Akbari
cs.AI

papers.abstract

Nous présentons CPPO, une méthode d'Optimisation de Politique par Perception Contrastive pour le réglage fin des modèles vision-langage (VLM). Si l'apprentissage par renforcement (RL) a fait progresser le raisonnement dans les modèles de langage, son extension au raisonnement multimodal nécessite d'améliorer à la fois les aspects de perception et de raisonnement. Les travaux antérieurs abordent ce défi principalement avec des récompenses de perception explicites, mais dissocier les tokens de perception des tokens de raisonnement est difficile, ce qui nécessite des LLM supplémentaires, des données de vérité terrain, une séparation forcée de la perception et du raisonnement par le modèle de politique, ou l'application indiscriminée des récompenses à tous les tokens de sortie. CPPO résout ce problème en détectant les tokens de perception via les changements d'entropie dans les sorties du modèle sous des images d'entrée perturbées. CPPO étend ensuite la fonction objectif du RL avec une Perte de Perception Contrastive (CPL) qui impose la cohérence sous des perturbations préservant l'information et la sensibilité sous des perturbations supprimant l'information. Les expériences montrent que CPPO surpasse les méthodes précédentes de récompense de la perception, tout en évitant les modèles supplémentaires, rendant l'entraînement plus efficace et évolutif.
English
We introduce CPPO, a Contrastive Perception Policy Optimization method for finetuning vision-language models (VLMs). While reinforcement learning (RL) has advanced reasoning in language models, extending it to multimodal reasoning requires improving both the perception and reasoning aspects. Prior works tackle this challenge mainly with explicit perception rewards, but disentangling perception tokens from reasoning tokens is difficult, requiring extra LLMs, ground-truth data, forced separation of perception from reasoning by policy model, or applying rewards indiscriminately to all output tokens. CPPO addresses this problem by detecting perception tokens via entropy shifts in the model outputs under perturbed input images. CPPO then extends the RL objective function with a Contrastive Perception Loss (CPL) that enforces consistency under information-preserving perturbations and sensitivity under information-removing ones. Experiments show that CPPO surpasses previous perception-rewarding methods, while avoiding extra models, making training more efficient and scalable.
PDF52January 7, 2026