CPPO: Percezione Contrastiva per l'Ottimizzazione di Politiche di Visione e Linguaggio

Abstract

Introduciamo CPPO, un metodo di ottimizzazione della politica percettiva contrastiva (Contrastive Perception Policy Optimization) per il fine-tuning di modelli visione-linguaggio (VLM). Sebbene l'apprendimento per rinforzo (RL) abbia fatto progredire il ragionamento nei modelli linguistici, estenderlo al ragionamento multimodale richiede il miglioramento sia degli aspetti percettivi che di quelli ragionativi. I lavori precedenti affrontano questa sfida principalmente con ricompense percettive esplicite, ma separare i token percettivi da quelli di ragionamento è difficile, richiedendo modelli LLM aggiuntivi, dati ground-truth, una forzata separazione della percezione dal ragionamento da parte del modello politico, o l'applicazione indiscriminata delle ricompense a tutti i token di output. CPPO risolve questo problema rilevando i token percettivi tramite gli spostamenti di entropia negli output del modello sotto immagini di input perturbate. CPPO estende quindi la funzione obiettivo dell'RL con una Perdita Percettiva Contrastiva (CPL, Contrastive Perception Loss) che impone coerenza sotto perturbazioni che preservano l'informazione e sensibilità sotto perturbazioni che la rimuovono. Gli esperimenti mostrano che CPPO supera i precedenti metodi basati su ricompense percettive, evitando al contempo modelli aggiuntivi, rendendo l'addestramento più efficiente e scalabile.

English

We introduce CPPO, a Contrastive Perception Policy Optimization method for finetuning vision-language models (VLMs). While reinforcement learning (RL) has advanced reasoning in language models, extending it to multimodal reasoning requires improving both the perception and reasoning aspects. Prior works tackle this challenge mainly with explicit perception rewards, but disentangling perception tokens from reasoning tokens is difficult, requiring extra LLMs, ground-truth data, forced separation of perception from reasoning by policy model, or applying rewards indiscriminately to all output tokens. CPPO addresses this problem by detecting perception tokens via entropy shifts in the model outputs under perturbed input images. CPPO then extends the RL objective function with a Contrastive Perception Loss (CPL) that enforces consistency under information-preserving perturbations and sensitivity under information-removing ones. Experiments show that CPPO surpasses previous perception-rewarding methods, while avoiding extra models, making training more efficient and scalable.

CPPO: Percezione Contrastiva per l'Ottimizzazione di Politiche di Visione e Linguaggio

CPPO: Contrastive Perception for Vision Language Policy Optimization

Abstract

Support