ChatPaper.aiChatPaper

Hörerbelohntes Denken in VLMs für Bildpräferenzen

Listener-Rewarded Thinking in VLMs for Image Preferences

June 28, 2025
Autoren: Alexander Gambashidze, Li Pengyi, Matvey Skripkin, Andrey Galichin, Anton Gusarov, Konstantin Sobolev, Andrey Kuznetsov, Ivan Oseledets
cs.AI

Zusammenfassung

Das Training robuster und generalisierbarer Belohnungsmodelle für menschliche visuelle Präferenzen ist entscheidend, um Text-zu-Bild- und Text-zu-Video-Generierungsmodelle mit menschlichen Absichten in Einklang zu bringen. Allerdings scheitern aktuelle Belohnungsmodelle oft an der Generalisierung, und überwachtes Feinabstimmen führt zu Auswendiglernen, was komplexe Annotationspipelines erfordert. Während Reinforcement Learning (RL), insbesondere Group Relative Policy Optimization (GRPO), die Generalisierung verbessert, decken wir einen zentralen Fehlermodus auf: Es kommt zu einem signifikanten Rückgang der Schlussfolgerungsgenauigkeit, wenn der Schlussfolgerungspfad eines Modells dem eines unabhängigen, eingefrorenen Vision-Sprache-Modells („Listener“), das dieselbe Ausgabe bewertet, widerspricht. Um dies zu adressieren, führen wir ein listener-augmentiertes GRPO-Framework ein. Hier bewertet der Listener den Schlussfolgerungspfad des Reasoners erneut, um einen dichten, kalibrierten Konfidenzscore zu liefern, der das RL-Belohnungssignal formt. Dies ermutigt den Reasoner nicht nur, korrekt zu antworten, sondern auch Erklärungen zu liefern, die für ein unabhängiges Modell überzeugend sind. Unser listener-geformtes Belohnungsschema erreicht die beste Genauigkeit auf dem ImageReward-Benchmark (67,4 %), verbessert die Out-of-Distribution (OOD)-Leistung auf einem groß angelegten menschlichen Präferenzdatensatz (1,2 Mio. Stimmen, bis zu +6 % gegenüber einem naiven Reasoner) signifikant und reduziert Widersprüche in der Schlussfolgerung im Vergleich zu starken GRPO- und SFT-Baselines. Diese Ergebnisse zeigen, dass listener-basierte Belohnungen einen skalierbaren, dateneffizienten Weg bieten, um Vision-Sprache-Modelle mit nuancierten menschlichen Präferenzen in Einklang zu bringen. Wir werden unser Schlussfolgerungsmodell hier veröffentlichen: https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.
English
Training robust and generalizable reward models for human visual preferences is essential for aligning text-to-image and text-to-video generative models with human intent. However, current reward models often fail to generalize, and supervised fine-tuning leads to memorization, demanding complex annotation pipelines. While reinforcement learning (RL), specifically Group Relative Policy Optimization (GRPO), improves generalization, we uncover a key failure mode: a significant drop in reasoning accuracy occurs when a model's reasoning trace contradicts that of an independent, frozen vision-language model ("listener") evaluating the same output. To address this, we introduce a listener-augmented GRPO framework. Here, the listener re-evaluates the reasoner's chain-of-thought to provide a dense, calibrated confidence score, shaping the RL reward signal. This encourages the reasoner not only to answer correctly, but to produce explanations that are persuasive to an independent model. Our listener-shaped reward scheme achieves best accuracy on the ImageReward benchmark (67.4%), significantly improves out-of-distribution (OOD) performance on a large-scale human preference dataset (1.2M votes, up to +6% over naive reasoner), and reduces reasoning contradictions compared to strong GRPO and SFT baselines. These results demonstrate that listener-based rewards provide a scalable, data-efficient path to aligning vision-language models with nuanced human preferences. We will release our reasoning model here: https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.
PDF181July 1, 2025