SDR: Set-Distanz-Belohnungen für die Erstellung radiologischer Berichte

Zusammenfassung

Reinforcement Learning mit verifizierbaren Belohnungen hat die Fähigkeit zum logischen Denken in Vision-Language-Modellen erheblich verbessert. Für die Erstellung von Röntgen-Thorax-Befunden sind die standardmäßigen Belohnungen (d.h. exakte Übereinstimmungsgenauigkeit und schrittweise Prozesse) jedoch ungeeignet, da die Befunde aus ungeordneten und orthogonalen Feststellungen bestehen und nicht aus einer kausalen Reasoning-Kette. Wir adressieren diese Lücke mit einer mengenbasierten Sichtweise: Jeder Befund wird in Sätze aufgeteilt und durch ein eingefrorenes Sentence-Transformer-Modell eingebettet, was zu ungeordneten Einbettungsmengen führt. Wir schlagen die Verwendung von Set-to-Set-Distanzen zwischen generierten und Referenzeinbettungen als kontinuierliche, permutationsinvariante Belohnungen vor. Über zwei Datensätze und drei Vision-Language-Modelle (Qwen3-VL-2B/4B, Gemma3-4B) hinweg übertrifft das Post-Training mit GRPO auf Basis von Set-to-Set-Distanz-Belohnungen durchgängig sowohl das überwachte Feintuning als auch GRPO mit exakter Übereinstimmung bei allen Hauptmetriken (BERTScore, RadGraph F1 und CheXbert F1 mit durchschnittlich relativen Verbesserungen von 6,80 %, 7,82 % bzw. 4,45 %). Dieselben Set-Distanzen ermöglichen auch eine Best-of-N-Selektion zur Testzeit: Die Bewertung von Kandidaten anhand ihrer Distanz zu Einbettungen von Trainingsbefunden übertrifft die Zufallsauswahl bei unseren trainierten Modellen sowie bei drei quelloffenen LLMs (Mistral-Small, Gemini-2.5 Flash-Lite, GPT-4o-mini) mit einer durchschnittlichen relativen Verbesserung von 16,4 % beim BERTScore. Als Streaming-Signal eingesetzt, unterstützen sie eine effizientere Form des Testzeit-Skalings: Das Aussortieren niedrig bewerteter Kandidaten während der Generierung reduziert die erzeugten Token um über 50 %, während die Befundqualität der vollständigen Best-of-N-Selektion erhalten bleibt. Zusammen etablieren diese Ergebnisse Set-Distanz-Belohnungen als einheitliches Signal sowohl für das Post-Training als auch für das Testzeit-Scaling bei der Erstellung von Röntgen-Thorax-Befunden. Unser Code ist öffentlich verfügbar unter: https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA.

English

Reinforcement learning with verifiable rewards has rapidly advanced reasoning in vision--language models. However, for chest X-ray report generation, the standard rewards (i.e. exact-match accuracy and step-level processes) are incompatible because the reports consist of unordered and orthogonal findings, rather than a causal reasoning chain. We address this gap with a set-based view: each report is split into sentences and embedded by a frozen sentence transformer, yielding unordered embedding sets. We propose the use of set-to-set distances between generated and reference embeddings as continuous, permutation-invariant rewards. Across two datasets and three vision--language models (Qwen3-VL-2B/4B, Gemma3-4B), post-training with set-to-set distance based rewards via GRPO consistently outperforms supervised fine-tuning and exact-match GRPO on all headline metrics (BERTScore, RadGraph F1 and CheXbert F1 by average \%6.80, \%7.82 and \%4.45 relative improvements respectively). The same set distances also enable test-time best-of-N selection: scoring candidates by their distance to training-report embeddings outperforms random selection on our trained models as well as three closed-source LLMs (Mistral-Small, Gemini-2.5 Flash-Lite, GPT-4o-mini) with on average \%16.4 relative improvement on BERTScore. Used as a streaming signal, they support a more efficient form of test-time scaling: pruning low-scoring candidates mid-generation reduces generated tokens by over 50\% while preserving the Findings quality of full best-of-N selection. Together these results establish set-distance rewards as a unified signal for both post-training and test-time scaling in chest X-ray report generation. Our code is publicly https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA{available}.