SDR: Set-Afstandsbeloningen voor het Genereren van Radiologieverslagen

Samenvatting

Reinforcement learning met verifieerbare beloningen heeft het redeneren in visie-taalmodellen snel vooruitgeholpen. Voor de generatie van röntgenverslagen van de borstkas zijn de standaardbeloningen (d.w.z. exacte-overeenkomstnauwkeurigheid en stapsgewijze processen) echter ongeschikt, omdat de verslagen bestaan uit ongeordende en orthogonale bevindingen, in plaats van een causale redeneerketen. Wij pakken deze lacune aan met een set-gebaseerd perspectief: elk verslag wordt opgesplitst in zinnen en ingebed door een bevroren zintransformator, wat leidt tot ongeordende inbeddingsets. Wij stellen voor om set-tot-set afstanden tussen gegenereerde en referentie-inbeddingen te gebruiken als continue, permutatie-invariante beloningen. Over twee datasets en drie visie-taalmodellen (Qwen3-VL-2B/4B, Gemma3-4B) heen presteert post-training met op set-tot-set afstand gebaseerde beloningen via GRPO consequent beter dan gesuperviseerde fine-tuning en exacte-overeenkomst GRPO op alle hoofdmetrieken (BERTScore, RadGraph F1 en CheXbert F1 met respectievelijk gemiddelde relatieve verbeteringen van 6,80%, 7,82% en 4,45%). Dezelfde setafstanden maken ook best-of-N selectie tijdens testtijd mogelijk: het scoren van kandidaten op basis van hun afstand tot inbeddingen van trainingsverslagen presteert beter dan willekeurige selectie op onze getrainde modellen en ook op drie closed-source LLM's (Mistral-Small, Gemini-2.5 Flash-Lite, GPT-4o-mini) met een gemiddelde relatieve verbetering van 16,4% op BERTScore. Gebruikt als streamsignaal ondersteunen ze een efficiëntere vorm van testtijdsschaling: het midden in de generatie snoeien van laag scorende kandidaten vermindert de gegenereerde tokens met meer dan 50% terwijl de kwaliteit van de bevindingen van volledige best-of-N selectie behouden blijft. Samen vestigen deze resultaten setafstandbeloningen als een uniform signaal voor zowel post-training als testtijdsschaling bij de generatie van röntgenverslagen van de borstkas. Onze code is openbaar beschikbaar op https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA.

English

Reinforcement learning with verifiable rewards has rapidly advanced reasoning in vision--language models. However, for chest X-ray report generation, the standard rewards (i.e. exact-match accuracy and step-level processes) are incompatible because the reports consist of unordered and orthogonal findings, rather than a causal reasoning chain. We address this gap with a set-based view: each report is split into sentences and embedded by a frozen sentence transformer, yielding unordered embedding sets. We propose the use of set-to-set distances between generated and reference embeddings as continuous, permutation-invariant rewards. Across two datasets and three vision--language models (Qwen3-VL-2B/4B, Gemma3-4B), post-training with set-to-set distance based rewards via GRPO consistently outperforms supervised fine-tuning and exact-match GRPO on all headline metrics (BERTScore, RadGraph F1 and CheXbert F1 by average \%6.80, \%7.82 and \%4.45 relative improvements respectively). The same set distances also enable test-time best-of-N selection: scoring candidates by their distance to training-report embeddings outperforms random selection on our trained models as well as three closed-source LLMs (Mistral-Small, Gemini-2.5 Flash-Lite, GPT-4o-mini) with on average \%16.4 relative improvement on BERTScore. Used as a streaming signal, they support a more efficient form of test-time scaling: pruning low-scoring candidates mid-generation reduces generated tokens by over 50\% while preserving the Findings quality of full best-of-N selection. Together these results establish set-distance rewards as a unified signal for both post-training and test-time scaling in chest X-ray report generation. Our code is publicly https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA{available}.