SDR : Récompenses par distance d'ensemble pour la génération de rapports radiologiques

Résumé

L'apprentissage par renforcement avec des récompenses vérifiables a considérablement amélioré le raisonnement dans les modèles vision-langage. Cependant, pour la génération de comptes rendus de radiographies thoraciques, les récompenses standard (c'est-à-dire la précision de correspondance exacte et les processus au niveau des étapes) sont incompatibles car les comptes rendus consistent en des observations non ordonnées et orthogonales, et non en une chaîne de raisonnement causal. Nous comblons cette lacune avec une approche par ensembles : chaque compte rendu est divisé en phrases et plongé par un transformeur de phrases figé, produisant des ensembles de plongements non ordonnés. Nous proposons d'utiliser les distances entre les ensembles de plongements générés et de référence comme récompenses continues et invariantes par permutation. Sur deux ensembles de données et trois modèles vision-langage (Qwen3-VL-2B/4B, Gemma3-4B), le post-entraînement avec des récompenses basées sur les distances entre ensembles via GRPO surpasse systématiquement l'ajustement fin supervisé et le GRPO par correspondance exacte sur toutes les métriques principales (BERTScore, RadGraph F1 et CheXbert F1 avec des améliorations relatives moyennes respectives de 6,80 %, 7,82 % et 4,45 %). Les mêmes distances entre ensembles permettent également la sélection du meilleur parmi N en phase de test : le classement des candidats par leur distance aux plongements des rapports d'entraînement surpasse la sélection aléatoire sur nos modèles entraînés ainsi que sur trois LLM propriétaires (Mistral-Small, Gemini-2.5 Flash-Lite, GPT-4o-mini) avec une amélioration relative moyenne de 16,4 % sur le BERTScore. Utilisées comme signal en continu, elles permettent une forme plus efficace de passage à l'échelle en phase de test : l'élagage des candidats à faible score en cours de génération réduit les jetons générés de plus de 50 % tout en préservant la qualité des Findings de la sélection complète du meilleur parmi N. Ensemble, ces résultats établissent les récompenses par distance entre ensembles comme un signal unifié pour le post-entraînement et le passage à l'échelle en phase de test dans la génération de comptes rendus de radiographies thoraciques. Notre code est disponible publiquement à l'adresse https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA{available}.

English

Reinforcement learning with verifiable rewards has rapidly advanced reasoning in vision--language models. However, for chest X-ray report generation, the standard rewards (i.e. exact-match accuracy and step-level processes) are incompatible because the reports consist of unordered and orthogonal findings, rather than a causal reasoning chain. We address this gap with a set-based view: each report is split into sentences and embedded by a frozen sentence transformer, yielding unordered embedding sets. We propose the use of set-to-set distances between generated and reference embeddings as continuous, permutation-invariant rewards. Across two datasets and three vision--language models (Qwen3-VL-2B/4B, Gemma3-4B), post-training with set-to-set distance based rewards via GRPO consistently outperforms supervised fine-tuning and exact-match GRPO on all headline metrics (BERTScore, RadGraph F1 and CheXbert F1 by average \%6.80, \%7.82 and \%4.45 relative improvements respectively). The same set distances also enable test-time best-of-N selection: scoring candidates by their distance to training-report embeddings outperforms random selection on our trained models as well as three closed-source LLMs (Mistral-Small, Gemini-2.5 Flash-Lite, GPT-4o-mini) with on average \%16.4 relative improvement on BERTScore. Used as a streaming signal, they support a more efficient form of test-time scaling: pruning low-scoring candidates mid-generation reduces generated tokens by over 50\% while preserving the Findings quality of full best-of-N selection. Together these results establish set-distance rewards as a unified signal for both post-training and test-time scaling in chest X-ray report generation. Our code is publicly https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA{available}.