SDR: Recompensas de Distância de Conjunto para Geração de Relatórios Radiológicos

Resumo

Aprendizado por reforço com recompensas verificáveis avançou rapidamente o raciocínio em modelos visão-linguagem. No entanto, para a geração de laudos de raios-X de tórax, as recompensas padrão (isto é, precisão de correspondência exata e processos em nível de etapa) são incompatíveis porque os laudos consistem em achados não ordenados e ortogonais, em vez de uma cadeia de raciocínio causal. Abordamos essa lacuna com uma visão baseada em conjuntos: cada laudo é dividido em frases e incorporado por um transformador de frases congelado, gerando conjuntos de embeddings não ordenados. Propomos o uso de distâncias entre conjuntos entre os embeddings gerados e de referência como recompensas contínuas e invariantes por permutação. Em dois conjuntos de dados e três modelos visão-linguagem (Qwen3-VL-2B/4B, Gemma3-4B), o pós-treinamento com recompensas baseadas em distância entre conjuntos via GRPO supera consistentemente o ajuste fino supervisionado e o GRPO com correspondência exata em todas as métricas principais (BERTScore, RadGraph F1 e CheXbert F1 com melhorias relativas médias de 6,80%, 7,82% e 4,45%, respectivamente). As mesmas distâncias entre conjuntos também permitem a seleção do melhor de N no momento do teste: a pontuação de candidatos pela distância até os embeddings dos laudos de treinamento supera a seleção aleatória em nossos modelos treinados, bem como em três LLMs de código fechado (Mistral-Small, Gemini-2.5 Flash-Lite, GPT-4o-mini) com uma melhoria relativa média de 16,4% no BERTScore. Usadas como um sinal de streaming, essas distâncias suportam uma forma mais eficiente de escalonamento no momento do teste: a poda de candidatos com pontuação baixa durante a geração reduz os tokens gerados em mais de 50%, preservando a qualidade dos achados da seleção completa de melhor de N. Em conjunto, esses resultados estabelecem as recompensas por distância entre conjuntos como um sinal unificado tanto para o pós-treinamento quanto para o escalonamento no momento do teste na geração de laudos de raios-X de tórax. Nosso código está disponível publicamente em: https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA.

English

Reinforcement learning with verifiable rewards has rapidly advanced reasoning in vision--language models. However, for chest X-ray report generation, the standard rewards (i.e. exact-match accuracy and step-level processes) are incompatible because the reports consist of unordered and orthogonal findings, rather than a causal reasoning chain. We address this gap with a set-based view: each report is split into sentences and embedded by a frozen sentence transformer, yielding unordered embedding sets. We propose the use of set-to-set distances between generated and reference embeddings as continuous, permutation-invariant rewards. Across two datasets and three vision--language models (Qwen3-VL-2B/4B, Gemma3-4B), post-training with set-to-set distance based rewards via GRPO consistently outperforms supervised fine-tuning and exact-match GRPO on all headline metrics (BERTScore, RadGraph F1 and CheXbert F1 by average \%6.80, \%7.82 and \%4.45 relative improvements respectively). The same set distances also enable test-time best-of-N selection: scoring candidates by their distance to training-report embeddings outperforms random selection on our trained models as well as three closed-source LLMs (Mistral-Small, Gemini-2.5 Flash-Lite, GPT-4o-mini) with on average \%16.4 relative improvement on BERTScore. Used as a streaming signal, they support a more efficient form of test-time scaling: pruning low-scoring candidates mid-generation reduces generated tokens by over 50\% while preserving the Findings quality of full best-of-N selection. Together these results establish set-distance rewards as a unified signal for both post-training and test-time scaling in chest X-ray report generation. Our code is publicly https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA{available}.