SDR: Награды на основе расстояния между множествами для генерации радиологических отчетов

Аннотация

Обучение с подкреплением с проверяемыми наградами быстро продвинуло рассуждения в визуально-языковых моделях. Однако для генерации отчетов по рентгенографии грудной клетки стандартные награды (т.е. точность точного совпадения и пошаговые процессы) несовместимы, поскольку отчеты состоят из неупорядоченных и ортогональных находок, а не из причинно-следственной цепочки рассуждений. Мы устраняем этот пробел с помощью представления на основе множеств: каждый отчет разбивается на предложения и встраивается с помощью замороженного трансформера предложений, что дает неупорядоченные наборы эмбеддингов. Мы предлагаем использовать расстояния между множествами между сгенерированными и эталонными эмбеддингами как непрерывные, инвариантные к перестановкам награды. На двух наборах данных и трех визуально-языковых моделях (Qwen3-VL-2B/4B, Gemma3-4B) пост-обучение с наградами на основе расстояний между множествами через GRPO последовательно превосходит контролируемую тонкую настройку и GRPO с точным совпадением по всем основным метрикам (BERTScore, RadGraph F1 и CheXbert F1 с относительными улучшениями в среднем на 6,80%, 7,82% и 4,45% соответственно). Те же расстояния между множествами также обеспечивают выбор лучшего из N на тестовом этапе: оценка кандидатов по их расстоянию до эмбеддингов обучающих отчетов превосходит случайный выбор на наших обученных моделях, а также на трех закрытых LLM (Mistral-Small, Gemini-2.5 Flash-Lite, GPT-4o-mini) с относительным улучшением BERTScore в среднем на 16,4%. Используемые как потоковый сигнал, они поддерживают более эффективную форму масштабирования на тестовом этапе: отсечение кандидатов с низкими оценками на середине генерации сокращает количество генерируемых токенов более чем на 50%, сохраняя при этом качество Findings при полном выборе лучшего из N. В совокупности эти результаты устанавливают награды на основе расстояний между множествами как единый сигнал как для пост-обучения, так и для масштабирования на тестовом этапе при генерации отчетов по рентгенографии грудной клетки. Наш код общедоступен: https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA{available}.

English

Reinforcement learning with verifiable rewards has rapidly advanced reasoning in vision--language models. However, for chest X-ray report generation, the standard rewards (i.e. exact-match accuracy and step-level processes) are incompatible because the reports consist of unordered and orthogonal findings, rather than a causal reasoning chain. We address this gap with a set-based view: each report is split into sentences and embedded by a frozen sentence transformer, yielding unordered embedding sets. We propose the use of set-to-set distances between generated and reference embeddings as continuous, permutation-invariant rewards. Across two datasets and three vision--language models (Qwen3-VL-2B/4B, Gemma3-4B), post-training with set-to-set distance based rewards via GRPO consistently outperforms supervised fine-tuning and exact-match GRPO on all headline metrics (BERTScore, RadGraph F1 and CheXbert F1 by average \%6.80, \%7.82 and \%4.45 relative improvements respectively). The same set distances also enable test-time best-of-N selection: scoring candidates by their distance to training-report embeddings outperforms random selection on our trained models as well as three closed-source LLMs (Mistral-Small, Gemini-2.5 Flash-Lite, GPT-4o-mini) with on average \%16.4 relative improvement on BERTScore. Used as a streaming signal, they support a more efficient form of test-time scaling: pruning low-scoring candidates mid-generation reduces generated tokens by over 50\% while preserving the Findings quality of full best-of-N selection. Together these results establish set-distance rewards as a unified signal for both post-training and test-time scaling in chest X-ray report generation. Our code is publicly https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA{available}.