ClinAlign: Scalabilità dell'Allineamento Sanitario dalle Preferenze Cliniche

Abstract

Sebbene i grandi modelli linguistici (LLM) dimostrino conoscenze mediche di livello esperto, allineare le loro risposte aperte con le preferenze granulari dei clinici rimane una sfida. I metodi esistenti spesso si basano su obiettivi approssimativi o su giudici automatici inaffidabili, debolmente ancorati alle linee guida professionali. Proponiamo un framework in due fasi per colmare questa lacuna. In primo luogo, introduciamo HealthRubrics, un dataset di 7.034 esempi di preferenze verificate da medici, in cui i clinici perfezionano rubriche redatte da LLM per soddisfare rigorosi standard medici. In secondo luogo, distilliamo queste rubriche in HealthPrinciples: 119 principi ampiamente riutilizzabili e clinicamente fondati, organizzati per dimensioni cliniche, che consentono una supervisione scalabile oltre l'annotazione manuale. Utilizziamo HealthPrinciples per (1) un allineamento offline sintetizzando rubriche per query non etichettate e (2) come strumento in fase di inferenza per una revisione guidata autonoma. Un modello da 30B di parametri che attiva solo 3B di parametri durante l'inferenza, addestrato con il nostro framework, raggiunge il 33,4% su HealthBench-Hard, superando modelli molto più grandi come Deepseek-R1 e o3, stabilendo un baseline efficiente in termini di risorse per l'allineamento clinico.

English

Although large language models (LLMs) demonstrate expert-level medical knowledge, aligning their open-ended outputs with fine-grained clinician preferences remains challenging. Existing methods often rely on coarse objectives or unreliable automated judges that are weakly grounded in professional guidelines. We propose a two-stage framework to address this gap. First, we introduce HealthRubrics, a dataset of 7,034 physician-verified preference examples in which clinicians refine LLM-drafted rubrics to meet rigorous medical standards. Second, we distill these rubrics into HealthPrinciples: 119 broadly reusable, clinically grounded principles organized by clinical dimensions, enabling scalable supervision beyond manual annotation. We use HealthPrinciples for (1) offline alignment by synthesizing rubrics for unlabeled queries and (2) an inference-time tool for guided self-revision. A 30B parameter model that activates only 3B parameters at inference trained with our framework achieves 33.4% on HealthBench-Hard, outperforming much larger models including Deepseek-R1 and o3, establishing a resource-efficient baseline for clinical alignment.

ClinAlign: Scalabilità dell'Allineamento Sanitario dalle Preferenze Cliniche

ClinAlign: Scaling Healthcare Alignment from Clinician Preference

Abstract

Support