ClinAlign : Mise à l'échelle de l'alignement en santé à partir des préférences cliniques
ClinAlign: Scaling Healthcare Alignment from Clinician Preference
February 10, 2026
papers.authors: Shiwei Lyu, Xidong Wang, Lei Liu, Hao Zhu, Chaohe Zhang, Jian Wang, Jinjie Gu, Benyou Wang, Yue Shen
cs.AI
papers.abstract
Bien que les grands modèles de langage (LLM) démontrent des connaissances médicales de niveau expert, l'alignement de leurs réponses ouvertes avec les préférences fines des cliniciens reste un défi. Les méthodes existantes reposent souvent sur des objectifs grossiers ou des évaluateurs automatisés peu fiables, faiblement ancrés dans les recommandations professionnelles. Nous proposons un cadre en deux étapes pour combler cette lacune. Premièrement, nous présentons HealthRubrics, un jeu de données de 7 034 exemples de préférences vérifiées par des médecins, dans lesquels des cliniciens améliorent des grilles d'évaluation rédigées par des LLM pour répondre à des standards médicaux rigoureux. Deuxièmement, nous distillons ces grilles en HealthPrinciples : 119 principes largement réutilisables, ancrés cliniquement et organisés par dimensions cliniques, permettant une supervision scalable au-delà de l'annotation manuelle. Nous utilisons HealthPrinciples pour (1) un alignement hors ligne en synthétisant des grilles pour des requêtes non labellisées et (2) un outil à l'inférence pour une auto-révision guidée. Un modèle de 30 milliards de paramètres n'activant que 3 milliards de paramètres à l'inférence, entraîné avec notre cadre, atteint 33,4 % sur HealthBench-Hard, surpassant des modèles bien plus grands comme Deepseek-R1 et o3, établissant ainsi une base de référence économe en ressources pour l'alignement clinique.
English
Although large language models (LLMs) demonstrate expert-level medical knowledge, aligning their open-ended outputs with fine-grained clinician preferences remains challenging. Existing methods often rely on coarse objectives or unreliable automated judges that are weakly grounded in professional guidelines. We propose a two-stage framework to address this gap. First, we introduce HealthRubrics, a dataset of 7,034 physician-verified preference examples in which clinicians refine LLM-drafted rubrics to meet rigorous medical standards. Second, we distill these rubrics into HealthPrinciples: 119 broadly reusable, clinically grounded principles organized by clinical dimensions, enabling scalable supervision beyond manual annotation. We use HealthPrinciples for (1) offline alignment by synthesizing rubrics for unlabeled queries and (2) an inference-time tool for guided self-revision. A 30B parameter model that activates only 3B parameters at inference trained with our framework achieves 33.4% on HealthBench-Hard, outperforming much larger models including Deepseek-R1 and o3, establishing a resource-efficient baseline for clinical alignment.