ClinAlign: Ampliando o Alinhamento em Saúde a partir da Preferência Clínica

Resumo

Embora os grandes modelos de linguagem (LLMs) demonstrem conhecimento médico em nível de especialista, alinhar suas respostas de livre geração com as preferências refinadas dos clínicos continua sendo um desafio. Os métodos existentes frequentemente dependem de objetivos genéricos ou de avaliadores automáticos não confiáveis, com fraca fundamentação em diretrizes profissionais. Propomos uma estrutura de trabalho em dois estágios para abordar essa lacuna. Primeiro, apresentamos o HealthRubrics, um conjunto de dados com 7.034 exemplos de preferência verificados por médicos, nos quais clínicos refinam rubricas elaboradas por LLMs para atender a rigorosos padrões médicos. Segundo, destilamos essas rubricas em HealthPrinciples: 119 princípios amplamente reutilizáveis, fundamentados clinicamente e organizados por dimensões clínicas, permitindo uma supervisão escalável além da anotação manual. Utilizamos os HealthPrinciples para (1) alinhamento offline, sintetizando rubricas para consultas não rotuladas, e (2) como uma ferramenta em tempo de inferência para autorrevisão guiada. Um modelo de 30B de parâmetros que ativa apenas 3B de parâmetros durante a inferência, treinado com nossa estrutura, alcança 33,4% no HealthBench-Hard, superando modelos muito maiores, incluindo Deepseek-R1 e o3, estabelecendo uma linha de base eficiente em recursos para o alinhamento clínico.

English

Although large language models (LLMs) demonstrate expert-level medical knowledge, aligning their open-ended outputs with fine-grained clinician preferences remains challenging. Existing methods often rely on coarse objectives or unreliable automated judges that are weakly grounded in professional guidelines. We propose a two-stage framework to address this gap. First, we introduce HealthRubrics, a dataset of 7,034 physician-verified preference examples in which clinicians refine LLM-drafted rubrics to meet rigorous medical standards. Second, we distill these rubrics into HealthPrinciples: 119 broadly reusable, clinically grounded principles organized by clinical dimensions, enabling scalable supervision beyond manual annotation. We use HealthPrinciples for (1) offline alignment by synthesizing rubrics for unlabeled queries and (2) an inference-time tool for guided self-revision. A 30B parameter model that activates only 3B parameters at inference trained with our framework achieves 33.4% on HealthBench-Hard, outperforming much larger models including Deepseek-R1 and o3, establishing a resource-efficient baseline for clinical alignment.

ClinAlign: Ampliando o Alinhamento em Saúde a partir da Preferência Clínica

ClinAlign: Scaling Healthcare Alignment from Clinician Preference

Resumo

Support