TAGS: Uma Estrutura Generalista-Especialista em Tempo de Teste com Raciocínio e Verificação Aumentados por Recuperação

Resumo

Avanços recentes, como o prompting de Cadeia de Pensamento (Chain-of-Thought), melhoraram significativamente os grandes modelos de linguagem (LLMs) no raciocínio médico zero-shot. No entanto, métodos baseados em prompting frequentemente permanecem superficiais e instáveis, enquanto LLMs médicos ajustados sofrem com generalização deficiente sob mudanças de distribuição e adaptabilidade limitada a cenários clínicos não vistos. Para abordar essas limitações, apresentamos o TAGS, uma estrutura em tempo de teste que combina um generalista amplamente capaz com um especialista específico do domínio para oferecer perspectivas complementares sem qualquer ajuste fino do modelo ou atualização de parâmetros. Para apoiar esse processo de raciocínio generalista-especialista, introduzimos dois módulos auxiliares: um mecanismo de recuperação hierárquica que fornece exemplares em múltiplas escalas ao selecionar exemplos com base na similaridade tanto semântica quanto no nível de racionalidade, e um avaliador de confiabilidade que avalia a consistência do raciocínio para orientar a agregação final de respostas. O TAGS alcança um desempenho robusto em nove benchmarks do MedQA, aumentando a precisão do GPT-4 em 13,8%, do DeepSeek-R1 em 16,8%, e melhorando um modelo vanilla de 7B de 14,1% para 23,9%. Esses resultados superam vários LLMs médicos ajustados, sem qualquer atualização de parâmetros. O código estará disponível em https://github.com/JianghaoWu/TAGS.

English

Recent advances such as Chain-of-Thought prompting have significantly improved large language models (LLMs) in zero-shot medical reasoning. However, prompting-based methods often remain shallow and unstable, while fine-tuned medical LLMs suffer from poor generalization under distribution shifts and limited adaptability to unseen clinical scenarios. To address these limitations, we present TAGS, a test-time framework that combines a broadly capable generalist with a domain-specific specialist to offer complementary perspectives without any model fine-tuning or parameter updates. To support this generalist-specialist reasoning process, we introduce two auxiliary modules: a hierarchical retrieval mechanism that provides multi-scale exemplars by selecting examples based on both semantic and rationale-level similarity, and a reliability scorer that evaluates reasoning consistency to guide final answer aggregation. TAGS achieves strong performance across nine MedQA benchmarks, boosting GPT-4o accuracy by 13.8%, DeepSeek-R1 by 16.8%, and improving a vanilla 7B model from 14.1% to 23.9%. These results surpass several fine-tuned medical LLMs, without any parameter updates. The code will be available at https://github.com/JianghaoWu/TAGS.

TAGS: Uma Estrutura Generalista-Especialista em Tempo de Teste com Raciocínio e Verificação Aumentados por Recuperação

TAGS: A Test-Time Generalist-Specialist Framework with Retrieval-Augmented Reasoning and Verification

Resumo

Support