TAGS: Uma Estrutura Generalista-Especialista em Tempo de Teste com Raciocínio e Verificação Aumentados por Recuperação
TAGS: A Test-Time Generalist-Specialist Framework with Retrieval-Augmented Reasoning and Verification
May 23, 2025
Autores: Jianghao Wu, Feilong Tang, Yulong Li, Ming Hu, Haochen Xue, Shoaib Jameel, Yutong Xie, Imran Razzak
cs.AI
Resumo
Avanços recentes, como o prompting de Cadeia de Pensamento (Chain-of-Thought), melhoraram significativamente os grandes modelos de linguagem (LLMs) no raciocínio médico zero-shot. No entanto, métodos baseados em prompting frequentemente permanecem superficiais e instáveis, enquanto LLMs médicos ajustados sofrem com generalização deficiente sob mudanças de distribuição e adaptabilidade limitada a cenários clínicos não vistos. Para abordar essas limitações, apresentamos o TAGS, uma estrutura em tempo de teste que combina um generalista amplamente capaz com um especialista específico do domínio para oferecer perspectivas complementares sem qualquer ajuste fino do modelo ou atualização de parâmetros. Para apoiar esse processo de raciocínio generalista-especialista, introduzimos dois módulos auxiliares: um mecanismo de recuperação hierárquica que fornece exemplares em múltiplas escalas ao selecionar exemplos com base na similaridade tanto semântica quanto no nível de racionalidade, e um avaliador de confiabilidade que avalia a consistência do raciocínio para orientar a agregação final de respostas. O TAGS alcança um desempenho robusto em nove benchmarks do MedQA, aumentando a precisão do GPT-4 em 13,8%, do DeepSeek-R1 em 16,8%, e melhorando um modelo vanilla de 7B de 14,1% para 23,9%. Esses resultados superam vários LLMs médicos ajustados, sem qualquer atualização de parâmetros. O código estará disponível em https://github.com/JianghaoWu/TAGS.
English
Recent advances such as Chain-of-Thought prompting have significantly
improved large language models (LLMs) in zero-shot medical reasoning. However,
prompting-based methods often remain shallow and unstable, while fine-tuned
medical LLMs suffer from poor generalization under distribution shifts and
limited adaptability to unseen clinical scenarios. To address these
limitations, we present TAGS, a test-time framework that combines a broadly
capable generalist with a domain-specific specialist to offer complementary
perspectives without any model fine-tuning or parameter updates. To support
this generalist-specialist reasoning process, we introduce two auxiliary
modules: a hierarchical retrieval mechanism that provides multi-scale exemplars
by selecting examples based on both semantic and rationale-level similarity,
and a reliability scorer that evaluates reasoning consistency to guide final
answer aggregation. TAGS achieves strong performance across nine MedQA
benchmarks, boosting GPT-4o accuracy by 13.8%, DeepSeek-R1 by 16.8%, and
improving a vanilla 7B model from 14.1% to 23.9%. These results surpass several
fine-tuned medical LLMs, without any parameter updates. The code will be
available at https://github.com/JianghaoWu/TAGS.