TAGS : Un cadre généraliste-spécialiste pour les tests avec raisonnement et vérification augmentés par la recherche d'information
TAGS: A Test-Time Generalist-Specialist Framework with Retrieval-Augmented Reasoning and Verification
May 23, 2025
Auteurs: Jianghao Wu, Feilong Tang, Yulong Li, Ming Hu, Haochen Xue, Shoaib Jameel, Yutong Xie, Imran Razzak
cs.AI
Résumé
Les avancées récentes, telles que le *Chain-of-Thought prompting*, ont considérablement amélioré les grands modèles de langage (LLMs) dans le raisonnement médical en *zero-shot*. Cependant, les méthodes basées sur l’incitation restent souvent superficielles et instables, tandis que les LLMs médicaux affinés souffrent d’une mauvaise généralisation face aux changements de distribution et d’une adaptabilité limitée à des scénarios cliniques inédits. Pour répondre à ces limitations, nous présentons TAGS, un cadre opérationnel en temps réel qui combine un généraliste polyvalent avec un spécialiste spécifique au domaine pour offrir des perspectives complémentaires sans aucun affinement de modèle ni mise à jour de paramètres. Pour soutenir ce processus de raisonnement généraliste-spécialiste, nous introduisons deux modules auxiliaires : un mécanisme de récupération hiérarchique qui fournit des exemples multi-échelles en sélectionnant des cas basés sur des similarités sémantiques et de raisonnement, ainsi qu’un évaluateur de fiabilité qui juge la cohérence du raisonnement pour guider l’agrégation finale des réponses. TAGS obtient des performances solides sur neuf benchmarks MedQA, augmentant la précision de GPT-4o de 13,8 %, celle de DeepSeek-R1 de 16,8 %, et améliorant un modèle 7B standard de 14,1 % à 23,9 %. Ces résultats surpassent plusieurs LLMs médicaux affinés, sans aucune mise à jour de paramètres. Le code sera disponible à l’adresse https://github.com/JianghaoWu/TAGS.
English
Recent advances such as Chain-of-Thought prompting have significantly
improved large language models (LLMs) in zero-shot medical reasoning. However,
prompting-based methods often remain shallow and unstable, while fine-tuned
medical LLMs suffer from poor generalization under distribution shifts and
limited adaptability to unseen clinical scenarios. To address these
limitations, we present TAGS, a test-time framework that combines a broadly
capable generalist with a domain-specific specialist to offer complementary
perspectives without any model fine-tuning or parameter updates. To support
this generalist-specialist reasoning process, we introduce two auxiliary
modules: a hierarchical retrieval mechanism that provides multi-scale exemplars
by selecting examples based on both semantic and rationale-level similarity,
and a reliability scorer that evaluates reasoning consistency to guide final
answer aggregation. TAGS achieves strong performance across nine MedQA
benchmarks, boosting GPT-4o accuracy by 13.8%, DeepSeek-R1 by 16.8%, and
improving a vanilla 7B model from 14.1% to 23.9%. These results surpass several
fine-tuned medical LLMs, without any parameter updates. The code will be
available at https://github.com/JianghaoWu/TAGS.Summary
AI-Generated Summary