TAGS : Un cadre généraliste-spécialiste pour les tests avec raisonnement et vérification augmentés par la recherche d'information

papers.abstract

Les avancées récentes, telles que le *Chain-of-Thought prompting*, ont considérablement amélioré les grands modèles de langage (LLMs) dans le raisonnement médical en *zero-shot*. Cependant, les méthodes basées sur l’incitation restent souvent superficielles et instables, tandis que les LLMs médicaux affinés souffrent d’une mauvaise généralisation face aux changements de distribution et d’une adaptabilité limitée à des scénarios cliniques inédits. Pour répondre à ces limitations, nous présentons TAGS, un cadre opérationnel en temps réel qui combine un généraliste polyvalent avec un spécialiste spécifique au domaine pour offrir des perspectives complémentaires sans aucun affinement de modèle ni mise à jour de paramètres. Pour soutenir ce processus de raisonnement généraliste-spécialiste, nous introduisons deux modules auxiliaires : un mécanisme de récupération hiérarchique qui fournit des exemples multi-échelles en sélectionnant des cas basés sur des similarités sémantiques et de raisonnement, ainsi qu’un évaluateur de fiabilité qui juge la cohérence du raisonnement pour guider l’agrégation finale des réponses. TAGS obtient des performances solides sur neuf benchmarks MedQA, augmentant la précision de GPT-4o de 13,8 %, celle de DeepSeek-R1 de 16,8 %, et améliorant un modèle 7B standard de 14,1 % à 23,9 %. Ces résultats surpassent plusieurs LLMs médicaux affinés, sans aucune mise à jour de paramètres. Le code sera disponible à l’adresse https://github.com/JianghaoWu/TAGS.

English

Recent advances such as Chain-of-Thought prompting have significantly improved large language models (LLMs) in zero-shot medical reasoning. However, prompting-based methods often remain shallow and unstable, while fine-tuned medical LLMs suffer from poor generalization under distribution shifts and limited adaptability to unseen clinical scenarios. To address these limitations, we present TAGS, a test-time framework that combines a broadly capable generalist with a domain-specific specialist to offer complementary perspectives without any model fine-tuning or parameter updates. To support this generalist-specialist reasoning process, we introduce two auxiliary modules: a hierarchical retrieval mechanism that provides multi-scale exemplars by selecting examples based on both semantic and rationale-level similarity, and a reliability scorer that evaluates reasoning consistency to guide final answer aggregation. TAGS achieves strong performance across nine MedQA benchmarks, boosting GPT-4o accuracy by 13.8%, DeepSeek-R1 by 16.8%, and improving a vanilla 7B model from 14.1% to 23.9%. These results surpass several fine-tuned medical LLMs, without any parameter updates. The code will be available at https://github.com/JianghaoWu/TAGS.

TAGS : Un cadre généraliste-spécialiste pour les tests avec raisonnement et vérification augmentés par la recherche d'information

TAGS: A Test-Time Generalist-Specialist Framework with Retrieval-Augmented Reasoning and Verification

papers.abstract

Support