TAGS: Un Framework Generalista-Specialista per il Test-Time con Ragionamento e Verifica Aumentati dal Recupero di Informazioni
TAGS: A Test-Time Generalist-Specialist Framework with Retrieval-Augmented Reasoning and Verification
May 23, 2025
Autori: Jianghao Wu, Feilong Tang, Yulong Li, Ming Hu, Haochen Xue, Shoaib Jameel, Yutong Xie, Imran Razzak
cs.AI
Abstract
I recenti progressi, come il prompting a catena di pensiero (Chain-of-Thought), hanno migliorato significativamente i grandi modelli linguistici (LLMs) nel ragionamento medico zero-shot. Tuttavia, i metodi basati sul prompting spesso rimangono superficiali e instabili, mentre i LLMs medici fine-tuned soffrono di una scarsa generalizzazione in caso di cambiamenti nella distribuzione dei dati e di una limitata adattabilità a scenari clinici non visti. Per affrontare queste limitazioni, presentiamo TAGS, un framework in fase di test che combina un generalista ampiamente capace con uno specialista specifico del dominio per offrire prospettive complementari senza alcun fine-tuning o aggiornamento dei parametri del modello. Per supportare questo processo di ragionamento generalista-specialista, introduciamo due moduli ausiliari: un meccanismo di recupero gerarchico che fornisce esempi multi-scala selezionando casi basati sia sulla similarità semantica che a livello di ragionamento, e uno scorer di affidabilità che valuta la coerenza del ragionamento per guidare l'aggregazione finale delle risposte. TAGS ottiene prestazioni solide su nove benchmark MedQA, aumentando l'accuratezza di GPT-4o del 13.8%, di DeepSeek-R1 del 16.8%, e migliorando un modello vanilla da 7B dal 14.1% al 23.9%. Questi risultati superano diversi LLMs medici fine-tuned, senza alcun aggiornamento dei parametri. Il codice sarà disponibile su https://github.com/JianghaoWu/TAGS.
English
Recent advances such as Chain-of-Thought prompting have significantly
improved large language models (LLMs) in zero-shot medical reasoning. However,
prompting-based methods often remain shallow and unstable, while fine-tuned
medical LLMs suffer from poor generalization under distribution shifts and
limited adaptability to unseen clinical scenarios. To address these
limitations, we present TAGS, a test-time framework that combines a broadly
capable generalist with a domain-specific specialist to offer complementary
perspectives without any model fine-tuning or parameter updates. To support
this generalist-specialist reasoning process, we introduce two auxiliary
modules: a hierarchical retrieval mechanism that provides multi-scale exemplars
by selecting examples based on both semantic and rationale-level similarity,
and a reliability scorer that evaluates reasoning consistency to guide final
answer aggregation. TAGS achieves strong performance across nine MedQA
benchmarks, boosting GPT-4o accuracy by 13.8%, DeepSeek-R1 by 16.8%, and
improving a vanilla 7B model from 14.1% to 23.9%. These results surpass several
fine-tuned medical LLMs, without any parameter updates. The code will be
available at https://github.com/JianghaoWu/TAGS.