ChatPaper.aiChatPaper

TAGS: Un Framework Generalista-Specialista per il Test-Time con Ragionamento e Verifica Aumentati dal Recupero di Informazioni

TAGS: A Test-Time Generalist-Specialist Framework with Retrieval-Augmented Reasoning and Verification

May 23, 2025
Autori: Jianghao Wu, Feilong Tang, Yulong Li, Ming Hu, Haochen Xue, Shoaib Jameel, Yutong Xie, Imran Razzak
cs.AI

Abstract

I recenti progressi, come il prompting a catena di pensiero (Chain-of-Thought), hanno migliorato significativamente i grandi modelli linguistici (LLMs) nel ragionamento medico zero-shot. Tuttavia, i metodi basati sul prompting spesso rimangono superficiali e instabili, mentre i LLMs medici fine-tuned soffrono di una scarsa generalizzazione in caso di cambiamenti nella distribuzione dei dati e di una limitata adattabilità a scenari clinici non visti. Per affrontare queste limitazioni, presentiamo TAGS, un framework in fase di test che combina un generalista ampiamente capace con uno specialista specifico del dominio per offrire prospettive complementari senza alcun fine-tuning o aggiornamento dei parametri del modello. Per supportare questo processo di ragionamento generalista-specialista, introduciamo due moduli ausiliari: un meccanismo di recupero gerarchico che fornisce esempi multi-scala selezionando casi basati sia sulla similarità semantica che a livello di ragionamento, e uno scorer di affidabilità che valuta la coerenza del ragionamento per guidare l'aggregazione finale delle risposte. TAGS ottiene prestazioni solide su nove benchmark MedQA, aumentando l'accuratezza di GPT-4o del 13.8%, di DeepSeek-R1 del 16.8%, e migliorando un modello vanilla da 7B dal 14.1% al 23.9%. Questi risultati superano diversi LLMs medici fine-tuned, senza alcun aggiornamento dei parametri. Il codice sarà disponibile su https://github.com/JianghaoWu/TAGS.
English
Recent advances such as Chain-of-Thought prompting have significantly improved large language models (LLMs) in zero-shot medical reasoning. However, prompting-based methods often remain shallow and unstable, while fine-tuned medical LLMs suffer from poor generalization under distribution shifts and limited adaptability to unseen clinical scenarios. To address these limitations, we present TAGS, a test-time framework that combines a broadly capable generalist with a domain-specific specialist to offer complementary perspectives without any model fine-tuning or parameter updates. To support this generalist-specialist reasoning process, we introduce two auxiliary modules: a hierarchical retrieval mechanism that provides multi-scale exemplars by selecting examples based on both semantic and rationale-level similarity, and a reliability scorer that evaluates reasoning consistency to guide final answer aggregation. TAGS achieves strong performance across nine MedQA benchmarks, boosting GPT-4o accuracy by 13.8%, DeepSeek-R1 by 16.8%, and improving a vanilla 7B model from 14.1% to 23.9%. These results surpass several fine-tuned medical LLMs, without any parameter updates. The code will be available at https://github.com/JianghaoWu/TAGS.
PDF22May 27, 2025