ChatPaper.aiChatPaper

TAGS: Een Test-Time Generalist-Specialist Framework met Retrieval-Augmented Redenering en Verificatie

TAGS: A Test-Time Generalist-Specialist Framework with Retrieval-Augmented Reasoning and Verification

May 23, 2025
Auteurs: Jianghao Wu, Feilong Tang, Yulong Li, Ming Hu, Haochen Xue, Shoaib Jameel, Yutong Xie, Imran Razzak
cs.AI

Samenvatting

Recente ontwikkelingen zoals Chain-of-Thought prompting hebben grote taalmodellen (LLMs) aanzienlijk verbeterd in zero-shot medisch redeneren. Prompting-gebaseerde methoden blijven echter vaak oppervlakkig en instabiel, terwijl fijn afgestemde medische LLMs te kampen hebben met slechte generalisatie onder distributieverschuivingen en beperkte aanpassingsvermogen aan onbekende klinische scenario's. Om deze beperkingen aan te pakken, presenteren we TAGS, een test-time framework dat een breed capabele generalist combineert met een domeinspecifieke specialist om complementaire perspectieven te bieden zonder enige modelafstemming of parameterupdates. Om dit generalist-specialist redeneerproces te ondersteunen, introduceren we twee aanvullende modules: een hiërarchisch retrievalsysteem dat multi-schaal voorbeelden biedt door voorbeelden te selecteren op basis van zowel semantische als redeneerniveau-overeenkomsten, en een betrouwbaarheidsscorer die de consistentie van het redeneren evalueert om de uiteindelijke antwoordaggregatie te begeleiden. TAGS behaalt sterke prestaties op negen MedQA benchmarks, waarbij de nauwkeurigheid van GPT-4o met 13,8% wordt verhoogd, DeepSeek-R1 met 16,8%, en een standaard 7B-model wordt verbeterd van 14,1% naar 23,9%. Deze resultaten overtreffen verschillende fijn afgestemde medische LLMs, zonder enige parameterupdates. De code zal beschikbaar zijn op https://github.com/JianghaoWu/TAGS.
English
Recent advances such as Chain-of-Thought prompting have significantly improved large language models (LLMs) in zero-shot medical reasoning. However, prompting-based methods often remain shallow and unstable, while fine-tuned medical LLMs suffer from poor generalization under distribution shifts and limited adaptability to unseen clinical scenarios. To address these limitations, we present TAGS, a test-time framework that combines a broadly capable generalist with a domain-specific specialist to offer complementary perspectives without any model fine-tuning or parameter updates. To support this generalist-specialist reasoning process, we introduce two auxiliary modules: a hierarchical retrieval mechanism that provides multi-scale exemplars by selecting examples based on both semantic and rationale-level similarity, and a reliability scorer that evaluates reasoning consistency to guide final answer aggregation. TAGS achieves strong performance across nine MedQA benchmarks, boosting GPT-4o accuracy by 13.8%, DeepSeek-R1 by 16.8%, and improving a vanilla 7B model from 14.1% to 23.9%. These results surpass several fine-tuned medical LLMs, without any parameter updates. The code will be available at https://github.com/JianghaoWu/TAGS.
PDF22May 27, 2025