TAGS: Ein Framework für Generalisten-Spezialisten zur Testzeit mit abrufgestützter Argumentation und Verifizierung
TAGS: A Test-Time Generalist-Specialist Framework with Retrieval-Augmented Reasoning and Verification
May 23, 2025
Autoren: Jianghao Wu, Feilong Tang, Yulong Li, Ming Hu, Haochen Xue, Shoaib Jameel, Yutong Xie, Imran Razzak
cs.AI
Zusammenfassung
Jüngste Fortschritte wie Chain-of-Thought-Prompting haben die Leistung großer Sprachmodelle (LLMs) im Bereich des Zero-Shot-Medical-Reasonings erheblich verbessert. Allerdings bleiben Prompting-basierte Methoden oft oberflächlich und instabil, während feinabgestimmte medizinische LLMs unter schlechter Generalisierung bei Verteilungsverschiebungen und begrenzter Anpassungsfähigkeit an unbekannte klinische Szenarien leiden. Um diese Einschränkungen zu überwinden, präsentieren wir TAGS, ein Testzeit-Framework, das einen breitfähigen Generalisten mit einem domänenspezifischen Spezialisten kombiniert, um komplementäre Perspektiven zu bieten, ohne dass eine Feinabstimmung des Modells oder Parameteraktualisierungen erforderlich sind. Um diesen Generalist-Spezialist-Denkprozess zu unterstützen, führen wir zwei Hilfsmodule ein: einen hierarchischen Retrieval-Mechanismus, der mehrstufige Beispiele bereitstellt, indem Beispiele basierend auf semantischer und Begründungsebene-Ähnlichkeit ausgewählt werden, und einen Zuverlässigkeitsbewerter, der die Konsistenz der Argumentation bewertet, um die endgültige Antwortaggregation zu steuern. TAGS erzielt starke Leistungen über neun MedQA-Benchmarks hinweg, steigert die Genauigkeit von GPT-4o um 13,8 %, DeepSeek-R1 um 16,8 % und verbessert ein Standard-7B-Modell von 14,1 % auf 23,9 %. Diese Ergebnisse übertreffen mehrere feinabgestimmte medizinische LLMs, ohne dass Parameteraktualisierungen vorgenommen wurden. Der Code wird unter https://github.com/JianghaoWu/TAGS verfügbar sein.
English
Recent advances such as Chain-of-Thought prompting have significantly
improved large language models (LLMs) in zero-shot medical reasoning. However,
prompting-based methods often remain shallow and unstable, while fine-tuned
medical LLMs suffer from poor generalization under distribution shifts and
limited adaptability to unseen clinical scenarios. To address these
limitations, we present TAGS, a test-time framework that combines a broadly
capable generalist with a domain-specific specialist to offer complementary
perspectives without any model fine-tuning or parameter updates. To support
this generalist-specialist reasoning process, we introduce two auxiliary
modules: a hierarchical retrieval mechanism that provides multi-scale exemplars
by selecting examples based on both semantic and rationale-level similarity,
and a reliability scorer that evaluates reasoning consistency to guide final
answer aggregation. TAGS achieves strong performance across nine MedQA
benchmarks, boosting GPT-4o accuracy by 13.8%, DeepSeek-R1 by 16.8%, and
improving a vanilla 7B model from 14.1% to 23.9%. These results surpass several
fine-tuned medical LLMs, without any parameter updates. The code will be
available at https://github.com/JianghaoWu/TAGS.Summary
AI-Generated Summary