TAGS: Фреймворк для тестирования "Универсал-Специалист" с расширенным поиском и верификацией на этапе рассуждений
TAGS: A Test-Time Generalist-Specialist Framework with Retrieval-Augmented Reasoning and Verification
May 23, 2025
Авторы: Jianghao Wu, Feilong Tang, Yulong Li, Ming Hu, Haochen Xue, Shoaib Jameel, Yutong Xie, Imran Razzak
cs.AI
Аннотация
Недавние достижения, такие как метод Chain-of-Thought prompting, значительно улучшили возможности крупных языковых моделей (LLM) в задачах медицинского рассуждения в условиях нулевого сэмплинга. Однако методы, основанные на подсказках, часто остаются поверхностными и неустойчивыми, в то время как специализированные медицинские LLM страдают от плохой обобщаемости при сдвигах распределения данных и ограниченной адаптируемости к новым клиническим сценариям. Для решения этих проблем мы представляем TAGS — фреймворк для тестирования, который объединяет универсальную модель общего назначения с узкоспециализированной моделью, чтобы предложить дополнительные перспективы без необходимости тонкой настройки или обновления параметров. Для поддержки этого процесса рассуждения "универсал-специалист" мы вводим два вспомогательных модуля: иерархический механизм извлечения, который предоставляет примеры на разных уровнях, выбирая их на основе семантического сходства и сходства на уровне логики, и модуль оценки надежности, который анализирует согласованность рассуждений для агрегации окончательных ответов. TAGS демонстрирует высокую производительность на девяти бенчмарках MedQA, повышая точность GPT-4o на 13,8%, DeepSeek-R1 на 16,8% и улучшая базовую 7B-модель с 14,1% до 23,9%. Эти результаты превосходят несколько специализированных медицинских LLM, при этом не требуя обновления параметров. Код будет доступен по адресу https://github.com/JianghaoWu/TAGS.
English
Recent advances such as Chain-of-Thought prompting have significantly
improved large language models (LLMs) in zero-shot medical reasoning. However,
prompting-based methods often remain shallow and unstable, while fine-tuned
medical LLMs suffer from poor generalization under distribution shifts and
limited adaptability to unseen clinical scenarios. To address these
limitations, we present TAGS, a test-time framework that combines a broadly
capable generalist with a domain-specific specialist to offer complementary
perspectives without any model fine-tuning or parameter updates. To support
this generalist-specialist reasoning process, we introduce two auxiliary
modules: a hierarchical retrieval mechanism that provides multi-scale exemplars
by selecting examples based on both semantic and rationale-level similarity,
and a reliability scorer that evaluates reasoning consistency to guide final
answer aggregation. TAGS achieves strong performance across nine MedQA
benchmarks, boosting GPT-4o accuracy by 13.8%, DeepSeek-R1 by 16.8%, and
improving a vanilla 7B model from 14.1% to 23.9%. These results surpass several
fine-tuned medical LLMs, without any parameter updates. The code will be
available at https://github.com/JianghaoWu/TAGS.Summary
AI-Generated Summary