TAGS: Un Marco de Generalista-Especialista en Tiempo de Prueba con Razonamiento y Verificación Aumentados por Recuperación
TAGS: A Test-Time Generalist-Specialist Framework with Retrieval-Augmented Reasoning and Verification
May 23, 2025
Autores: Jianghao Wu, Feilong Tang, Yulong Li, Ming Hu, Haochen Xue, Shoaib Jameel, Yutong Xie, Imran Razzak
cs.AI
Resumen
Los avances recientes, como el enfoque de "Chain-of-Thought prompting", han mejorado significativamente los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en el razonamiento médico de "zero-shot". Sin embargo, los métodos basados en "prompting" suelen ser superficiales e inestables, mientras que los LLMs médicos ajustados específicamente sufren de una mala generalización bajo cambios de distribución y una adaptabilidad limitada a escenarios clínicos no vistos. Para abordar estas limitaciones, presentamos TAGS, un marco de trabajo en tiempo de prueba que combina un generalista de amplias capacidades con un especialista específico del dominio para ofrecer perspectivas complementarias sin necesidad de ajustar el modelo o actualizar parámetros. Para respaldar este proceso de razonamiento generalista-especialista, introducimos dos módulos auxiliares: un mecanismo de recuperación jerárquica que proporciona ejemplos a múltiples escalas seleccionando casos basados en similitudes tanto semánticas como a nivel de razonamiento, y un evaluador de confiabilidad que mide la consistencia del razonamiento para guiar la agregación final de respuestas. TAGS logra un rendimiento sólido en nueve benchmarks de MedQA, aumentando la precisión de GPT-4o en un 13.8%, la de DeepSeek-R1 en un 16.8%, y mejorando un modelo básico de 7B desde un 14.1% hasta un 23.9%. Estos resultados superan a varios LLMs médicos ajustados específicamente, sin necesidad de actualizaciones de parámetros. El código estará disponible en https://github.com/JianghaoWu/TAGS.
English
Recent advances such as Chain-of-Thought prompting have significantly
improved large language models (LLMs) in zero-shot medical reasoning. However,
prompting-based methods often remain shallow and unstable, while fine-tuned
medical LLMs suffer from poor generalization under distribution shifts and
limited adaptability to unseen clinical scenarios. To address these
limitations, we present TAGS, a test-time framework that combines a broadly
capable generalist with a domain-specific specialist to offer complementary
perspectives without any model fine-tuning or parameter updates. To support
this generalist-specialist reasoning process, we introduce two auxiliary
modules: a hierarchical retrieval mechanism that provides multi-scale exemplars
by selecting examples based on both semantic and rationale-level similarity,
and a reliability scorer that evaluates reasoning consistency to guide final
answer aggregation. TAGS achieves strong performance across nine MedQA
benchmarks, boosting GPT-4o accuracy by 13.8%, DeepSeek-R1 by 16.8%, and
improving a vanilla 7B model from 14.1% to 23.9%. These results surpass several
fine-tuned medical LLMs, without any parameter updates. The code will be
available at https://github.com/JianghaoWu/TAGS.Summary
AI-Generated Summary