ClinSeekAgent: Автоматизация мультимодального поиска доказательств для агентного клинического рассуждения

Аннотация

Большие языковые модели (LLM) и агентные системы продемонстрировали потенциал для поддержки клинических решений, однако существующие работы в основном исходят из того, что доказательства уже отобраны и переданы модели. В реальных клинических рабочих процессах агенты должны самостоятельно вести поиск, итеративно планировать и синтезировать мультимодальные доказательства из разнородных источников. В данной статье мы представляем ClinSeekAgent — автоматическую агентную платформу для динамического мультимодального поиска доказательств, которая меняет парадигму от пассивного потребления доказательств к их активному сбору. Получая лишь клинический запрос и доступ к исходным источникам данных, ClinSeekAgent собирает доказательства, запрашивая медицинские базы знаний, работая с необработанными электронными медицинскими картами (ЭМК) и вызывая инструменты медицинской визуализации; уточняет свои гипотезы по мере появления новой информации; и интегрирует собранные доказательства в обоснованные клинические решения. ClinSeekAgent служит как агентом времени логического вывода для передовых LLM, так и конвейером времени обучения для дистилляции высококачественных агентных траекторий в компактные модели с открытым исходным кодом. Для проверки его эффективности на этапе логического вывода мы создали ClinSeek-Bench, который сопоставляет рассуждения на основе предварительно отобранных фиксированных данных (Curated Input) с автоматизированным поиском доказательств по необработанным клиническим данным (Automated Evidence-Seeking). В задачах, использующих только текстовые ЭМК, ClinSeekAgent повышает показатели F1 у Claude Opus 4.6 с 60,0 до 63,2, а у MiniMax M2.5 — с 43,1 до 47,3, демонстрируя положительный прирост в прогнозировании рисков для 7 из 9 оцененных базовых моделей. В мультимодальных задачах ClinSeekAgent улучшает показатели Claude Opus 4.6 с 47,5 до 62,6 (+15,1); все оцененные модели улучшили свои результаты в трёх группах задач, связанных с рентгенографией грудной клетки (CXR). Мы дополнительно валидируем ClinSeekAgent как конвейер обучения, дистиллируя траектории агентного поиска доказательств в модель ClinSeek-35B-A3B, которая достигает среднего F1 34,0 на существующем бенчмарке AgentEHR-Bench, превосходя базовую модель Qwen3.5-35B-A3B на +11,9 пункта и приближаясь к показателям Claude Opus 4.6.

English

Large language models (LLMs) and agentic systems have shown promise for clinical decision support, but existing works largely assume that evidence has already been curated and handed to the model. Real-world clinical workflows instead require agents to actively seek, iteratively plan, and synthesize multimodal evidence from heterogeneous sources. In this paper, we introduce ClinSeekAgent, an automated agentic framework for dynamic multimodal evidence seeking that shifts the paradigm from passive evidence consumption to active evidence acquisition. Given only a clinical query and access to raw data sources, ClinSeekAgent gathers evidence by querying medical knowledge bases, navigating raw EHRs, and invoking medical imaging tools; refines its hypotheses as new information emerges; and integrates the collected evidence into grounded clinical decisions. ClinSeekAgent serves both as an inference-time agent for frontier LLMs and as a training-time pipeline for distilling high-quality agent trajectories into compact open-source models. To validate its inference-time effectiveness, we construct ClinSeek-Bench, which pairs Curated Input reasoning from fixed pre-selected evidence with Automated Evidence-Seeking over raw clinical data. On text-only EHR tasks, ClinSeekAgent improves Claude Opus 4.6 from 60.0 to 63.2 overall F1 and MiniMax M2.5 from 43.1 to 47.3, with positive risk-prediction gains in 7 out of 9 evaluated host models. On multimodal tasks, ClinSeekAgent improves Claude Opus 4.6 from 47.5 to 62.6 (+15.1); all evaluated models improve across the three CXR-related task groups. We further validate ClinSeekAgent as a training pipeline by distilling agentic evidence-seeking trajectories into ClinSeek-35B-A3B, which achieves 34.0 average F1 on existing AgentEHR-Bench, improving over its Qwen3.5-35B-A3B baseline by +11.9 points and approaching Claude Opus 4.6.