O1 Путешествие репликации - Часть 3: Масштабирование во время вывода для медицинского рассуждения
O1 Replication Journey -- Part 3: Inference-time Scaling for Medical Reasoning
January 11, 2025
Авторы: Zhongzhen Huang, Gui Geng, Shengyi Hua, Zhen Huang, Haoyang Zou, Shaoting Zhang, Pengfei Liu, Xiaofan Zhang
cs.AI
Аннотация
На основе наших предыдущих исследований репликации O1 (Часть 1: Обучение путём путешествия [Цинь и др., 2024] и Часть 2: Дистилляция [Хуанг и др., 2024]), данная работа исследует потенциал масштабирования во время вывода в больших языковых моделях (LLM) для медицинских задач рассуждения, начиная от диагностического принятия решений до планирования лечения. Через обширные эксперименты на медицинских бенчмарках различной сложности (MedQA, Medbullets и JAMA Clinical Challenges) наше исследование раскрывает несколько ключевых идей: (1) Увеличение времени вывода действительно приводит к улучшению производительности. С небольшим набором данных для обучения из 500 образцов наша модель обеспечивает значительное улучшение производительности на уровне 6%-11%. (2) Сложность задачи прямо коррелирует с необходимой длиной цепочек рассуждений, подтверждая необходимость продолжительных мыслительных процессов для сложных проблем. (3) Дифференциальные диагнозы, сгенерированные нашей моделью, соответствуют принципам гипотетико-дедуктивного метода, формируя список потенциальных состояний, которые могут объяснить симптомы пациента, и систематически сужая эти возможности путем оценки доказательств. Эти результаты демонстрируют многообещающее взаимодействие между масштабированием во время вывода и обучением путешествия в продвижении реальных клинических рассуждений LLM.
English
Building upon our previous investigations of O1 replication (Part 1: Journey
Learning [Qin et al., 2024] and Part 2: Distillation [Huang et al., 2024]),
this work explores the potential of inference-time scaling in large language
models (LLMs) for medical reasoning tasks, ranging from diagnostic
decision-making to treatment planning. Through extensive experiments on medical
benchmarks of varying complexity (MedQA, Medbullets, and JAMA Clinical
Challenges), our investigation reveals several key insights: (1) Increasing
inference time does lead to improved performance. With a modest training set of
500 samples, our model yields substantial performance improvements of 6%-11%.
(2) Task complexity directly correlates with the required length of reasoning
chains, confirming the necessity of extended thought processes for challenging
problems. (3) The differential diagnoses generated by our model adhere to the
principles of the hypothetico-deductive method, producing a list of potential
conditions that may explain a patient's symptoms and systematically narrowing
these possibilities by evaluating the evidence. These findings demonstrate the
promising synergy between inference-time scaling and journey learning in
advancing LLMs' real-world clinical reasoning capabilities.Summary
AI-Generated Summary