ChatPaper.aiChatPaper

Parcours de Réplication O1 - Partie 3 : Mise à l'échelle au moment de l'inférence pour le raisonnement médical

O1 Replication Journey -- Part 3: Inference-time Scaling for Medical Reasoning

January 11, 2025
Auteurs: Zhongzhen Huang, Gui Geng, Shengyi Hua, Zhen Huang, Haoyang Zou, Shaoting Zhang, Pengfei Liu, Xiaofan Zhang
cs.AI

Résumé

S'appuyant sur nos recherches antérieures sur la réplication O1 (Partie 1 : Apprentissage du Voyage [Qin et al., 2024] et Partie 2 : Distillation [Huang et al., 2024]), ce travail explore le potentiel de l'échelle de temps d'inférence dans les grands modèles de langage (LLM) pour les tâches de raisonnement médical, allant de la prise de décision diagnostique à la planification du traitement. À travers des expériences approfondies sur des référentiels médicaux de complexité variable (MedQA, Medbullets et JAMA Clinical Challenges), notre enquête révèle plusieurs idées clés : (1) Augmenter le temps d'inférence conduit à une amélioration des performances. Avec un ensemble d'entraînement modeste de 500 échantillons, notre modèle produit des améliorations de performances substantielles de 6 % à 11 %. (2) La complexité de la tâche est directement liée à la longueur requise des chaînes de raisonnement, confirmant la nécessité de processus de réflexion étendus pour les problèmes difficiles. (3) Les diagnostics différentiels générés par notre modèle respectent les principes de la méthode hypothético-déductive, produisant une liste de conditions potentielles pouvant expliquer les symptômes d'un patient et réduisant systématiquement ces possibilités en évaluant les preuves. Ces résultats démontrent la synergie prometteuse entre l'échelle de temps d'inférence et l'apprentissage du voyage dans le développement des capacités de raisonnement clinique en monde réel des LLM.
English
Building upon our previous investigations of O1 replication (Part 1: Journey Learning [Qin et al., 2024] and Part 2: Distillation [Huang et al., 2024]), this work explores the potential of inference-time scaling in large language models (LLMs) for medical reasoning tasks, ranging from diagnostic decision-making to treatment planning. Through extensive experiments on medical benchmarks of varying complexity (MedQA, Medbullets, and JAMA Clinical Challenges), our investigation reveals several key insights: (1) Increasing inference time does lead to improved performance. With a modest training set of 500 samples, our model yields substantial performance improvements of 6%-11%. (2) Task complexity directly correlates with the required length of reasoning chains, confirming the necessity of extended thought processes for challenging problems. (3) The differential diagnoses generated by our model adhere to the principles of the hypothetico-deductive method, producing a list of potential conditions that may explain a patient's symptoms and systematically narrowing these possibilities by evaluating the evidence. These findings demonstrate the promising synergy between inference-time scaling and journey learning in advancing LLMs' real-world clinical reasoning capabilities.

Summary

AI-Generated Summary

PDF322January 14, 2025