ChatPaper.aiChatPaper

O1 Replicatie Reis -- Deel 3: Schalen tijdens inferentie voor Medische Redenering

O1 Replication Journey -- Part 3: Inference-time Scaling for Medical Reasoning

January 11, 2025
Auteurs: Zhongzhen Huang, Gui Geng, Shengyi Hua, Zhen Huang, Haoyang Zou, Shaoting Zhang, Pengfei Liu, Xiaofan Zhang
cs.AI

Samenvatting

Voortbouwend op onze eerdere onderzoeken naar O1-replicatie (Deel 1: Journey Learning [Qin et al., 2024] en Deel 2: Distillatie [Huang et al., 2024]), verkent dit werk het potentieel van schaalvergroting op inferentietijd in grote taalmodellen (LLM's) voor medische redeneertaken, variërend van diagnostische besluitvorming tot behandelplanning. Door uitgebreide experimenten op medische benchmarks van verschillende complexiteit (MedQA, Medbullets en JAMA Clinical Challenges) onthult ons onderzoek verschillende belangrijke inzichten: (1) Het verhogen van de inferentietijd leidt inderdaad tot verbeterde prestaties. Met een bescheiden trainingsset van 500 voorbeelden levert ons model aanzienlijke prestatieverbeteringen op van 6%-11%. (2) De taakcomplexiteit correleert direct met de vereiste lengte van redeneerketens, wat de noodzaak van uitgebreide denkprocessen voor uitdagende problemen bevestigt. (3) De differentiële diagnoses gegenereerd door ons model voldoen aan de principes van de hypothetico-deductieve methode, waarbij een lijst van mogelijke aandoeningen wordt geproduceerd die de symptomen van een patiënt kunnen verklaren en systematisch deze mogelijkheden verkleinen door het bewijs te evalueren. Deze bevindingen tonen de veelbelovende synergie tussen schaalvergroting op inferentietijd en journey learning bij het verbeteren van de klinische redeneervaardigheden van LLM's in de echte wereld.
English
Building upon our previous investigations of O1 replication (Part 1: Journey Learning [Qin et al., 2024] and Part 2: Distillation [Huang et al., 2024]), this work explores the potential of inference-time scaling in large language models (LLMs) for medical reasoning tasks, ranging from diagnostic decision-making to treatment planning. Through extensive experiments on medical benchmarks of varying complexity (MedQA, Medbullets, and JAMA Clinical Challenges), our investigation reveals several key insights: (1) Increasing inference time does lead to improved performance. With a modest training set of 500 samples, our model yields substantial performance improvements of 6%-11%. (2) Task complexity directly correlates with the required length of reasoning chains, confirming the necessity of extended thought processes for challenging problems. (3) The differential diagnoses generated by our model adhere to the principles of the hypothetico-deductive method, producing a list of potential conditions that may explain a patient's symptoms and systematically narrowing these possibilities by evaluating the evidence. These findings demonstrate the promising synergy between inference-time scaling and journey learning in advancing LLMs' real-world clinical reasoning capabilities.

Summary

AI-Generated Summary

PDF322January 14, 2025