ChatPaper.aiChatPaper

m1: 대규모 언어 모델을 활용한 의료 추론에서 테스트 타임 스케일링의 잠재력 발휘

m1: Unleash the Potential of Test-Time Scaling for Medical Reasoning with Large Language Models

April 1, 2025
저자: Xiaoke Huang, Juncheng Wu, Hui Liu, Xianfeng Tang, Yuyin Zhou
cs.AI

초록

테스트 시간 스케일링(test-time scaling)은 대형 언어 모델의 추론 능력을 향상시키는 강력한 기술로 부상했습니다. 그러나 의료 영역은 지식 표현과 의사결정 과정 측면에서 수학적 과제와 근본적으로 다르기 때문에, 의료 추론에서의 효과는 여전히 불확실합니다. 본 논문에서는 의료 추론을 위한 테스트 시간 스케일링에 대한 첫 번째 포괄적인 연구를 제공하고, 추론 시 모델의 의료 추론 능력을 향상시키는 간단하지만 효과적인 접근 방식인 m1을 제시합니다. 다양한 의료 과제에 대한 평가를 통해 테스트 시간 스케일링이 의료 추론을 지속적으로 향상시키며, 100억 파라미터 미만의 경량 미세 조정 모델이 새로운 최첨단 성능을 달성할 수 있음을 입증했습니다. 또한, 320억 파라미터 모델은 이전 700억 규모 의료 LLM과 견줄 만한 성능을 보였습니다. 그러나 약 4K의 최적 추론 토큰 예산을 확인했으며, 이를 초과할 경우 과도한 사고로 인해 성능이 저하될 수 있음을 발견했습니다. 반복적인 프롬프트를 통해 테스트 시간 계산을 확장하는 예산 강제(budget forcing)는 모델이 답변을 재확인하도록 도우나, 전체 의료 질의응답 성능을 반드시 개선시키지는 않으며, 경우에 따라 이전에 정확했던 응답에 오류를 도입하기도 합니다. 사례별 분석을 통해 테스트 시간 스케일링을 통한 추가 성능 향상을 방해하는 주요 병목 현상으로 불충분한 의료 지식을 확인했습니다. 데이터 규모 증가, 데이터 품질 개선, 모델 용량 확장은 의료 지식 기반을 지속적으로 강화하며, 특히 작은 모델이 포화 상태에 도달하는 어려운 의료 벤치마크에서 지속적인 성능 향상을 가능하게 합니다. 이러한 발견은 의료 추론과 수학적 추론 간의 근본적인 차이를 강조하며, 단순히 추론 깊이를 늘리는 것 외에도 풍부한 의료 지식이 테스트 시간 스케일링의 이점을 실현하는 데 필수적임을 시사합니다.
English
Test-time scaling has emerged as a powerful technique for enhancing the reasoning capabilities of large language models. However, its effectiveness in medical reasoning remains uncertain, as the medical domain fundamentally differs from mathematical tasks in terms of knowledge representation and decision-making processes. In this paper, we provide the first comprehensive investigation of test-time scaling for medical reasoning and present m1, a simple yet effective approach that increases a model's medical reasoning capability at inference. Our evaluation across diverse medical tasks demonstrates that test-time scaling consistently enhances medical reasoning, enabling lightweight fine-tuned models under 10B parameters to establish new state-of-the-art performance, while our 32B model rivals previous 70B-scale medical LLMs. However, we identify an optimal reasoning token budget of approximately 4K, beyond which performance may degrade due to overthinking. Budget forcing, which extends test-time computation through iterative prompts, helps models double-check answers but does not necessarily improve the overall medical QA performance and, in some cases, even introduces errors into previously correct responses. Our case-by-case analysis identifies insufficient medical knowledge as a key bottleneck that prevents further performance gains through test-time scaling. We find that increasing data scale, improving data quality, and expanding model capacity consistently enhance medical knowledge grounding, enabling continued performance improvements, particularly on challenging medical benchmarks where smaller models reach saturation. These findings underscore fundamental differences between medical and mathematical reasoning in LLMs, highlighting that enriched medical knowledge, other than increased reasoning depth alone, is essential for realizing the benefits of test-time scaling.

Summary

AI-Generated Summary

PDF102April 2, 2025