ChatPaper.aiChatPaper

От Medprompt к o1: Исследование стратегий времени выполнения для медицинских проблем вызова и за их пределами

From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

November 6, 2024
Авторы: Harsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz
cs.AI

Аннотация

Стратегии управления времени выполнения, такие как Medprompt, ценны для направления крупных языковых моделей (LLM) на высокие результаты в сложных задачах. Medprompt демонстрирует, что общая LLM может быть сосредоточена на достижении передовых результатов в специализированных областях, таких как медицина, используя подсказку для вызова стратегии времени выполнения, включающей цепочку рассуждений и ансамблирование. Модель o1-preview от OpenAI представляет новый парадигму, где модель разработана для выполнения рассуждений времени выполнения перед генерацией окончательных ответов. Мы стремимся понять поведение модели o1-preview на разнообразном наборе медицинских бенчмарков. Продолжая исследование Medprompt с GPT-4, мы систематически оцениваем модель o1-preview на различных медицинских бенчмарках. Заметно, что даже без техник подсказок, модель o1-preview в значительной степени превосходит серию GPT-4 с Medprompt. Мы также систематически изучаем эффективность классических стратегий инженерии подсказок, представленных Medprompt, в новой парадигме моделей рассуждений. Мы обнаружили, что подсказка с небольшим числом примеров затрудняет производительность o1, что указывает на то, что обучение в контексте может больше не быть эффективным подходом к управлению для моделей с встроенным рассуждением. В то время как ансамблирование остается жизнеспособным, оно требует больших ресурсов и тщательной оптимизации стоимости и производительности. Наш анализ стоимости и точности стратегий времени выполнения показывает фронт Парето, где GPT-4o представляет собой более доступный вариант, а o1-preview достигает передовых результатов за более высокую цену. Хотя o1-preview предлагает передовые результаты, GPT-4o с такими стратегиями управления, как Medprompt, сохраняет ценность в конкретных контекстах. Более того, мы отмечаем, что модель o1-preview достигла почти полного насыщения на многих существующих медицинских бенчмарках, подчеркивая необходимость новых, сложных бенчмарков. Мы завершаем рассмотрение общих направлений для вычислений времени вывода с LLM.
English
Run-time steering strategies like Medprompt are valuable for guiding large language models (LLMs) to top performance on challenging tasks. Medprompt demonstrates that a general LLM can be focused to deliver state-of-the-art performance on specialized domains like medicine by using a prompt to elicit a run-time strategy involving chain of thought reasoning and ensembling. OpenAI's o1-preview model represents a new paradigm, where a model is designed to do run-time reasoning before generating final responses. We seek to understand the behavior of o1-preview on a diverse set of medical challenge problem benchmarks. Following on the Medprompt study with GPT-4, we systematically evaluate the o1-preview model across various medical benchmarks. Notably, even without prompting techniques, o1-preview largely outperforms the GPT-4 series with Medprompt. We further systematically study the efficacy of classic prompt engineering strategies, as represented by Medprompt, within the new paradigm of reasoning models. We found that few-shot prompting hinders o1's performance, suggesting that in-context learning may no longer be an effective steering approach for reasoning-native models. While ensembling remains viable, it is resource-intensive and requires careful cost-performance optimization. Our cost and accuracy analysis across run-time strategies reveals a Pareto frontier, with GPT-4o representing a more affordable option and o1-preview achieving state-of-the-art performance at higher cost. Although o1-preview offers top performance, GPT-4o with steering strategies like Medprompt retains value in specific contexts. Moreover, we note that the o1-preview model has reached near-saturation on many existing medical benchmarks, underscoring the need for new, challenging benchmarks. We close with reflections on general directions for inference-time computation with LLMs.

Summary

AI-Generated Summary

PDF101November 13, 2024