ChatPaper.aiChatPaper

De Medprompt a o1: Exploración de Estrategias en Tiempo de Ejecución para Problemas de Desafío Médico y Más Allá

From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

November 6, 2024
Autores: Harsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz
cs.AI

Resumen

Estrategias de dirección en tiempo de ejecución como Medprompt son valiosas para guiar a grandes modelos de lenguaje (LLMs) hacia un rendimiento óptimo en tareas desafiantes. Medprompt demuestra que un LLM general puede ser enfocado para ofrecer un rendimiento de vanguardia en dominios especializados como la medicina mediante el uso de un estímulo para provocar una estrategia en tiempo de ejecución que involucra razonamiento en cadena y ensamblaje. El modelo o1-preview de OpenAI representa un nuevo paradigma, donde un modelo está diseñado para razonar en tiempo de ejecución antes de generar respuestas finales. Buscamos comprender el comportamiento de o1-preview en un conjunto diverso de desafíos médicos. Siguiendo el estudio de Medprompt con GPT-4, evaluamos sistemáticamente el modelo o1-preview en varios benchmarks de problemas médicos. Destacadamente, incluso sin técnicas de estímulo, o1-preview supera en gran medida a la serie GPT-4 con Medprompt. Además, estudiamos sistemáticamente la eficacia de estrategias clásicas de ingeniería de estímulos, representadas por Medprompt, dentro del nuevo paradigma de modelos de razonamiento. Descubrimos que el estímulo de pocos ejemplos obstaculiza el rendimiento de o1, lo que sugiere que el aprendizaje en contexto puede que ya no sea un enfoque efectivo para modelos nativos de razonamiento. Aunque el ensamblaje sigue siendo viable, es intensivo en recursos y requiere una optimización cuidadosa del rendimiento en relación al costo. Nuestro análisis de costo y precisión en las estrategias de tiempo de ejecución revela una frontera de Pareto, donde GPT-4o representa una opción más asequible y o1-preview logra un rendimiento de vanguardia a un costo más alto. Aunque o1-preview ofrece un rendimiento óptimo, GPT-4o con estrategias de dirección como Medprompt conserva valor en contextos específicos. Además, observamos que el modelo o1-preview ha alcanzado una saturación cercana en muchos benchmarks médicos existentes, subrayando la necesidad de nuevos benchmarks desafiantes. Concluimos con reflexiones sobre las direcciones generales para la computación en tiempo de inferencia con LLMs.
English
Run-time steering strategies like Medprompt are valuable for guiding large language models (LLMs) to top performance on challenging tasks. Medprompt demonstrates that a general LLM can be focused to deliver state-of-the-art performance on specialized domains like medicine by using a prompt to elicit a run-time strategy involving chain of thought reasoning and ensembling. OpenAI's o1-preview model represents a new paradigm, where a model is designed to do run-time reasoning before generating final responses. We seek to understand the behavior of o1-preview on a diverse set of medical challenge problem benchmarks. Following on the Medprompt study with GPT-4, we systematically evaluate the o1-preview model across various medical benchmarks. Notably, even without prompting techniques, o1-preview largely outperforms the GPT-4 series with Medprompt. We further systematically study the efficacy of classic prompt engineering strategies, as represented by Medprompt, within the new paradigm of reasoning models. We found that few-shot prompting hinders o1's performance, suggesting that in-context learning may no longer be an effective steering approach for reasoning-native models. While ensembling remains viable, it is resource-intensive and requires careful cost-performance optimization. Our cost and accuracy analysis across run-time strategies reveals a Pareto frontier, with GPT-4o representing a more affordable option and o1-preview achieving state-of-the-art performance at higher cost. Although o1-preview offers top performance, GPT-4o with steering strategies like Medprompt retains value in specific contexts. Moreover, we note that the o1-preview model has reached near-saturation on many existing medical benchmarks, underscoring the need for new, challenging benchmarks. We close with reflections on general directions for inference-time computation with LLMs.

Summary

AI-Generated Summary

PDF101November 13, 2024