HuatuoGPT-o1, Rumo ao Raciocínio Complexo em Medicina com LLMsHuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs
A descoberta do OpenAI o1 destaca o potencial de aprimorar o raciocínio para melhorar o LLM. No entanto, a maioria das pesquisas em raciocínio tem se concentrado em tarefas matemáticas, deixando domínios como a medicina pouco explorados. O domínio médico, embora distinto da matemática, também exige um raciocínio robusto para fornecer respostas confiáveis, dadas as altas normas da assistência médica. No entanto, verificar o raciocínio médico é desafiador, ao contrário do que ocorre com a matemática. Para lidar com isso, propomos problemas médicos verificáveis com um verificador médico para verificar a correção das saídas do modelo. Essa natureza verificável possibilita avanços no raciocínio médico por meio de uma abordagem em duas etapas: (1) usar o verificador para orientar a busca por uma trajetória de raciocínio complexa para ajustar finamente os LLMs, (2) aplicar aprendizado por reforço (RL) com recompensas baseadas no verificador para aprimorar ainda mais o raciocínio complexo. Por fim, apresentamos o HuatuoGPT-o1, um LLM médico capaz de raciocínio complexo, que supera baselines gerais e específicos da área médica usando apenas 40 mil problemas verificáveis. Experimentos mostram que o raciocínio complexo melhora a resolução de problemas médicos e se beneficia mais do RL. Esperamos que nossa abordagem inspire avanços no raciocínio em domínios médicos e especializados.