HuatuoGPT-o1, Auf dem Weg zu medizinischem komplexem Schlussfolgern mit LLMsHuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs
Der Durchbruch von OpenAI o1 hebt das Potenzial hervor, die Argumentation zur Verbesserung von LLM zu stärken. Dennoch hat sich die meiste Forschung zur Argumentation auf mathematische Aufgaben konzentriert, wodurch Bereiche wie die Medizin untererforscht geblieben sind. Der medizinische Bereich, obwohl von der Mathematik verschieden, erfordert ebenfalls robuste Argumentation, um zuverlässige Antworten zu liefern, angesichts hoher Gesundheitsstandards. Die Überprüfung medizinischer Argumentation ist jedoch herausfordernd im Gegensatz zu jener in der Mathematik. Um dem entgegenzuwirken, schlagen wir vor, überprüfbare medizinische Probleme mit einem medizinischen Verifizierer vorzulegen, um die Korrektheit der Modellausgaben zu überprüfen. Diese überprüfbare Natur ermöglicht Fortschritte in der medizinischen Argumentation durch einen zweistufigen Ansatz: (1) Verwendung des Verifizierers, um die Suche nach einer komplexen Argumentationstrajectorie zur Feinabstimmung von LLMs zu lenken, (2) Anwendung von Verstärkendem Lernen (RL) mit verifiziererbasierten Belohnungen, um die komplexe Argumentation weiter zu verbessern. Schließlich stellen wir HuatuoGPT-o1 vor, ein medizinisches LLM, das zu komplexer Argumentation fähig ist und allgemeine sowie medizinisch-spezifische Baselines mit nur 40.000 überprüfbaren Problemen übertrifft. Experimente zeigen, dass komplexe Argumentation die Lösung medizinischer Probleme verbessert und stärker von RL profitiert. Wir hoffen, dass unser Ansatz Fortschritte in der Argumentation in medizinischen und anderen spezialisierten Bereichen inspiriert.