Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Fähigkeit großer Sprachmodelle (LLMs), natürliche Sprachbefehle mit menschenähnlicher Flüssigkeit zu befolgen, eröffnet zahlreiche Möglichkeiten im Gesundheitswesen, um den administrativen Aufwand zu verringern und die Qualität der Versorgung zu verbessern. Die Bewertung von LLMs bei realistischen Textgenerierungsaufgaben im Gesundheitswesen bleibt jedoch eine Herausforderung. Bestehende Frage-Antwort-Datensätze für elektronische Gesundheitsakten (EHR) erfassen nicht die Komplexität der Informationsbedürfnisse und Dokumentationslasten, mit denen Kliniker konfrontiert sind. Um diese Herausforderungen zu bewältigen, stellen wir MedAlign vor, einen Benchmark-Datensatz mit 983 natürlichen Sprachbefehlen für EHR-Daten. MedAlign wurde von 15 Klinikern (7 Fachgebiete) kuratiert, enthält von Klinikern verfasste Referenzantworten für 303 Befehle und bietet 276 longitudinale EHRs zur Verankerung von Befehl-Antwort-Paaren. Wir nutzten MedAlign, um 6 allgemeine LLMs zu bewerten, wobei Kliniker die Genauigkeit und Qualität jeder LLM-Antwort bewerteten. Wir fanden hohe Fehlerraten, die von 35 % (GPT-4) bis 68 % (MPT-7B-Instruct) reichten, sowie einen Genauigkeitsverlust von 8,3 % beim Wechsel von 32k zu 2k Kontextlängen für GPT-4. Schließlich berichten wir über Korrelationen zwischen den Bewertungen der Kliniker und automatisierten Metriken zur natürlichen Sprachgenerierung als Möglichkeit, LLMs ohne menschliche Überprüfung zu bewerten. Wir stellen MedAlign unter einer Forschungsdaten-Nutzungsvereinbarung zur Verfügung, um LLM-Bewertungen an Aufgaben auszurichten, die den Bedürfnissen und Präferenzen von Klinikern entsprechen.
Die Vermeidung der Synthese spezifischer visueller Konzepte stellt eine wesentliche Herausforderung in der verantwortungsvollen visuellen Synthese dar. Allerdings sind die visuellen Konzepte, die für eine verantwortungsvolle visuelle Synthese vermieden werden müssen, tendenziell vielfältig und hängen von der Region, dem Kontext und den Nutzungsszenarien ab. In dieser Arbeit formalisieren wir eine neue Aufgabe, die Open-vocabulary Responsible Visual Synthesis (ORES), bei der das Synthesemodell in der Lage ist, verbotene visuelle Konzepte zu vermeiden, während es den Nutzern ermöglicht, beliebige Inhalte einzugeben. Um dieses Problem zu lösen, präsentieren wir ein Zwei-Stufen-Interventionsframework (Two-stage Intervention, TIN). Durch die Einführung von 1) Umformulierung mit lernbaren Anweisungen über ein großes Sprachmodell (Large-scale Language Model, LLM) und 2) Synthese mit Eingriffs-Prompts auf einem Diffusionssynthesemodell kann es effektiv Bilder synthetisieren, die alle Konzepte vermeiden, aber die Anfrage des Nutzers so weit wie möglich berücksichtigen. Zur Bewertung von ORES stellen wir einen öffentlich verfügbaren Datensatz, Basismodelle und einen Benchmark bereit. Experimentelle Ergebnisse demonstrieren die Effektivität unserer Methode bei der Reduzierung von Risiken in der Bildgenerierung. Unsere Arbeit unterstreicht das Potenzial von LLMs in der verantwortungsvollen visuellen Synthese. Unser Code und Datensatz sind öffentlich zugänglich.