papers.description
In den letzten Monaten hat sich ein neuer, vielversprechender Trend entwickelt, bei dem große Sprachmodelle (LLMs) erweitert werden, um autonome Sprachagenten zu schaffen, die in der Lage sind, zielorientierte, mehrstufige Aufgaben eigenständig auszuführen, anstatt lediglich auf Anfragen menschlicher Benutzer zu reagieren. Die meisten bestehenden Sprachagenten sind jedoch nicht durch umgebungsspezifische Belohnungen optimiert. Obwohl einige Agenten eine iterative Verbesserung durch verbales Feedback ermöglichen, planen und argumentieren sie nicht auf eine Weise, die mit einem gradientenbasierten Lernen aus Belohnungen kompatibel ist. Dieses Papier stellt ein prinzipielles Framework vor, um große Sprachagenten durch das Lernen eines retrospektiven Modells zu verstärken, das die Prompts des Sprachagenten automatisch durch Policy-Gradient-Methoden anhand von Umgebungsfeedback anpasst. Konkret lernt unsere vorgeschlagene Agentenarchitektur aus Belohnungen über mehrere Umgebungen und Aufgaben hinweg, um ein vortrainiertes Sprachmodell zu feinabstimmen, das den Prompt des Sprachagenten verfeinert, indem es die Ursache früherer Fehlversuche zusammenfasst und Aktionspläne vorschlägt. Experimentelle Ergebnisse zu verschiedenen Aufgaben zeigen, dass die Sprachagenten sich im Laufe der Zeit verbessern und dass unser Ansatz Baseline-Methoden, die Gradienten aus der Umgebung nicht effektiv nutzen, deutlich übertrifft. Dies verdeutlicht, dass die Optimierung von Sprachagenten durch Policy-Gradient-Methoden, wofür unsere Arbeit eine der ersten ist, vielversprechend ist und auf andere Modelle in der Agentenarchitektur angewendet werden kann, um die Leistung der Agenten im Laufe der Zeit zu steigern.
Wir stellen MM-Vet vor, einen Evaluierungsbenchmark, der große multimodale Modelle (LMMs) auf komplexe multimodale Aufgaben hin untersucht. Aktuelle LMMs haben verschiedene faszinierende Fähigkeiten gezeigt, wie das Lösen von mathematischen Problemen, die auf einer Tafel geschrieben sind, das Schlussfolgern über Ereignisse und Prominente in Nachrichtenbildern und das Erklären von visuellen Witzen. Die schnellen Fortschritte bei den Modellen stellen Herausforderungen für die Entwicklung von Evaluierungsbenchmarks dar. Zu den Problemen gehören: (1) Wie man die komplexen multimodalen Aufgaben systematisch strukturiert und bewertet; (2) Wie man Evaluierungsmetriken entwirft, die gut über verschiedene Frage- und Antworttypen hinweg funktionieren; und (3) Wie man Einblicke in die Modelle über eine einfache Leistungsrangfolge hinaus gibt. Zu diesem Zweck präsentieren wir MM-Vet, das auf der Erkenntnis basiert, dass die faszinierende Fähigkeit, komplexe Aufgaben zu lösen, oft von einem Generalistenmodell erreicht wird, das verschiedene Kernfähigkeiten der visuell-sprachlichen (VL) Integration beherrscht. MM-Vet definiert 6 Kern-VL-Fähigkeiten und untersucht die 16 interessanten Integrationen, die sich aus der Kombination dieser Fähigkeiten ergeben. Für die Evaluierungsmetriken schlagen wir einen LLM-basierten Evaluator für offene Ausgaben vor. Der Evaluator ermöglicht die Bewertung über verschiedene Fragentypen und Antwortstile hinweg, was zu einer einheitlichen Bewertungsmetrik führt. Wir evaluieren repräsentative LMMs auf MM-Vet und liefern Einblicke in die Fähigkeiten verschiedener LMM-Systemparadigmen und Modelle. Code und Daten sind verfügbar unter https://github.com/yuweihao/MM-Vet.
Die Open-Vocabulary-Segmentierung ist eine anspruchsvolle Aufgabe, bei der Objekte aus einer offenen Menge von Kategorien segmentiert und erkannt werden müssen. Eine Möglichkeit, diese Herausforderung zu bewältigen, besteht darin, multimodale Modelle wie CLIP zu nutzen, um Bild- und Textmerkmale in einem gemeinsamen Einbettungsraum bereitzustellen, wodurch die Lücke zwischen der Closed-Vocabulary- und der Open-Vocabulary-Erkennung überbrückt wird. Daher verwenden bestehende Methoden oft ein zweistufiges Framework, um das Problem zu lösen, bei dem die Eingaben zunächst einen Maskengenerator durchlaufen und dann zusammen mit den vorhergesagten Masken durch das CLIP-Modell verarbeitet werden. Dieser Prozess beinhaltet die mehrfache Extraktion von Merkmalen aus Bildern, was ineffektiv und ineffizient sein kann. Im Gegensatz dazu schlagen wir vor, alles in ein einstufiges Framework zu integrieren, das einen gemeinsamen Frozen Convolutional CLIP-Backbone verwendet. Dies vereinfacht nicht nur den aktuellen zweistufigen Prozess erheblich, sondern führt auch zu einem deutlich besseren Kompromiss zwischen Genauigkeit und Kosten. Das vorgeschlagene FC-CLIP profitiert von den folgenden Beobachtungen: Der eingefrorene CLIP-Backbone behält die Fähigkeit zur Open-Vocabulary-Klassifizierung bei und kann auch als starker Maskengenerator dienen, und das konvolutionale CLIP verallgemeinert gut auf eine größere Eingabeauflösung als diejenige, die während des kontrastiven Bild-Text-Pretrainings verwendet wurde. Wenn FC-CLIP nur auf COCO-Panoptic-Daten trainiert und auf Null-Shot-Weise getestet wird, erreicht es 26,8 PQ, 16,8 AP und 34,1 mIoU auf ADE20K, 18,2 PQ und 27,9 mIoU auf Mapillary Vistas sowie 44,0 PQ, 26,8 AP und 56,2 mIoU auf Cityscapes, womit es den bisherigen Stand der Technik um +4,2 PQ, +2,4 AP und +4,2 mIoU auf ADE20K, +4,0 PQ auf Mapillary Vistas und +20,1 PQ auf Cityscapes übertrifft. Darüber hinaus ist die Trainings- und Testzeit von FC-CLIP 7,5x bzw. 6,6x deutlich schneller als beim gleichen Stand der Technik, während 5,9x weniger Parameter verwendet werden. FC-CLIP setzt auch neue Maßstäbe in der Leistung über verschiedene Open-Vocabulary-Semantik-Segmentierungsdatensätze hinweg. Code unter https://github.com/bytedance/fc-clip.
Die Zuordnung von Patienten zu klinischen Studien ist ein zentraler Prozess in der Gesundheitsversorgung und Forschung. In der Praxis wird dieser Prozess jedoch durch überwältigende Mengen unstrukturierter Daten und manuelle, nicht skalierbare Bearbeitung erschwert. In diesem Artikel führen wir eine systematische Studie zur Skalierung der klinischen Studienzuordnung mithilfe von Large Language Models (LLMs) durch, wobei der Schwerpunkt auf der Onkologie liegt. Unsere Studie basiert auf einem klinischen Studienzuordnungssystem, das derzeit in einem großen US-Gesundheitsnetzwerk im Testbetrieb eingesetzt wird. Die ersten Ergebnisse sind vielversprechend: State-of-the-Art-LLMs wie GPT-4 können bereits komplexe Zulassungskriterien für klinische Studien strukturieren und anspruchsvolle Zuordnungslogik (z. B. verschachtelte UND/ODER/NICHT-Bedingungen) extrahieren. Obwohl noch weit von Perfektion entfernt, übertreffen LLMs bisherige starke Baselines deutlich und könnten als vorläufige Lösung dienen, um die Zuordnung von Patienten zu Studienkandidaten mit menschlicher Beteiligung zu unterstützen. Unsere Studie zeigt auch einige bedeutende Entwicklungsbereiche für den Einsatz von LLMs in der end-to-end klinischen Studienzuordnung auf, wie z. B. Kontextbeschränkungen und Genauigkeit, insbesondere bei der Strukturierung von Patienteninformationen aus longitudinalen medizinischen Aufzeichnungen.
Biomimetische, geschickte Roboterhände haben das Potenzial, viele der Aufgaben zu replizieren, die ein Mensch ausführen kann, und den Status einer allgemeinen Manipulationsplattform zu erreichen. Jüngste Fortschritte in Reinforcement-Learning (RL)-Frameworks haben bemerkenswerte Leistungen in der Fortbewegung von Vierbeinern und geschickten Manipulationsaufgaben erzielt. In Kombination mit GPU-basierten, hochgradig parallelisierten Simulationen, die in der Lage sind, Tausende von Robotern parallel zu simulieren, sind RL-basierte Controller skalierbarer und zugänglicher geworden. Um jedoch RL-trainierte Strategien in die reale Welt zu bringen, benötigen wir Trainingsframeworks, die Strategien ausgeben, die mit physischen Aktuatoren und Sensoren arbeiten können, sowie eine Hardwareplattform, die mit zugänglichen Materialien hergestellt werden kann und dennoch robust genug ist, um interaktive Strategien auszuführen. Diese Arbeit stellt die biomimetische, sehnengetriebene Faive Hand und ihre Systemarchitektur vor, die sehnengetriebene Rollkontaktgelenke verwendet, um einen 3D-druckbaren, robusten Handentwurf mit hohem Freiheitsgrad zu erreichen. Wir modellieren jedes Element der Hand und integrieren es in eine GPU-Simulationsumgebung, um eine Strategie mit RL zu trainieren, und erreichen einen Null-Shot-Transfer einer geschickten In-Hand-Kugelrotationsfähigkeit auf die physische Roboterhand.
Wir stellen Compartmentalized Diffusion Models (CDM) vor, eine Methode, um verschiedene Diffusionsmodelle (oder Prompts) auf unterschiedlichen Datenquellen zu trainieren und sie zur Inferenzzeit beliebig zu kombinieren. Die einzelnen Modelle können isoliert, zu verschiedenen Zeitpunkten und auf verschiedenen Verteilungen und Domänen trainiert werden und später zusammengesetzt werden, um eine Leistung zu erzielen, die mit einem Referenzmodell vergleichbar ist, das auf allen Daten gleichzeitig trainiert wurde. Darüber hinaus enthält jedes Modell nur Informationen über die Teilmenge der Daten, denen es während des Trainings ausgesetzt war, was verschiedene Formen des Schutzes von Trainingsdaten ermöglicht. Insbesondere sind CDMs die erste Methode, die sowohl selektives Vergessen als auch kontinuierliches Lernen für großskalige Diffusionsmodelle ermöglicht, sowie die Bereitstellung individueller Modelle basierend auf den Zugriffsrechten der Benutzer erlaubt. CDMs ermöglichen es auch, die Bedeutung einer Teilmenge der Daten bei der Erzeugung bestimmter Samples zu bestimmen.