Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir schlagen eine neuartige, auf Persönlichkeiten basierende Datensynthesemethodik vor, die verschiedene Perspektiven innerhalb eines großen Sprachmodells (LLM) nutzt, um vielfältige synthetische Daten zu erstellen. Um diese Methodik im großen Maßstab voll auszuschöpfen, führen wir Persona Hub ein - eine Sammlung von 1 Milliarde vielfältigen Persönlichkeiten, die automatisch aus Webdaten kuratiert wurden. Diese 1 Milliarde Persönlichkeiten (~13% der Weltbevölkerung) fungieren als verteilte Träger des Weltwissens und können nahezu jede in dem LLM verkörperte Perspektive nutzen, um die Erstellung vielfältiger synthetischer Daten im großen Maßstab für verschiedene Szenarien zu erleichtern. Indem wir die Anwendungsfälle von Persona Hub bei der Synthese hochwertiger mathematischer und logischer Probleme, Anweisungen (d.h. Benutzeranfragen), wissensreicher Texte, Spiel-NPCs und Tools (Funktionen) im großen Maßstab vorstellen, zeigen wir, dass die auf Persönlichkeiten basierende Datensynthese vielseitig, skalierbar, flexibel und benutzerfreundlich ist. Dies könnte einen Paradigmenwechsel in der Erstellung synthetischer Daten und deren Anwendungen in der Praxis bewirken, was möglicherweise einen tiefgreifenden Einfluss auf die Forschung und Entwicklung von LLM hat.
Die rasante Entwicklung von multimodalen großen Sprachmodellen (MLLMs) wie GPT-4V hat zu bedeutenden Fortschritten geführt. Dennoch stehen diese Modelle immer noch vor Herausforderungen in den multimodalen medizinischen Fähigkeiten aufgrund von Einschränkungen in der Menge und Qualität von medizinischen Bild-Text-Daten, die auf Datenschutzbedenken und hohen Annotierungskosten beruhen. Während wegweisende Ansätze große, anonymisierte medizinische Bild-Text-Paare von PubMed nutzen, um diese Einschränkungen anzugehen, erreichen sie immer noch nicht das Ziel aufgrund inhärenter Datenrauschen. Um dies zu bewältigen, haben wir medizinische Bild-Text-Paare aus PubMed verfeinert und MLLMs (GPT-4V) in einer 'unverblindeten' Kapazität eingesetzt, um die Daten zu denoisieren und neu zu formatieren, was zur Erstellung des PubMedVision-Datensatzes mit 1,3 Millionen medizinischen VQA-Proben führte. Unsere Validierung zeigt, dass: (1) PubMedVision die medizinischen multimodalen Fähigkeiten aktueller MLLMs signifikant verbessern kann, was sich in signifikanten Verbesserungen bei Benchmarks wie dem MMMU Health & Medicine-Track zeigt; (2) manuelle Überprüfungen durch medizinische Experten und empirische Ergebnisse bestätigen die überlegene Datenqualität unseres Datensatzes im Vergleich zu anderen Methoden der Datenerstellung. Unter Verwendung von PubMedVision trainieren wir ein 34B medizinisches MLLM HuatuoGPT-Vision, das eine überlegene Leistung in medizinischen multimodalen Szenarien unter Open-Source MLLMs zeigt.
Im Bereich großer Sprachmodelle (LLMs) ist die Wissensverdichtung (KD) eine entscheidende Technik zur Übertragung von Fähigkeiten von Lehrmodellen auf Schülermodelle. Allerdings stoßen bestehende KD-Methoden auf Einschränkungen und Herausforderungen bei der Verdichtung von LLMs, darunter Effizienz und unzureichende Messfähigkeiten der traditionellen KL-Divergenz. Es wird gezeigt, dass LLMs als implizite Belohnungsfunktion dienen können, die wir als Ergänzung zur KL-Divergenz definieren. In dieser Arbeit schlagen wir die Direkte Präferenz-Wissensverdichtung (DPKD) für LLMs vor. DPKD nutzt Verteilungsdivergenz, um den Präferenzverlust und die implizite Belohnungsfunktion darzustellen. Wir formulieren die KD von LLMs in zwei Phasen um: zunächst die Optimierung eines Ziels, bestehend aus impliziter Belohnung und umgekehrter KL-Divergenz, und dann die Verbesserung der Präferenzwahrscheinlichkeit der Lehrausgaben gegenüber den Schülerausgaben. Wir führten Experimente und Analysen an verschiedenen Datensätzen mit LLM-Parametern von 120M bis 13B durch und zeigen die breite Anwendbarkeit und Wirksamkeit unseres DPKD-Ansatzes. Gleichzeitig belegen wir den Wert und die Wirksamkeit der eingeführten impliziten Belohnung und Ausgabepräferenz in KD durch Experimente und theoretische Analysen. Die DPKD-Methode übertrifft die Basismethode sowohl in der Präzision der Ausgabereaktion als auch im Prozentsatz der exakten Übereinstimmung. Code und Daten sind unter https://aka.ms/dpkd verfügbar.
Große Sprachmodelle (LLMs) mit umfangreichem Weltwissen und starken Argumentationsfähigkeiten können vielfältige Aufgaben in verschiedenen Bereichen bewältigen, oft indem sie sie als Konversationsanweisungs-Antwort-Paare darstellen. In diesem Papier schlagen wir LLaRA vor: Large Language and Robotics Assistant, ein Framework, das die Handlungsrichtlinie des Roboters als Gespräche formuliert und verbesserte Antworten liefert, wenn es mit Hilfsdaten trainiert wird, die das Richtlinienlernen ergänzen. LLMs mit visuellen Eingaben, d.h. Vision Language Models (VLMs), haben die Fähigkeit, Zustandsinformationen als visuell-textuelle Hinweise zu verarbeiten und optimale Richtlinienentscheidungen im Text zu generieren. Um solche Handlungsrichtlinien-VLMs zu trainieren, führen wir zunächst eine automatisierte Pipeline ein, um vielfältige hochwertige Robotik-Anweisungsdaten aus vorhandenen Verhaltensklonungsdaten zu generieren. Ein mit der resultierenden Sammlung von Datensätzen feinabgestimmter VLM, basierend auf einer Konversationsformulierung, die auf Robotikaufgaben zugeschnitten ist, kann sinnvolle Robotik-Handlungsrichtlinienentscheidungen generieren. Unsere Experimente in mehreren simulierten und realen Umgebungen zeigen die Leistungsfähigkeit des vorgeschlagenen LLaRA-Frameworks auf dem neuesten Stand der Technik. Der Code, die Datensätze und die vorab trainierten Modelle sind verfügbar unter https://github.com/LostXine/LLaRA.
In letzter Zeit hat die 3D-Gaußsche Splatting-Technik (3D-GS) große Erfolge bei der Rekonstruktion und Darstellung realer Szenen erzielt. Um die hohe Darstellungsqualität auf Generierungsaufgaben zu übertragen, versuchen eine Reihe von Forschungsarbeiten, 3D-Gaußsche Elemente aus Text zu generieren. Die generierten Elemente haben jedoch nicht die gleiche Qualität wie die in Rekonstruktionsaufgaben. Wir beobachten, dass die Gaußschen Elemente dazu neigen, unkontrolliert zu wachsen, da der Generierungsprozess Unbestimmtheit verursachen kann. Mit dem Ziel, die Generierungsqualität erheblich zu verbessern, schlagen wir ein neuartiges Framework namens GaussianDreamerPro vor. Die Hauptidee besteht darin, Gaußsche Elemente an eine plausible Geometrie zu binden, die sich über den gesamten Generierungsprozess entwickelt. In verschiedenen Phasen unseres Frameworks können sowohl die Geometrie als auch das Erscheinungsbild schrittweise bereichert werden. Das endgültige generierte Element wird mit 3D-Gaußschen Elementen gebunden an ein Netz konstruiert, was im Vergleich zu früheren Methoden deutlich verbesserte Details und Qualität zeigt. Bemerkenswert ist, dass das generierte Element auch nahtlos in nachgelagerte Manipulationspipelines integriert werden kann, z. B. Animation, Komposition und Simulation usw., was sein Potenzial für vielfältige Anwendungen erheblich fördert. Demos sind verfügbar unter https://taoranyi.com/gaussiandreamerpro/.
Das Segment Anything Model (SAM) hat aufgrund seiner überlegenen interaktiven Segmentierungsfähigkeiten mit visuellen Hinweisen weitreichende Aufmerksamkeit erregt, während die weitere Erkundung von Texthinweisen fehlt. In diesem Paper untersuchen wir empirisch, wofür Texthinweis-Encoder (z. B. CLIP oder LLM) gut sind, um SAM für die Segmentierung von Verweisausdrücken anzupassen, und stellen das Early Vision-Language Fusion-basierte SAM (EVF-SAM) vor. EVF-SAM ist eine einfache, aber effektive Methode zur Verweissegmentierung, die multimodale Hinweise (d. h. Bild und Text) nutzt und ein vortrainiertes Vision-Language-Modell zur Generierung von Verweishinweisen sowie ein SAM-Modell zur Segmentierung umfasst. Überraschenderweise beobachten wir, dass: (1) multimodale Hinweise und (2) Vision-Language-Modelle mit früher Fusion (z. B. BEIT-3) vorteilhaft sind, um SAM für eine präzise Verweissegmentierung anzuleiten. Unsere Experimente zeigen, dass das vorgeschlagene EVF-SAM basierend auf BEIT-3 eine Spitzenleistung bei RefCOCO/+/g für die Segmentierung von Verweisausdrücken erzielen kann und die Überlegenheit der Anleitung von SAM mit früher Vision-Language-Fusion demonstrieren. Darüber hinaus erreicht das vorgeschlagene EVF-SAM mit 1,32 Milliarden Parametern eine deutlich höhere Leistung, während es im Vergleich zu früheren SAM-Methoden auf großen multimodalen Modellen fast 82% der Parameter reduziert.
Die jüngsten Fortschritte bei Large Language Models haben die Entwicklung von ML/AI grundlegend verändert und erfordern eine Neubewertung der AutoML-Prinzipien für Retrieval-Augmented Generation (RAG)-Systeme. Um den Herausforderungen der Hyperparameter-Optimierung und der Online-Anpassung in RAG zu begegnen, schlagen wir das AutoRAG-HP-Framework vor, das die Hyperparameter-Abstimmung als ein Online-Multi-Armed Bandit (MAB)-Problem formuliert und eine neuartige zweistufige Hierarchical MAB (Hier-MAB)-Methode zur effizienten Exploration großer Suchräume einführt. Wir führen umfangreiche Experimente zur Abstimmung von Hyperparametern wie den top-k abgerufenen Dokumenten, dem Prompt-Kompressionsverhältnis und den Einbettungsmethoden unter Verwendung der ALCE-ASQA- und Natural Questions-Datensätze durch. Unsere Auswertung der gemeinsamen Optimierung aller drei Hyperparameter zeigt, dass MAB-basierte Online-Lernmethoden Recall@5 von ca. 0,8 für Szenarien mit deutlichen Gradienten im Suchraum erreichen können, wobei nur etwa 20 % der LLM-API-Aufrufe benötigt werden, die für den Grid Search-Ansatz erforderlich sind. Darüber hinaus übertrifft der vorgeschlagene Hier-MAB-Ansatz andere Baselines in anspruchsvolleren Optimierungsszenarien. Der Code wird unter https://aka.ms/autorag verfügbar gemacht.
Die Skalierung von Methoden des tiefen Reinforcement-Lernens (RL) stellt eine bedeutende Herausforderung dar. Im Anschluss an Entwicklungen im Bereich der generativen Modellierung positioniert sich modellbasiertes RL als ein starker Konkurrent. Jüngste Fortschritte in der Sequenzmodellierung haben zu effektiven weltbasierten Transformer-Modellen geführt, wenn auch zu dem Preis schwerer Berechnungen aufgrund langer Sequenzen von Tokens, die erforderlich sind, um Umgebungen genau zu simulieren. In dieser Arbeit schlagen wir Delta-IRIS vor, einen neuen Agenten mit einer Weltmodellarchitektur, die aus einem diskreten Autoencoder besteht, der stochastische Deltas zwischen Zeitpunkten codiert, und einem autoregressiven Transformer, der zukünftige Deltas vorhersagt, indem er den aktuellen Zustand der Welt mit kontinuierlichen Tokens zusammenfasst. Im Crafter-Benchmark setzt Delta-IRIS einen neuen Stand der Technik bei mehreren Frame-Budgets, während es um eine Größenordnung schneller zu trainieren ist als frühere auf Aufmerksamkeit basierende Ansätze. Wir veröffentlichen unseren Code und Modelle unter https://github.com/vmicheli/delta-iris.
Wir stellen Arboretum vor, das größte öffentlich zugängliche Datenset, das entwickelt wurde, um KI für Biodiversitätsanwendungen voranzubringen. Dieses Datenset, das aus der iNaturalist-Community-Wissenschaftsplattform kuratiert und von Fachexperten geprüft wurde, um die Genauigkeit zu gewährleisten, umfasst 134,6 Millionen Bilder und übertrifft bestehende Datensets in Bezug auf den Umfang um eine Größenordnung. Das Datenset umfasst Bild-Sprach-Paarungsdaten für eine vielfältige Artensammlung von Vögeln (Aves), Spinnen/Zecken/Milben (Arachnida), Insekten (Insecta), Pflanzen (Plantae), Pilzen/Pilzen (Fungi), Schnecken (Mollusca) und Schlangen/Eidechsen (Reptilia), was es zu einer wertvollen Ressource für multimodale Vision-Sprach-KI-Modelle für die Biodiversitätsbewertung und die Agrarforschung macht. Jedes Bild ist mit wissenschaftlichen Namen, taxonomischen Details und gebräuchlichen Namen annotiert, was die Robustheit des KI-Modelltrainings verbessert. Wir präsentieren den Wert von Arboretum, indem wir eine Reihe von CLIP-Modellen veröffentlichen, die mit einem Subset von 40 Millionen beschrifteten Bildern trainiert wurden. Wir stellen mehrere neue Benchmarks für eine strenge Bewertung vor, berichten über die Genauigkeit beim Zero-Shot-Lernen und Bewertungen über Lebensstadien, seltene Arten, verwirrende Arten und verschiedene Ebenen der taxonomischen Hierarchie. Wir erwarten, dass Arboretum die Entwicklung von KI-Modellen vorantreiben wird, die eine Vielzahl digitaler Werkzeuge ermöglichen können, angefangen bei Schädlingsbekämpfungsstrategien, der Überwachung von Ernten bis hin zur weltweiten Biodiversitätsbewertung und Umweltschutzerhaltung. Diese Fortschritte sind entscheidend, um die Ernährungssicherheit zu gewährleisten, Ökosysteme zu erhalten und die Auswirkungen des Klimawandels zu mildern. Arboretum ist öffentlich zugänglich, leicht zugänglich und sofort einsatzbereit. Bitte besuchen Sie die Website https://baskargroup.github.io/Arboretum/{Projektwebsite} für Links zu unseren Daten, Modellen und Code.
Das Reinforcement Learning mit menschlichem Feedback (RLHF) hat große Erfolge erzielt, um große Sprachmodelle (LLMs) mit menschlichen Präferenzen in Einklang zu bringen. Gängige RLHF-Ansätze basieren auf Belohnungen und folgen der Annahme des Bradley-Terry (BT)-Modells, das möglicherweise nicht die Komplexität menschlicher Präferenzen vollständig erfasst. In diesem Artikel untersuchen wir RLHF unter einem allgemeinen Präferenzrahmen und betrachten es aus einer spieltheoretischen Perspektive. Konkret formulieren wir das Problem als Zwei-Spieler-Spiel und schlagen einen neuen Algorithmus vor, die iterative Nash-Policy-Optimierung (INPO). Die Schlüsselidee besteht darin, die Richtlinie mittels No-Regret-Lernen gegen sich selbst spielen zu lassen, um die Nash-Policy anzunähern. Im Gegensatz zu früheren Methoden umgeht INPO die Notwendigkeit, die erwartete Gewinnrate für individuelle Antworten zu schätzen, was in der Regel hohe Rechen- oder Annotierungskosten verursacht. Stattdessen führen wir ein neues Verlustziel ein, das direkt über einen Präferenzdatensatz minimiert wird. Wir bieten eine theoretische Analyse unseres Ansatzes an und zeigen dessen Wirksamkeit durch Experimente an verschiedenen repräsentativen Benchmarks. Mit einem auf LLaMA-3-8B basierenden SFT-Modell erreicht INPO eine 41,5%ige Längenkontroll-Gewinnrate bei AlpacaEval 2.0 und eine 38,3%ige Gewinnrate bei Arena-Hard, was eine erhebliche Verbesserung gegenüber dem State-of-the-Art-Iterationsalgorithmus [Dong et al., 2024] unter der Annahme des BT-Modells darstellt. Darüber hinaus hebt unsere Ablationsstudie die Vorteile der Einbeziehung der KL-Regularisierung für die Kontrolle der Antwortlänge hervor.
Dieses Papier stellt eine neuartige, auf Entitäten basierende Metrik namens Radiologischer Bericht (Text) Bewertung (RaTEScore) vor, um die Qualität von medizinischen Berichten, die von KI-Modellen generiert werden, zu bewerten. RaTEScore betont wichtige medizinische Entitäten wie diagnostische Ergebnisse und anatomische Details und ist robust gegen komplexe medizinische Synonyme sowie sensibel für Verneinungsausdrücke. Technisch gesehen haben wir einen umfassenden medizinischen NER-Datensatz, RaTE-NER, entwickelt und ein NER-Modell speziell für diesen Zweck trainiert. Dieses Modell ermöglicht die Zerlegung komplexer radiologischer Berichte in konstituierende medizinische Entitäten. Die Metrik selbst wird abgeleitet, indem die Ähnlichkeit von Entitäts-Einbettungen verglichen wird, die aus einem Sprachmodell basierend auf ihren Typen und ihrer Relevanz für klinische Bedeutung erhalten wurden. Unsere Bewertungen zeigen, dass RaTEScore näher an menschlichen Präferenzen liegt als bestehende Metriken, die sowohl an etablierten öffentlichen Benchmarks als auch an unserem neu vorgeschlagenen RaTE-Eval-Benchmark validiert wurden.