Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs) haben sich innerhalb weniger Jahre von einer nicht existenten zu einer allgegenwärtigen Größe im Diskurs des maschinellen Lernens entwickelt. Aufgrund des rasanten Fortschritts in diesem Bereich ist es schwierig, die verbleibenden Herausforderungen und bereits erfolgreichen Anwendungsgebiete zu identifizieren. In diesem Artikel streben wir an, einen systematischen Satz offener Probleme und Anwendungserfolge zu etablieren, damit ML-Forscher den aktuellen Stand des Feldes schneller erfassen und produktiv werden können.
Seit Ende 2022 haben Large Language Models (LLMs) große Bekanntheit erlangt, wobei Modelle wie ChatGPT und Bard Millionen von Nutzern erreichen. Wöchentlich werden Hunderte neuer LLMs angekündigt, von denen viele auf Hugging Face, einem Repository für Machine-Learning-Modelle und Datensätze, veröffentlicht werden. Bis heute wurden fast 16.000 Textgenerierungsmodelle auf der Plattform hochgeladen. Angesichts des enormen Zustroms von LLMs ist es von Interesse zu wissen, welche LLM-Backbones, Einstellungen, Trainingsmethoden und Modellfamilien populär oder im Trend sind. Allerdings gibt es keinen umfassenden Index von LLMs. Wir nutzen die relativ systematische Nomenklatur der LLMs auf Hugging Face, um hierarchisches Clustering durchzuführen und Gemeinschaften unter den LLMs mithilfe von N-Grammen und Term Frequency-Inverse Document Frequency zu identifizieren. Unsere Methoden identifizieren erfolgreich LLM-Familien und clustern LLMs präzise in sinnvolle Untergruppen. Wir präsentieren eine öffentliche Webanwendung, um Constellation, unseren Atlas von 15.821 LLMs, zu navigieren und zu erkunden. Constellation erzeugt schnell eine Vielzahl von Visualisierungen, nämlich Dendrogramme, Graphen, Wortwolken und Streudiagramme. Constellation ist unter folgendem Link verfügbar: https://constellation.sites.stanford.edu/.
In einer Ära, in der die Erstellung visueller Inhalte zunehmend durch maschinelles Lernen vorangetrieben wird, bietet die Integration von menschlichem Feedback in generative Modelle bedeutende Möglichkeiten, um die Benutzererfahrung und die Ausgabequalität zu verbessern. Diese Studie untersucht Strategien zur Einbindung iterativen menschlichen Feedbacks in den generativen Prozess von diffusionsbasierten Text-zu-Bild-Modellen. Wir stellen FABRIC vor, einen trainingsfreien Ansatz, der auf eine breite Palette populärer Diffusionsmodelle anwendbar ist und die in den am weitesten verbreiteten Architekturen vorhandene Self-Attention-Schicht nutzt, um den Diffusionsprozess anhand einer Reihe von Feedback-Bildern zu steuern. Um eine rigorose Bewertung unseres Ansatzes zu gewährleisten, führen wir eine umfassende Evaluationsmethodik ein, die einen robusten Mechanismus zur Quantifizierung der Leistung generativer visueller Modelle bietet, die menschliches Feedback integrieren. Wir zeigen, dass die Generierungsergebnisse durch mehrfache Runden iterativen Feedbacks verbessert werden, wobei beliebige Benutzerpräferenzen implizit optimiert werden. Die potenziellen Anwendungen dieser Erkenntnisse erstrecken sich auf Bereiche wie die personalisierte Inhaltserstellung und -anpassung.
Layer-Compositing ist einer der beliebtesten Bildbearbeitungs-Workflows sowohl bei Amateuren als auch bei Profis. Angeregt durch den Erfolg von Diffusionsmodellen untersuchen wir Layer-Compositing aus der Perspektive der geschichteten Bildgenerierung. Anstatt ein einzelnes Bild zu generieren, schlagen wir vor, Hintergrund, Vordergrund, Layermaske und das zusammengesetzte Bild gleichzeitig zu erzeugen. Um geschichtete Bildgenerierung zu erreichen, trainieren wir ein Autoencoder-Modell, das in der Lage ist, geschichtete Bilder zu rekonstruieren, und trainieren Diffusionsmodelle auf der latenten Repräsentation. Ein Vorteil des vorgeschlagenen Ansatzes besteht darin, neben der Erzeugung hochwertiger Bilder auch bessere Compositing-Workflows zu ermöglichen. Ein weiterer Vorteil ist die Erzeugung qualitativ hochwertigerer Layermasken im Vergleich zu Masken, die durch einen separaten Schritt der Bildsegmentierung erzeugt werden. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode in der Lage ist, hochwertige geschichtete Bilder zu generieren und einen Benchmark für zukünftige Arbeiten schafft.
Sprachmodelle und Vision-Language-Modelle haben in letzter Zeit beispiellose Fähigkeiten in Bezug auf das Verständnis menschlicher Absichten, logisches Denken, Szenenverständnis und planungsähnliches Verhalten in Textform sowie in vielen anderen Bereichen gezeigt. In dieser Arbeit untersuchen wir, wie solche Fähigkeiten in Reinforcement-Learning-(RL)-Agenten eingebettet und genutzt werden können. Wir entwerfen ein Framework, das Sprache als zentrales Werkzeug für das logische Denken verwendet, und erforschen, wie dies einem Agenten ermöglicht, eine Reihe grundlegender RL-Herausforderungen zu bewältigen, wie effiziente Exploration, Wiederverwendung von Erfahrungsdaten, Planung von Fähigkeiten und Lernen aus Beobachtungen, die traditionell separate, vertikal entwickelte Algorithmen erfordern. Wir testen unsere Methode in einer simulierten Roboter-Manipulationsumgebung mit spärlicher Belohnung, in der ein Roboter eine Reihe von Objekten stapeln muss. Wir zeigen erhebliche Leistungsverbesserungen gegenüber Baseline-Methoden in Bezug auf die Explorationseffizienz und die Fähigkeit, Daten aus Offline-Datensätzen wiederzuverwenden, und veranschaulichen, wie gelernte Fähigkeiten genutzt werden können, um neue Aufgaben zu lösen oder Videos von menschlichen Experten zu imitieren.
Trotz Fortschritten in der konversationellen KI stoßen Sprachmodelle auf Herausforderungen bei der Bewältigung verschiedenster Konversationsaufgaben, und bestehende Sammlungen von Dialogdatensätzen weisen oft mangelnde Vielfalt und Vollständigkeit auf. Um diese Probleme zu lösen, stellen wir DialogStudio vor: die größte und vielfältigste Sammlung von Dialogdatensätzen, die in einem einheitlichen Format vereint sind, während ihre ursprünglichen Informationen erhalten bleiben. Unsere Sammlung umfasst Daten aus offenen Dialogen, aufgabenorientierten Dialogen, natürlichem Sprachverständnis, konversationellen Empfehlungen, Dialogzusammenfassungen und wissensbasierten Dialogen, was sie zu einer äußerst reichhaltigen und vielfältigen Ressource für die Dialogforschung und Modelltraining macht. Um den Nutzen von DialogStudio weiter zu steigern, identifizieren wir die Lizenzen für jeden Datensatz und entwerfen domänenbewusste Prompts für ausgewählte Dialoge, um das feinabgestimmte Training mit Anweisungen zu erleichtern. Darüber hinaus entwickeln wir konversationelle KI-Modelle mit der Datensatzsammlung, und unsere Experimente in sowohl Zero-Shot- als auch Few-Shot-Lernszenarien demonstrieren die Überlegenheit von DialogStudio. Um die Transparenz zu verbessern und die Forschung zu Datensätzen und Aufgaben sowie das Pre-Training von Sprachmodellen zu unterstützen, sind alle Datensätze, Lizenzen, Codes und Modelle, die mit DialogStudio verbunden sind, öffentlich zugänglich unter https://github.com/salesforce/DialogStudio.
Es gibt ein zunehmendes Interesse an Gerätesteuerungssystemen, die menschliche Anweisungen in natürlicher Sprache interpretieren und diese auf einem digitalen Gerät ausführen können, indem sie dessen Benutzeroberfläche direkt steuern. Wir präsentieren ein Datenset für die Forschung zur Gerätesteuerung, Android in the Wild (AITW), das um Größenordnungen umfangreicher ist als aktuelle Datensätze. Das Datenset enthält menschliche Demonstrationen von Geräteinteraktionen, einschließlich der Bildschirme und Aktionen, sowie entsprechende Anweisungen in natürlicher Sprache. Es besteht aus 715.000 Episoden, die 30.000 einzigartige Anweisungen umfassen, vier Versionen von Android (v10-13) und acht Gerätetypen (Pixel 2 XL bis Pixel 6) mit unterschiedlichen Bildschirmauflösungen. Es enthält mehrstufige Aufgaben, die ein semantisches Verständnis von Sprache und visuellem Kontext erfordern. Dieser Datensatz stellt eine neue Herausforderung dar: Die über die Benutzeroberfläche verfügbaren Aktionen müssen aus ihrem visuellen Erscheinungsbild abgeleitet werden. Und anstelle von einfachen, auf UI-Elementen basierenden Aktionen besteht der Aktionsraum aus präzisen Gesten (z. B. horizontales Scrollen zur Bedienung von Karussell-Widgets). Wir strukturieren unseren Datensatz so, dass er die Robustheitsanalyse von Gerätesteuerungssystemen fördert, d. h. wie gut ein System bei neuen Aufgabenbeschreibungen, neuen Anwendungen oder neuen Plattformversionen abschneidet. Wir entwickeln zwei Agenten und berichten über deren Leistung im gesamten Datensatz. Der Datensatz ist verfügbar unter https://github.com/google-research/google-research/tree/master/android_in_the_wild.
LLMs haben vielversprechende Ergebnisse bei der Nachahmung menschlichen Verhaltens in Crowdsourcing-Aufgaben gezeigt, die bisher als exklusiv menschliche Fähigkeiten galten. Allerdings konzentrieren sich aktuelle Bemühungen hauptsächlich auf einfache, atomare Aufgaben. Wir untersuchen, ob LLMs komplexere Crowdsourcing-Pipelines replizieren können. Wir stellen fest, dass moderne LLMs einige Fähigkeiten von Crowdworkern in diesen „Human-Computation-Algorithmen“ simulieren können, der Erfolgsgrad jedoch variabel ist und vom Verständnis der Auftraggeber über die Fähigkeiten der LLMs, den spezifischen Anforderungen der Teilaufgaben sowie der optimalen Interaktionsmodalität für die Durchführung dieser Teilaufgaben beeinflusst wird. Wir reflektieren über die unterschiedliche Sensibilität von Menschen und LLMs gegenüber Anweisungen, betonen die Bedeutung von menschzentrierten Sicherheitsvorkehrungen für LLMs und diskutieren das Potenzial, Menschen und LLMs mit komplementären Fähigkeiten zu trainieren. Entscheidend ist, dass wir zeigen, dass die Replikation von Crowdsourcing-Pipelines eine wertvolle Plattform bietet, um (1) die relativen Stärken von LLMs bei verschiedenen Aufgaben zu untersuchen (durch den Vergleich ihrer Leistungen in Teilaufgaben) und (2) das Potenzial von LLMs in komplexen Aufgaben zu erforschen, bei denen sie einen Teil der Aufgaben übernehmen können, während andere den Menschen überlassen bleiben.
Realistisches, menschenzentriertes Rendering spielt eine Schlüsselrolle sowohl in der Computer Vision als auch in der Computergrafik. In den letzten Jahren wurden rasante Fortschritte im algorithmischen Bereich erzielt, doch bestehende menschenzentrierte Rendering-Datensätze und Benchmarks sind in Bezug auf Diversität eher begrenzt, was für den Rendering-Effekt entscheidend ist. Forscher sind oft darauf beschränkt, eine kleine Auswahl von Rendering-Problemen auf aktuellen Datensätzen zu untersuchen und zu bewerten, während reale Anwendungen Methoden erfordern, die robust über verschiedene Szenarien hinweg sind. In dieser Arbeit präsentieren wir DNA-Rendering, ein groß angelegtes, hochauflösendes Repository von menschlichen Performancedaten für das Rendering von neuronalen Akteuren. DNA-Rendering bietet mehrere attraktive Eigenschaften. Erstens enthält unser Datensatz über 1500 menschliche Probanden, 5000 Bewegungssequenzen und ein Datenvolumen von 67,5 Millionen Frames. Zweitens stellen wir umfangreiche Assets für jeden Probanden bereit – 2D/3D-Schlüsselpunkte des menschlichen Körpers, Vordergrundmasken, SMPLX-Modelle, Kleidungs-/Accessoire-Materialien, Multi-View-Bilder und Videos. Diese Assets verbessern die Genauigkeit aktueller Methoden bei nachgelagerten Rendering-Aufgaben. Drittens haben wir ein professionelles Multi-View-System zur Datenerfassung entwickelt, das 60 synchronisierte Kameras mit einer maximalen Auflösung von 4096 x 3000, einer Geschwindigkeit von 15 fps und strengen Kamerakalibrierungsschritten umfasst, um hochwertige Ressourcen für das Training und die Bewertung von Aufgaben sicherzustellen. Neben dem Datensatz bieten wir einen groß angelegten und quantitativen Benchmark im Vollumfang mit mehreren Aufgaben, um den Fortschritt bei der Synthese neuer Ansichten, der Animation neuer Posen und der Darstellung neuer Identitäten zu bewerten. In diesem Manuskript beschreiben wir unsere DNA-Rendering-Bemühungen als eine Enthüllung neuer Beobachtungen, Herausforderungen und zukünftiger Richtungen für das menschenzentrierte Rendering. Der Datensatz, der Code und die Benchmarks werden öffentlich unter https://dna-rendering.github.io/ verfügbar sein.
Adaptive gradientenbasierte Optimierer, insbesondere Adam, haben ihre Spuren im Training großskaliger Deep-Learning-Modelle hinterlassen. Die Stärke solcher Optimierer liegt darin, dass sie eine schnelle Konvergenz zeigen und gleichzeitig robuster gegenüber der Wahl der Hyperparameter sind. Allerdings generalisieren sie oft schlechter als nicht-adaptive Methoden. Jüngste Studien haben diese Leistungslücke mit der Auswahl flacher Minima in Verbindung gebracht: Adaptive Methoden neigen dazu, Lösungen in schärferen Becken der Verlustlandschaft zu finden, was wiederum die Generalisierung beeinträchtigt. Um dieses Problem zu überwinden, schlagen wir eine neue speichergestützte Version von Adam vor, die die Exploration hin zu flacheren Minima fördert, indem während des Trainings ein Puffer kritischer Momentum-Terme verwendet wird. Intuitiv führt die Verwendung des Puffers dazu, dass der Optimierer über das Anziehungsbecken hinaus schießt, wenn dieses nicht breit genug ist. Wir zeigen empirisch, dass unsere Methode die Leistung mehrerer Varianten von Adam bei standardmäßigen überwachten Sprachmodellierungs- und Bildklassifizierungsaufgaben verbessert.