Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
In den letzten Jahren gab es bemerkenswerte Fortschritte bei der Leistung von Transformer-basierten Large Language Models (LLMs) in verschiedenen Domänen. Da diese LLMs zunehmend für komplexere Aufgaben eingesetzt werden, müssen sie oft längere Denkprozesse durchführen oder größere Kontexte verstehen. In solchen Situationen wird das Versagen der Längengeneralisierung von LLMs bei langen Sequenzen deutlicher. Die meisten Pre-Training-Schemata kürzen Trainingssequenzen auf eine feste Länge (z. B. 2048 für LLaMa). LLMs haben oft Schwierigkeiten, fließende Texte zu generieren, geschweige denn nachgelagerte Aufgaben auszuführen, wenn längere Kontexte vorliegen, selbst mit relativer Positionskodierung, die entwickelt wurde, um dieses Problem zu bewältigen. Häufige Lösungen wie das Feinabstimmen auf längere Korpora erfordern oft enorme Hardware- und Zeitkosten und eine sorgfältige Gestaltung des Trainingsprozesses. Um die Generierungskapazität bestehender LLMs effizienter zu nutzen, untersuchen wir theoretisch und empirisch die Hauptfaktoren für Out-of-Distribution (OOD), die zu diesem Problem beitragen. Inspiriert durch diese Diagnose schlagen wir eine einfache, aber effektive Lösung für die Längengeneralisierung on-the-fly vor, LM-Infinite, das nur eine Lambda-förmige Aufmerksamkeitsmaske und eine Distanzbegrenzung erfordert, ohne Parameteraktualisierungen oder Lernen. Wir finden es anwendbar für eine Vielzahl von LLMs, die relative Positionskodierungsmethoden verwenden. LM-Infinite ist recheneffizient mit O(n) Zeit und Speicher und zeigt eine konsistente Flüssigkeit und Generierungsqualität bei bis zu 32k Tokens auf den Datensätzen ArXiv und OpenWebText2, mit einer 2,72-fachen Beschleunigung der Dekodierung. Bei nachgelagerten Aufgaben wie der Passkey-Rückgewinnung funktioniert es weiterhin bei Eingaben, die viel länger sind als die Trainingslängen, bei denen Standardmodelle sofort versagen.
Multimodale große Sprachmodelle haben in letzter Zeit erhebliches Interesse geweckt. Allerdings konzentrieren sich die meisten Arbeiten auf visuell-sprachliche multimodale Modelle, die starke Fähigkeiten in der Befolgung von visuell-sprachlichen Anweisungen bieten. Wir behaupten jedoch, dass Sprache ebenfalls eine wichtige Modalität ist, über die Menschen mit der Welt interagieren. Daher ist es entscheidend, dass ein allgemeiner Assistent in der Lage ist, multimodale sprachlich-auditive Anweisungen zu befolgen. In dieser Arbeit schlagen wir das Large Language and Speech Model (LLaSM) vor. LLaSM ist ein end-to-end trainiertes großes multimodales Sprach-Sprach-Modell mit fächerübergreifenden Konversationsfähigkeiten, das in der Lage ist, sprachlich-auditive Anweisungen zu befolgen. Unsere ersten Experimente zeigen, dass LLaSM eine bequemere und natürlichere Art der Interaktion zwischen Menschen und künstlicher Intelligenz ermöglicht. Insbesondere veröffentlichen wir auch einen großen Datensatz für die Befolgung von Sprachanweisungen, LLaSM-Audio-Instructions. Code und Demo sind verfügbar unter https://github.com/LinkSoul-AI/LLaSM und https://huggingface.co/spaces/LinkSoul/LLaSM. Der LLaSM-Audio-Instructions-Datensatz ist verfügbar unter https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
Wir stellen Jais und Jais-chat vor, neue, state-of-the-art, arabisch-zentrierte Foundation- und Instruction-Tuned Open Generative Large Language Models (LLMs). Die Modelle basieren auf der GPT-3-Decoder-only-Architektur und wurden auf einer Mischung aus arabischen und englischen Texten sowie Quellcode in verschiedenen Programmiersprachen vortrainiert. Mit 13 Milliarden Parametern zeigen sie bessere Wissens- und Argumentationsfähigkeiten in Arabisch als alle bestehenden offenen arabischen und multilingualen Modelle, basierend auf umfangreichen Evaluierungen. Darüber hinaus sind die Modelle im Vergleich zu englisch-zentrierten Open-Modellen ähnlicher Größe wettbewerbsfähig in Englisch, obwohl sie mit deutlich weniger englischen Daten trainiert wurden. Wir liefern eine detaillierte Beschreibung des Trainings, des Tunings, der Sicherheitsausrichtung und der Evaluierung der Modelle. Wir veröffentlichen zwei offene Versionen des Modells – das Foundation-Modell Jais und eine Instruction-Tuned-Variante Jais-chat – mit dem Ziel, die Forschung zu arabischen LLMs zu fördern. Verfügbar unter https://huggingface.co/inception-mbzuai/jais-13b-chat.
Damit Roboter außerhalb von Laboren und spezialisierten Fabriken nützlich sein können, benötigen wir eine Methode, um ihnen schnell neue nützliche Verhaltensweisen beizubringen. Aktuelle Ansätze mangelt es entweder an der Allgemeingültigkeit, um neue Aufgaben ohne aufgabenspezifische Anpassungen zu übernehmen, oder an der Dateneffizienz, um dies in einem praktisch nutzbaren Zeitrahmen zu erreichen. In dieser Arbeit untersuchen wir dichtes Tracking als Repräsentationsvehikel, um schnelleres und allgemeineres Lernen aus Demonstrationen zu ermöglichen. Unser Ansatz nutzt Track-Any-Point (TAP)-Modelle, um die relevante Bewegung in einer Demonstration zu isolieren und einen Low-Level-Controller zu parametrisieren, der diese Bewegung über Änderungen in der Szenenkonfiguration hinweg reproduziert. Wir zeigen, dass dies zu robusten Roboterstrategien führt, die komplexe Objektanordnungsaufgaben wie Formabgleich, Stapeln und sogar vollständige Pfadfolgeaufgaben wie das Auftragen von Kleber und das Zusammenfügen von Objekten lösen können, alles aus Demonstrationen, die in Minuten gesammelt werden können.
WeatherBench 2 ist eine Aktualisierung des globalen, mittelfristigen (1-14 Tage) Wettervorhersage-Benchmarks, der von Rasp et al. (2020) vorgeschlagen wurde und mit dem Ziel entwickelt wurde, Fortschritte in datengetriebenen Wettermodellen zu beschleunigen. WeatherBench 2 besteht aus einem Open-Source-Evaluierungsframework, öffentlich zugänglichen Trainings-, Grundwahrheits- und Basisdaten sowie einer kontinuierlich aktualisierten Website mit den neuesten Metriken und state-of-the-art Modellen: https://sites.research.google/weatherbench. Dieses Papier beschreibt die Designprinzipien des Evaluierungsframeworks und präsentiert Ergebnisse für aktuelle state-of-the-art physikalische und datengetriebene Wettermodelle. Die Metriken basieren auf etablierten Praktiken zur Bewertung von Wettervorhersagen bei führenden operationellen Wetterzentren. Wir definieren eine Reihe von Hauptbewertungen, um einen Überblick über die Modellleistung zu geben. Darüber hinaus diskutieren wir auch Einschränkungen im aktuellen Evaluierungsaufbau und Herausforderungen für die Zukunft der datengetriebenen Wettervorhersage.
Das Erlernen strategischen Roboterverhaltens – wie es bei Verfolgungs- und Fluchtinteraktionen erforderlich ist – unter realen Bedingungen ist äußerst anspruchsvoll. Es erfordert die Nutzung der Dynamik der Interaktion sowie die Planung unter Berücksichtigung von Unsicherheiten sowohl im physischen Zustand als auch in den latenten Absichten. In diesem Artikel transformieren wir dieses schwer lösbare Problem in ein überwachtes Lernproblem, bei dem eine vollständig beobachtbare Roboterpolitik die Überwachung für eine teilweise beobachtbare Politik generiert. Wir stellen fest, dass die Qualität des Überwachungssignals für die teilweise beobachtbare Verfolgerpolitik von zwei Schlüsselfaktoren abhängt: dem Gleichgewicht zwischen Vielfalt und Optimalität des Verhaltens des Flüchtenden und der Stärke der Modellannahmen in der vollständig beobachtbaren Politik. Wir setzen unsere Politik auf einem physischen Vierbeinerroboter mit einer RGB-D-Kamera bei Verfolgungs- und Fluchtinteraktionen in der realen Welt ein. Trotz aller Herausforderungen führen die Sensorikbeschränkungen zu Kreativität: Der Roboter wird dazu gedrängt, bei Unsicherheit Informationen zu sammeln, Absichten aus verrauschten Messungen vorherzusagen und vorauszuplanen, um abzufangen. Projektwebseite: https://abajcsy.github.io/vision-based-pursuit/