Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
In diesem Artikel präsentieren wir OtterHD-8B, ein innovatives multimodales Modell, das aus Fuyu-8B entwickelt wurde und speziell dafür konzipiert ist, hochauflösende visuelle Eingaben mit granulierter Präzision zu interpretieren. Im Gegensatz zu herkömmlichen Modellen, die durch feste Größen von Vision-Encodern eingeschränkt sind, verfügt OtterHD-8B über die Fähigkeit, flexible Eingabedimensionen zu verarbeiten, was seine Vielseitigkeit über verschiedene Inferenzanforderungen hinweg sicherstellt. Neben diesem Modell führen wir MagnifierBench ein, ein Evaluierungsframework, das darauf ausgelegt ist, die Fähigkeit von Modellen zu untersuchen, feine Details und räumliche Beziehungen kleiner Objekte zu erkennen. Unsere vergleichende Analyse zeigt, dass aktuelle führende Modelle bei diesem Benchmark scheitern, während OtterHD-8B, insbesondere bei der direkten Verarbeitung hochauflösender Eingaben, seine Gegenstücke mit deutlichem Abstand übertrifft. Die Ergebnisse beleuchten die strukturellen Unterschiede in der Verarbeitung visueller Informationen zwischen verschiedenen Modellen und den Einfluss, den die Unterschiede in der Vorabtrainingsauflösung der Vision-Encoder auf die Modellwirksamkeit in solchen Benchmarks haben. Unsere Studie unterstreicht die entscheidende Rolle von Flexibilität und hochauflösenden Eingabefähigkeiten in großen multimodalen Modellen und verdeutlicht auch das Potenzial, das in der Einfachheit der Fuyu-Architektur für die Handhabung komplexer visueller Daten innewohnt.
Multimodale Large Language Models (MLLMs) haben beeindruckende Fähigkeiten bei der Bewältigung verschiedener offener Aufgaben gezeigt. Bisherige Methoden konzentrierten sich jedoch hauptsächlich auf die Verbesserung multimodaler Fähigkeiten. In dieser Arbeit stellen wir ein vielseitiges multimodales Large Language Model, mPLUG-Owl2, vor, das effektiv die Zusammenarbeit zwischen Modalitäten nutzt, um die Leistung sowohl bei Text- als auch bei multimodalen Aufgaben zu steigern. mPLUG-Owl2 verwendet ein modularisiertes Netzwerkdesign, bei dem der Sprachdekoder als universelle Schnittstelle zur Verwaltung verschiedener Modalitäten fungiert. Insbesondere integriert mPLUG-Owl2 gemeinsame Funktionsmodule, um die Zusammenarbeit zwischen Modalitäten zu erleichtern, und führt ein modalitätsadaptives Modul ein, das modalitätsspezifische Merkmale bewahrt. Umfangreiche Experimente zeigen, dass mPLUG-Owl2 in der Lage ist, sowohl Textaufgaben als auch multimodale Aufgaben zu generalisieren und mit einem einzigen generischen Modell Spitzenleistungen zu erzielen. Bemerkenswerterweise ist mPLUG-Owl2 das erste MLLM-Modell, das das Phänomen der Modalitätszusammenarbeit sowohl in reinen Text- als auch in multimodalen Szenarien demonstriert und damit einen wegweisenden Pfad für die Entwicklung zukünftiger multimodaler Basismodelle ebnet.
Jüngste Fortschritte bei Large Language Models (LLMs) haben die Entscheidungsfindung revolutioniert, indem komplexe Probleme in besser handhabbare Sprachsequenzen, sogenannte „Gedanken“, zerlegt werden. Ein effektives Gedankendesign sollte drei Schlüsselperspektiven berücksichtigen: Leistung, Effizienz und Flexibilität. Bisherige Ansätze können jedoch höchstens zwei dieser Attribute gleichzeitig aufweisen. Um diese Einschränkungen zu überwinden, führen wir einen neuartigen Gedankenprompting-Ansatz namens „Everything of Thoughts“ (XoT) ein, der das Gesetz des „Penrose-Dreiecks bestehender Gedankenparadigmen“ durchbricht. XoT nutzt vortrainiertes Reinforcement Learning und Monte Carlo Tree Search (MCTS), um externes Domänenwissen in Gedanken zu integrieren und so die Fähigkeiten von LLMs zu erweitern, sodass sie effizient auf unbekannte Probleme verallgemeinern können. Durch die Nutzung des MCTS-LLM-Kollaborationsframeworks zur Gedankenrevision erzeugt dieser Ansatz autonom hochwertige, umfassende kognitive Abbildungen mit minimalen LLM-Interaktionen. Darüber hinaus ermöglicht XoT LLMs, unbegrenztes Denken zu betreiben, was flexible kognitive Abbildungen für Probleme mit mehreren Lösungen ermöglicht.
Die akustischen Eigenschaften eines Raums ergeben sich aus der Geometrie des Raums, den darin befindlichen Objekten und deren spezifischen Positionen. Die akustischen Eigenschaften eines Raums können durch seine Impulsantwort (Room Impulse Response, RIR) zwischen einer Schallquelle und einem Hörerstandort charakterisiert werden oder grob aus Aufnahmen natürlicher Signale im Raum abgeleitet werden. Veränderungen in den Positionen von Objekten in einem Raum können messbare Veränderungen in den akustischen Eigenschaften des Raums bewirken, wie sie durch die RIR charakterisiert werden. Bestehende Datensätze von RIRs variieren entweder nicht systematisch die Positionen von Objekten in einer Umgebung, oder sie bestehen ausschließlich aus simulierten RIRs. Wir präsentieren SoundCam, den größten bisher veröffentlichten Datensatz einzigartiger RIRs aus realen Räumen. Er umfasst 5.000 10-Kanal-Messungen von Raumimpulsantworten in der realen Welt und 2.000 10-Kanal-Aufnahmen von Musik in drei verschiedenen Räumen, darunter ein kontrolliertes Akustiklabor, ein realer Wohnzimmerraum und ein Konferenzraum, mit verschiedenen Personen in unterschiedlichen Positionen in jedem Raum. Wir zeigen, dass diese Messungen für interessante Aufgaben verwendet werden können, wie z. B. die Erkennung und Identifizierung von Personen sowie die Verfolgung ihrer Positionen.
Da Large Language Models (LLMs) zunehmend mit realen Verantwortungen eingesetzt werden, ist es wichtig, das Verhalten dieser Systeme auf zuverlässige Weise spezifizieren und einschränken zu können. Modellentwickler möchten möglicherweise explizite Regeln für das Modell festlegen, wie z. B. „generiere keine beleidigenden Inhalte“, doch diese könnten durch Jailbreaking-Techniken umgangen werden. Die Bewertung, wie gut LLMs die vom Entwickler vorgegebenen Regeln angesichts adversarieller Eingaben einhalten, erfordert typischerweise manuelle Überprüfung, was die Überwachung und Methodenentwicklung verlangsamt. Um dieses Problem zu lösen, schlagen wir Rule-following Language Evaluation Scenarios (RuLES) vor, ein programmatisches Framework zur Messung der Regelbefolgung in LLMs. RuLES besteht aus 15 einfachen Text-Szenarien, in denen das Modell angewiesen wird, eine Reihe von Regeln in natürlicher Sprache zu befolgen, während es mit dem menschlichen Benutzer interagiert. Jedes Szenario verfügt über ein prägnantes Bewertungsprogramm, um festzustellen, ob das Modell in einer Konversation gegen Regeln verstoßen hat. Durch manuelle Untersuchung des Modellverhaltens in unseren Szenarien identifizieren wir 6 Kategorien von Angriffsstrategien und sammeln zwei Testfall-Suiten: eine, die aus einzigartigen Konversationen aus manuellen Tests besteht, und eine, die systematisch Strategien aus den 6 Kategorien implementiert. Über verschiedene beliebte proprietäre und Open-Source-Modelle wie GPT-4 und Llama 2 hinweg stellen wir fest, dass alle Modelle anfällig für eine Vielzahl von adversariell handgefertigten Benutzereingaben sind, wobei GPT-4 das leistungsstärkste Modell ist. Zusätzlich bewerten wir Open-Source-Modelle unter gradientenbasierten Angriffen und finden erhebliche Schwachstellen. Wir schlagen RuLES als eine herausfordernde neue Umgebung für die Forschung vor, um sowohl manuelle als auch automatische Angriffe auf LLMs zu untersuchen und dagegen zu verteidigen.
Neural MMO 2.0 ist eine massiv multi-agentenbasierte Umgebung für die Forschung im Bereich Reinforcement Learning. Das zentrale Merkmal dieser neuen Version ist ein flexibles Aufgaben-System, das es Nutzern ermöglicht, eine breite Palette von Zielen und Belohnungssignalen zu definieren. Wir fordern Forscher heraus, Agenten zu trainieren, die in der Lage sind, auf Aufgaben, Karten und Gegner zu generalisieren, die während des Trainings nie gesehen wurden. Neural MMO bietet prozedural generierte Karten mit 128 Agenten in der Standardeinstellung und Unterstützung für bis zu. Version 2.0 ist eine vollständige Neufassung ihres Vorgängers mit einer dreifach verbesserten Leistung und Kompatibilität mit CleanRL. Wir veröffentlichen die Plattform als freie und quelloffene Software mit umfassender Dokumentation auf neuralmmo.github.io und einer aktiven Community auf Discord. Um die erste Forschung auf dieser neuen Plattform anzuregen, veranstalten wir parallel dazu einen Wettbewerb auf der NeurIPS 2023.
Konventionelles Video-Matting erzeugt ein Alpha-Matte für alle Instanzen, die in einem Videobild erscheinen, sodass einzelne Instanzen nicht unterschieden werden. Während die Video-Instanzsegmentierung zeitlich konsistente Instanzmasken liefert, sind die Ergebnisse für Matting-Anwendungen unbefriedigend, insbesondere aufgrund der angewendeten Binarisierung. Um diesen Mangel zu beheben, schlagen wir Video Instance Matting (VIM) vor, das heißt, die Schätzung von Alpha-Matten für jede Instanz in jedem Bild einer Videosequenz. Um dieses anspruchsvolle Problem zu lösen, präsentieren wir MSG-VIM, ein Mask Sequence Guided Video Instance Matting-Neuronales Netzwerk, als neuartiges Basismodell für VIM. MSG-VIM nutzt eine Mischung aus Masken-Augmentierungen, um Vorhersagen robust gegenüber ungenauen und inkonsistenten Maskenführungen zu machen. Es integriert temporale Masken- und temporale Merkmalsführungen, um die zeitliche Konsistenz der Alpha-Matten-Vorhersagen zu verbessern. Darüber hinaus erstellen wir einen neuen Benchmark für VIM, genannt VIM50, der 50 Videoclips mit mehreren menschlichen Instanzen als Vordergrundobjekte umfasst. Um die Leistungen bei der VIM-Aufgabe zu bewerten, führen wir eine geeignete Metrik namens Video Instance-aware Matting Quality (VIMQ) ein. Unser vorgeschlagenes Modell MSG-VIM setzt einen starken Benchmark auf dem VIM50-Benchmark und übertrifft bestehende Methoden deutlich. Das Projekt ist unter https://github.com/SHI-Labs/VIM quelloffen verfügbar.
Da große Sprachmodelle immer verbreiteter werden, sind ihre potenziell schädlichen oder unangemessenen Antworten ein Grund zur Sorge. Dieses Papier stellt einen einzigartigen Datensatz vor, der adversariale Beispiele in Form von Fragen enthält, die wir AttaQ nennen und die darauf abzielen, solche schädlichen oder unangemessenen Antworten zu provozieren. Wir bewerten die Wirksamkeit unseres Datensatzes, indem wir die Anfälligkeiten verschiedener Modelle analysieren, wenn sie diesem ausgesetzt sind. Zusätzlich führen wir einen neuartigen automatischen Ansatz zur Identifizierung und Benennung von vulnerablen semantischen Regionen ein – Eingabesemantikbereiche, für die das Modell wahrscheinlich schädliche Ausgaben erzeugt. Dies wird durch die Anwendung spezialisierter Clustering-Techniken erreicht, die sowohl die semantische Ähnlichkeit der Eingriffsangriffe als auch die Schädlichkeit der Modellantworten berücksichtigen. Die automatische Identifizierung vulnerabler semantischer Regionen verbessert die Bewertung von Modellschwächen und erleichtert gezielte Verbesserungen der Sicherheitsmechanismen und der Gesamtzuverlässigkeit des Modells.
Das selbstüberwachte Repräsentationslernen ist stark von Datenaugmentationen abhängig, um die Invarianzen zu spezifizieren, die in den Repräsentationen kodiert sind. Frühere Arbeiten haben gezeigt, dass die Anwendung vielfältiger Datenaugmentationen entscheidend für die nachgelagerte Leistung ist, doch die Techniken der Augmentation bleiben weitgehend unerforscht. In dieser Arbeit schlagen wir eine neue Familie lokaler Transformationen vor, die auf Gaußschen Zufallsfeldern basieren, um Bildaugmentationen für das selbstüberwachte Repräsentationslernen zu erzeugen. Diese Transformationen verallgemeinern die etablierten affinen und Farbtransformationen (Verschiebung, Rotation, Farbjitter etc.) und erweitern den Raum der Augmentationen erheblich, indem sie es ermöglichen, dass die Transformationsparameterwerte von Pixel zu Pixel variieren. Die Parameter werden als kontinuierliche Funktionen der räumlichen Koordinaten behandelt und als unabhängige Gaußsche Zufallsfelder modelliert. Empirische Ergebnisse zeigen die Wirksamkeit der neuen Transformationen für das selbstüberwachte Repräsentationslernen. Konkret erzielen wir eine Verbesserung der Top-1-Genauigkeit um 1,7 % gegenüber der Baseline bei der nachgelagerten Klassifikation auf ImageNet und eine Verbesserung um 3,6 % bei der nachgelagerten Klassifikation auf der Out-of-Distribution-Datenbank iNaturalist. Aufgrund der Flexibilität der neuen Transformationen sind die gelernten Repräsentationen jedoch empfindlich gegenüber Hyperparametern. Während milde Transformationen die Repräsentationen verbessern, beobachten wir, dass starke Transformationen die Struktur eines Bildes beeinträchtigen können, was darauf hindeutet, dass die Balance zwischen der Vielfalt und der Stärke der Augmentationen wichtig ist, um die Generalisierung der gelernten Repräsentationen zu verbessern.
Formale Verifizierung kann die Korrektheit kritischer Systemsoftware nachweislich garantieren, doch die hohe Beweislast hat ihre breite Anwendung lange behindert. Kürzlich haben Large Language Models (LLMs) Erfolge in der Codeanalyse und -synthese gezeigt. In diesem Artikel präsentieren wir eine Kombination aus LLMs und statischer Analyse, um Invarianten, Assertions und andere Beweisstrukturen für ein Rust-basiertes formales Verifizierungsframework namens Verus zu synthetisieren. In einem Few-Shot-Setting zeigen LLMs beeindruckende logische Fähigkeiten bei der Generierung von Postconditions und Schleifeninvarianten, insbesondere bei der Analyse kurzer Codeausschnitte. Allerdings fehlt LLMs die Fähigkeit, Kontextinformationen zu behalten und weiterzugeben, eine Stärke der traditionellen statischen Analyse. Basierend auf diesen Beobachtungen entwickelten wir einen Prototyp auf Basis von OpenAIs GPT-4-Modell. Unser Prototyp zerlegt die Verifizierungsaufgabe in mehrere kleinere Teilaufgaben, fragt GPT-4 iterativ ab und kombiniert dessen Ausgabe mit einer leichten statischen Analyse. Wir evaluierten den Prototyp mit einem Entwickler im Automatisierungskreislauf an 20 vektormanipulierenden Programmen. Die Ergebnisse zeigen, dass er den menschlichen Aufwand beim Schreiben von einfachem Beweiscode erheblich reduziert.