Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Obwohl die Audiogenerierung Gemeinsamkeiten über verschiedene Arten von Audio wie Sprache, Musik und Soundeffekte aufweist, erfordert die Entwicklung von Modellen für jeden Typ eine sorgfältige Berücksichtigung spezifischer Ziele und Verzerrungen, die sich erheblich von denen anderer Typen unterscheiden können. Um uns einer einheitlichen Perspektive der Audiogenerierung näher zu bringen, schlägt dieses Papier ein Framework vor, das dieselbe Lernmethode für die Generierung von Sprache, Musik und Soundeffekten nutzt. Unser Framework führt eine allgemeine Darstellung von Audio ein, die als Language of Audio (LOA) bezeichnet wird. Jedes Audio kann basierend auf AudioMAE, einem selbstüberwachten vortrainierten Repräsentationslernmodell, in LOA übersetzt werden. Im Generierungsprozess übersetzen wir beliebige Modalitäten in LOA, indem wir ein GPT-2-Modell verwenden, und führen ein selbstüberwachtes Audiogenerierungslernen mit einem latenten Diffusionsmodell durch, das auf LOA konditioniert ist. Das vorgeschlagene Framework bringt natürlicherweise Vorteile wie Fähigkeiten zum In-Context-Lernen sowie wiederverwendbare selbstüberwachte vortrainierte AudioMAE- und latente Diffusionsmodelle mit sich. Experimente auf den wichtigsten Benchmarks für Text-zu-Audio, Text-zu-Musik und Text-zu-Sprache demonstrieren neue State-of-the-Art- oder wettbewerbsfähige Leistungen im Vergleich zu früheren Ansätzen. Unsere Demo und unser Code sind unter https://audioldm.github.io/audioldm2 verfügbar.
Die Sicherstellung von Alignment, was sich darauf bezieht, Modelle so zu gestalten, dass sie im Einklang mit menschlichen Absichten agieren [1,2], ist zu einer entscheidenden Aufgabe geworden, bevor große Sprachmodelle (LLMs) in realen Anwendungen eingesetzt werden. Beispielsweise widmete OpenAI sechs Monate der iterativen Ausrichtung von GPT-4 vor dessen Veröffentlichung [3]. Ein wesentliches Problem, mit dem Praktiker konfrontiert sind, ist jedoch der Mangel an klaren Leitlinien zur Bewertung, ob die Ausgaben von LLMs mit sozialen Normen, Werten und Vorschriften übereinstimmen. Dieses Hindernis behindert die systematische Iteration und den Einsatz von LLMs. Um dieses Problem zu lösen, präsentiert dieses Papier eine umfassende Übersicht über Schlüsseldimensionen, die bei der Bewertung der Vertrauenswürdigkeit von LLMs entscheidend sind. Die Übersicht deckt sieben Hauptkategorien der Vertrauenswürdigkeit von LLMs ab: Zuverlässigkeit, Sicherheit, Fairness, Widerstandsfähigkeit gegen Missbrauch, Erklärbarkeit und logisches Denken, Einhaltung sozialer Normen sowie Robustheit. Jede Hauptkategorie wird weiter in mehrere Unterkategorien unterteilt, was insgesamt 29 Unterkategorien ergibt. Zusätzlich wird eine Teilmenge von 8 Unterkategorien für weitere Untersuchungen ausgewählt, bei denen entsprechende Messstudien entworfen und an mehreren weit verbreiteten LLMs durchgeführt werden. Die Messergebnisse zeigen, dass im Allgemeinen besser ausgerichtete Modelle in Bezug auf die Gesamtvertrauenswürdigkeit tendenziell besser abschneiden. Die Wirksamkeit der Ausrichtung variiert jedoch zwischen den verschiedenen betrachteten Vertrauenswürdigkeitskategorien. Dies unterstreicht die Bedeutung einer feiner abgestuften Analyse, Tests und kontinuierlicher Verbesserungen bei der Ausrichtung von LLMs. Indem dieses Papier diese Schlüsseldimensionen der Vertrauenswürdigkeit von LLMs beleuchtet, zielt es darauf ab, wertvolle Einblicke und Leitlinien für Praktiker in diesem Bereich zu bieten. Das Verständnis und die Bewältigung dieser Anliegen werden entscheidend sein, um einen zuverlässigen und ethisch fundierten Einsatz von LLMs in verschiedenen Anwendungen zu erreichen.
Das Verfolgen und Nachverfolgen von Objekten von Interesse ist entscheidend für mehrere Robotik-Anwendungsfälle, die von industrieller Automatisierung über Logistik und Lagerhaltung bis hin zu Gesundheitswesen und Sicherheit reichen. In diesem Artikel präsentieren wir ein Robotersystem, das in Echtzeit beliebige Objekte detektieren, verfolgen und nachverfolgen kann. Unser Ansatz, genannt „Follow Anything“ (FAn), ist ein offen-vokabularer und multimodaler Modell – er ist nicht auf Konzepte beschränkt, die während des Trainings gesehen wurden, und kann auf neue Klassen zur Inferenzzeit mittels Text, Bildern oder Klick-Abfragen angewendet werden. Durch die Nutzung reichhaltiger visueller Deskriptoren aus großskaligen vortrainierten Modellen (Foundation Models) kann FAn Objekte detektieren und segmentieren, indem multimodale Abfragen (Text, Bilder, Klicks) mit einer Eingabebildsequenz abgeglichen werden. Diese detektierten und segmentierten Objekte werden über Bildframes hinweg verfolgt, wobei Verdeckungen und das Wiederauftauchen von Objekten berücksichtigt werden. Wir demonstrieren FAn an einem realen Robotersystem (einem Mikro-Luftfahrzeug) und berichten über seine Fähigkeit, die Objekte von Interesse nahtlos in einer Echtzeit-Kontrollschleife zu verfolgen. FAn kann auf einem Laptop mit einer leistungsschwachen Grafikkarte (6-8 GB) eingesetzt werden und erreicht einen Durchsatz von 6-20 Bildern pro Sekunde. Um eine schnelle Übernahme, Bereitstellung und Erweiterbarkeit zu ermöglichen, stellen wir unseren gesamten Code auf unserer Projektwebseite unter https://github.com/alaamaalouf/FollowAnything als Open Source zur Verfügung. Wir ermutigen den Leser auch, unser 5-minütiges Erklärvideo unter https://www.youtube.com/watch?v=6Mgt3EPytrw anzusehen.
Diese Arbeit befasst sich mit gradientenbasierter Netzoptimierung, bei der wir iterativ ein 3D-Oberflächennetz optimieren, indem wir es als Isofläche eines Skalarfelds darstellen – ein zunehmend verbreitetes Paradigma in Anwendungen wie Photogrammetrie, generativer Modellierung und inverser Physik. Bestehende Implementierungen adaptieren klassische Isoflächenextraktionsalgorithmen wie Marching Cubes oder Dual Contouring; diese Techniken wurden entwickelt, um Netze aus festen, bekannten Feldern zu extrahieren, und im Optimierungskontext fehlen ihnen die Freiheitsgrade, um hochwertige, merkmalerhaltende Netze darzustellen, oder sie leiden unter numerischen Instabilitäten. Wir stellen FlexiCubes vor, eine Isoflächendarstellung, die speziell für die Optimierung eines unbekannten Netzes in Bezug auf geometrische, visuelle oder sogar physikalische Ziele entwickelt wurde. Unsere zentrale Erkenntnis besteht darin, zusätzliche sorgfältig ausgewählte Parameter in die Darstellung einzuführen, die lokale flexible Anpassungen an die extrahierte Netzgeometrie und -konnektivität ermöglichen. Diese Parameter werden zusammen mit dem zugrunde liegenden Skalarfeld über automatische Differenzierung aktualisiert, wenn eine nachgelagerte Aufgabe optimiert wird. Wir basieren unser Extraktionsschema auf Dual Marching Cubes, um verbesserte topologische Eigenschaften zu erreichen, und präsentieren Erweiterungen, um optional tetraedrische und hierarchisch-adaptive Netze zu erzeugen. Umfangreiche Experimente validieren FlexiCubes sowohl an synthetischen Benchmarks als auch in realen Anwendungen und zeigen, dass es signifikante Verbesserungen in der Netzqualität und geometrischen Treue bietet.
Multiple Sequence Alignments (MSAs) von Proteinen kodieren umfangreiche biologische Informationen und sind seit Jahrzehnten zentrale Werkzeuge in bioinformatischen Methoden für Aufgaben wie Proteindesign und Proteinstrukturvorhersage. Jüngste Durchbrüche wie AlphaFold2, die Transformer verwenden, um direkt große Mengen roher MSAs zu verarbeiten, haben deren Bedeutung erneut bestätigt. Die Erzeugung von MSAs ist jedoch äußerst rechenintensiv, und es wurden bisher keine Datensätze, die mit denen zur Trainierung von AlphaFold2 vergleichbar sind, der Forschungsgemeinschaft zur Verfügung gestellt, was den Fortschritt im maschinellen Lernen für Proteine behindert. Um dieses Problem zu beheben, stellen wir OpenProteinSet vor, ein Open-Source-Korpus mit mehr als 16 Millionen MSAs, zugehörigen strukturellen Homologen aus der Protein Data Bank und AlphaFold2-Proteinstrukturvorhersagen. Wir haben die Nützlichkeit von OpenProteinSet bereits demonstriert, indem wir AlphaFold2 erfolgreich darauf neu trainiert haben. Wir erwarten, dass OpenProteinSet breit als Trainings- und Validierungsdaten für 1) diverse Aufgaben im Bereich Proteinstruktur, -funktion und -design sowie 2) groß angelegte multimodale maschinelle Lernforschung nützlich sein wird.
Das Alexa Prize-Programm hat zahlreiche Universitätsstudierende dazu befähigt, ihre Talente im Aufbau von Konversationsagenten durch Herausforderungen wie die SocialBot Grand Challenge und die TaskBot Challenge zu erforschen, zu experimentieren und unter Beweis zu stellen. Da Konversationsagenten zunehmend in multimodalen und verkörperten Kontexten auftreten, ist es wichtig, die Möglichkeiten der konversationellen Interaktion zu untersuchen, die durch Computer Vision und physische Verkörperung erweitert wird. Dieses Papier beschreibt die SimBot Challenge, eine neue Herausforderung, bei der Universitätsteams darum wetteifern, Roboterassistenten zu entwickeln, die Aufgaben in einer simulierten physischen Umgebung erledigen. Das Papier bietet einen Überblick über die SimBot Challenge, die sowohl Online- als auch Offline-Herausforderungsphasen umfasste. Wir beschreiben die Infrastruktur und Unterstützung, die den Teams zur Verfügung gestellt wurde, einschließlich Alexa Arena, der simulierten Umgebung und des ML-Toolkits, das den Teams zur Verfügung gestellt wurde, um den Aufbau von Vision- und Sprachmodellen zu beschleunigen. Wir fassen die Ansätze zusammen, die die teilnehmenden Teams zur Bewältigung von Forschungsherausforderungen gewählt haben, und extrahieren wichtige Erkenntnisse. Schließlich bieten wir eine Analyse der Leistung der konkurrierenden SimBots während des Wettbewerbs.
Zeitabhängige partielle Differentialgleichungen (PDEs) sind in den Natur- und Ingenieurwissenschaften allgegenwärtig. In jüngster Zeit haben tiefe neuronale Netzwerke als Surrogatmodelle aufgrund der hohen Rechenkosten traditioneller Lösungsverfahren zunehmend an Interesse gewonnen. Die praktische Nützlichkeit solcher neuronalen PDE-Löser hängt von ihrer Fähigkeit ab, über lange Zeiträume hinweg präzise und stabile Vorhersagen zu liefern, was ein bekannt schwieriges Problem darstellt. In dieser Arbeit präsentieren wir eine groß angelegte Analyse gängiger zeitlicher Rollout-Strategien und identifizieren die Vernachlässigung nicht-dominanter räumlicher Frequenzinformationen, die oft mit hohen Frequenzen in PDE-Lösungen verbunden sind, als die Hauptschwäche, die die stabile und präzise Rollout-Leistung einschränkt. Basierend auf diesen Erkenntnissen lassen wir uns von jüngsten Fortschritten in Diffusionsmodellen inspirieren und führen PDE-Refiner ein; eine neuartige Modellklasse, die eine präzisere Modellierung aller Frequenzkomponenten durch einen mehrstufigen Verfeinerungsprozess ermöglicht. Wir validieren PDE-Refiner anspruchsvollen Benchmarks komplexer Strömungsdynamik und demonstrieren stabile und präzise Rollouts, die durchweg state-of-the-art Modelle, einschließlich neuronaler, numerischer und hybrider neuronal-numerischer Architekturen, übertreffen. Darüber hinaus zeigen wir, dass PDE-Refiner die Dateneffizienz erheblich verbessert, da das Entrauschungsziel implizit eine neuartige Form der spektralen Datenaugmentierung induziert. Schließlich ermöglicht die Verbindung von PDE-Refiner zu Diffusionsmodellen eine präzise und effiziente Bewertung der Vorhersageunsicherheit des Modells, wodurch wir abschätzen können, wann das Surrogat ungenau wird.