Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Eine beeindruckende emergente Fähigkeit großer Sprachmodelle (LLMs) ist die Generierung von Code, einschließlich Structured Query Language (SQL) für Datenbanken. Für die Aufgabe der Umwandlung von natürlicher Sprache in SQL-Abfragen, Text-to-SQL, ist die Anpassung von LLMs von entscheidender Bedeutung, sowohl im Kontext von In-Context-Learning als auch im Fine-Tuning, abhängig von der Menge der verwendeten Anpassungsdaten. In diesem Artikel schlagen wir ein LLM-basiertes Text-to-SQL-Modell namens SQL-PaLM vor, das auf PaLM-2 aufbaut und den Stand der Technik in beiden Settings vorantreibt. Few-Shot SQL-PaLM basiert auf einem ausführungsbasierten Self-Consistency-Prompting-Ansatz, der speziell für Text-to-SQL entwickelt wurde, und erreicht eine Test-Suite-Genauigkeit von 77,3 % auf Spider, was nach unserem besten Wissen das erste Mal ist, dass der bisherige Stand der Technik mit Fine-Tuning deutlich übertroffen wird, und zwar um 4 %. Darüber hinaus zeigen wir, dass das feinabgestimmte SQL-PaLM diesen Wert um weitere 1 % übertrifft. Um SQL-PaLM in realen Szenarien anzuwenden, bewerten wir weiterhin seine Robustheit auf anderen herausfordernden Varianten von Spider und demonstrieren die überlegene Generalisierungsfähigkeit von SQL-PaLM. Zusätzlich zeigen wir durch umfangreiche Fallstudien die beeindruckenden intelligenten Fähigkeiten und verschiedenen Erfolgsfaktoren von LLM-basiertem Text-to-SQL.
Text-to-Image-Diffusionsmodelle können beeindruckende Bilder aus natürlichen Sprachbeschreibungen erzeugen, die mit den Werken professioneller Künstler und Fotografen konkurrieren. Diese Modelle sind jedoch groß, mit komplexen Netzwerkarchitekturen und Dutzenden von Entrauschungsiterationen, was sie rechenintensiv und langsam in der Ausführung macht. Infolgedessen sind High-End-GPUs und cloudbasierte Inferenz erforderlich, um Diffusionsmodelle in großem Maßstab zu betreiben. Dies ist kostspielig und hat Datenschutzimplikationen, insbesondere wenn Benutzerdaten an Dritte gesendet werden. Um diese Herausforderungen zu bewältigen, präsentieren wir einen generischen Ansatz, der erstmals die Ausführung von Text-to-Image-Diffusionsmodellen auf Mobilgeräten in weniger als 2 Sekunden ermöglicht. Dies erreichen wir durch die Einführung einer effizienten Netzwerkarchitektur und die Verbesserung der Schrittdestillation. Konkret schlagen wir ein effizientes UNet vor, indem wir die Redundanz des ursprünglichen Modells identifizieren und die Berechnung des Bilddecoders durch Datendestillation reduzieren. Darüber hinaus verbessern wir die Schrittdestillation durch die Erforschung von Trainingsstrategien und die Einführung von Regularisierung durch Classifier-Free Guidance. Unsere umfangreichen Experimente auf MS-COCO zeigen, dass unser Modell mit 8 Entrauschungsschritten bessere FID- und CLIP-Werte erzielt als Stable Diffusion v1.5 mit 50 Schritten. Unsere Arbeit demokratisiert die Inhaltserstellung, indem sie leistungsstarke Text-to-Image-Diffusionsmodelle in die Hände der Nutzer bringt.
Wir stellen Wuerstchen vor, eine neuartige Technik für die Text-zu-Bild-Synthese, die wettbewerbsfähige Leistung mit beispielloser Kosteneffizienz und einfacher Trainierbarkeit auf begrenzter Hardware vereint. Basierend auf jüngsten Fortschritten im maschinellen Lernen reduziert unser Ansatz, der latente Diffusionsstrategien bei starken latenten Bildkompressionsraten nutzt, die typischerweise mit state-of-the-art Modellen verbundene Rechenlast erheblich, während die Qualität der generierten Bilder erhalten, wenn nicht sogar verbessert wird. Wuerstchen erzielt bemerkenswerte Geschwindigkeitsverbesserungen zur Inferenzzeit, wodurch Echtzeitanwendungen praktikabler werden. Einer der Hauptvorteile unserer Methode liegt in den bescheidenen Trainingsanforderungen von nur 9.200 GPU-Stunden, die die üblichen Kosten erheblich senken, ohne die Endleistung zu beeinträchtigen. In einem Vergleich mit dem State-of-the-art zeigte sich, dass der Ansatz eine starke Wettbewerbsfähigkeit aufweist. Dieses Papier eröffnet eine neue Forschungsrichtung, die sowohl Leistung als auch rechnerische Zugänglichkeit priorisiert und damit die Nutzung anspruchsvoller KI-Technologien demokratisiert. Durch Wuerstchen demonstrieren wir einen überzeugenden Fortschritt im Bereich der Text-zu-Bild-Synthese und bieten einen innovativen Pfad für zukünftige Forschung.
Wir stellen GenMM vor, ein generatives Modell, das so viele verschiedene Bewegungen wie möglich aus einer oder wenigen Beispielsequenzen „extrahiert“. Im deutlichen Gegensatz zu bestehenden datengetriebenen Methoden, die typischerweise lange Offline-Trainingszeiten erfordern, anfällig für visuelle Artefakte sind und bei großen und komplexen Skeletten oft versagen, erbt GenMM die trainingsfreie Natur und die überlegene Qualität der bekannten Motion-Matching-Methode. GenMM kann eine hochwertige Bewegung in einem Bruchteil einer Sekunde synthetisieren, selbst bei hochkomplexen und großen Skelettstrukturen. Im Kern unseres generativen Frameworks liegt das generative Motion-Matching-Modul, das die bidirektionale visuelle Ähnlichkeit als generative Kostenfunktion für Motion Matching nutzt und in einem mehrstufigen Framework arbeitet, um eine zufällige Schätzung schrittweise mithilfe von exemplarischen Bewegungsübereinstimmungen zu verfeinern. Neben der Erzeugung vielfältiger Bewegungen zeigen wir die Vielseitigkeit unseres generativen Frameworks, indem wir es auf eine Reihe von Szenarien erweitern, die mit Motion Matching allein nicht möglich sind, darunter Bewegungsvervollständigung, Schlüsselbild-gesteuerte Erzeugung, endlose Schleifen und Bewegungsneuzusammensetzung. Code und Daten für dieses Papier finden Sie unter https://wyysf-98.github.io/GenMM/.
Moderne Deep-Learning-Ansätze transformieren Eingaben üblicherweise in eine modalitätsspezifische Form. Zum Beispiel beinhaltet der gängigste Deep-Learning-Ansatz zur Bildklassifizierung die Dekodierung von Bilddatei-Bytes in einen RGB-Tensor, der dann in ein neuronales Netzwerk eingespeist wird. Stattdessen untersuchen wir die Durchführung von Klassifizierung direkt auf Datei-Bytes, ohne die Notwendigkeit, Dateien zur Inferenzzeit zu dekodieren. Die Verwendung von Datei-Bytes als Modelleingaben ermöglicht die Entwicklung von Modellen, die mit mehreren Eingabemodalitäten arbeiten können. Unser Modell, ByteFormer, erreicht eine ImageNet Top-1-Klassifizierungsgenauigkeit von 77,33 %, wenn es direkt auf TIFF-Datei-Bytes trainiert und getestet wird, wobei ein Transformer-Backbone mit einer Konfiguration ähnlich zu DeiT-Ti verwendet wird (72,2 % Genauigkeit bei der Verarbeitung von RGB-Bildern). Ohne Modifikationen oder Hyperparameter-Tuning erreicht ByteFormer eine Klassifizierungsgenauigkeit von 95,42 % bei der Verarbeitung von WAV-Dateien aus dem Speech Commands v2-Datensatz (im Vergleich zur state-of-the-art Genauigkeit von 98,7 %). Zusätzlich zeigen wir, dass ByteFormer Anwendungen in der datenschutzbewahrenden Inferenz hat. ByteFormer ist in der Lage, Inferenz auf bestimmten verschleierten Eingabedarstellungen ohne Genauigkeitsverlust durchzuführen. Wir demonstrieren auch die Fähigkeit von ByteFormer, Inferenz mit einer hypothetischen datenschutzbewahrenden Kamera durchzuführen, die die Bildung vollständiger Bilder vermeidet, indem sie konsequent 90 % der Pixelkanäle maskiert, während dennoch eine Genauigkeit von 71,35 % auf ImageNet erreicht wird. Unser Code wird unter https://github.com/apple/ml-cvnets/tree/main/examples/byteformer verfügbar gemacht.
Text-to-Image-Diffusionsmodelle haben eine beispiellose Fähigkeit demonstriert, hochwertige und vielfältige Bilder aus einem textuellen Konzept (z. B. „ein Arzt“, „Liebe“) zu generieren. Der interne Prozess der Abbildung von Text auf eine reichhaltige visuelle Darstellung bleibt jedoch ein Rätsel. In dieser Arbeit gehen wir die Herausforderung an, Konzeptdarstellungen in Text-to-Image-Modellen zu verstehen, indem wir einen Eingabetext-Prompt in eine kleine Menge interpretierbarer Elemente zerlegen. Dies wird erreicht, indem ein Pseudo-Token gelernt wird, das eine spärlich gewichtete Kombination von Tokens aus dem Vokabular des Modells darstellt, mit dem Ziel, die für das gegebene Konzept generierten Bilder zu rekonstruieren. Angewendet auf das state-of-the-art Stable-Diffusion-Modell zeigt diese Zerlegung nicht-triviale und überraschende Strukturen in den Darstellungen von Konzepten. Beispielsweise stellen wir fest, dass einige Konzepte wie „ein Präsident“ oder „ein Komponist“ von spezifischen Instanzen (z. B. „Obama“, „Biden“) und deren Interpolationen dominiert werden. Andere Konzepte wie „Glück“ kombinieren assoziierte Begriffe, die konkret („Familie“, „Lachen“) oder abstrakt („Freundschaft“, „Emotion“) sein können. Neben dem Einblick in die inneren Abläufe von Stable Diffusion ermöglicht unsere Methode auch Anwendungen wie die Zerlegung einzelner Bilder in Tokens, die Erkennung und Minderung von Verzerrungen sowie die semantische Bildmanipulation. Unser Code wird unter folgender Adresse verfügbar sein: https://hila-chefer.github.io/Conceptor/
Das Erstellen eines lebendigen Videos aus einem Ereignis oder Szenario in unserer Vorstellung ist eine wahrhaft faszinierende Erfahrung. Jüngste Fortschritte in der Text-zu-Video-Synthese haben das Potenzial aufgezeigt, dies allein mit Eingabeaufforderungen zu erreichen. Obwohl Text praktisch ist, um den Gesamtkontext einer Szene zu vermitteln, kann er für eine präzise Steuerung unzureichend sein. In diesem Artikel untersuchen wir die maßgeschneiderte Videogenerierung, indem wir Text als Kontextbeschreibung und Bewegungsstruktur (z. B. bildweise Tiefe) als konkrete Anleitung nutzen. Unsere Methode, genannt Make-Your-Video, beinhaltet eine gemeinsam bedingte Videogenerierung unter Verwendung eines Latent Diffusion Models, das für die Standbildsynthese vortrainiert und dann durch die Einführung von temporalen Modulen für die Videogenerierung weiterentwickelt wird. Dieses zweistufige Lernschema reduziert nicht nur den benötigten Rechenaufwand, sondern verbessert auch die Leistung, indem es die reichhaltigen Konzepte aus Bilddatensätzen ausschließlich in die Videogenerierung überträgt. Darüber hinaus verwenden wir eine einfache, aber effektive kausale Aufmerksamkeitsmaskenstrategie, um längere Videosynthesen zu ermöglichen, wodurch eine potenzielle Qualitätsminderung wirksam gemildert wird. Experimentelle Ergebnisse zeigen die Überlegenheit unserer Methode gegenüber bestehenden Baselines, insbesondere in Bezug auf zeitliche Kohärenz und Treue zur Benutzerführung. Zudem ermöglicht unser Modell mehrere interessante Anwendungen, die das Potenzial für praktische Nutzung demonstrieren.
Wir untersuchen das Potenzial, visuelle Repräsentationen mithilfe von synthetischen Bildern zu lernen, die von Text-zu-Bild-Modellen generiert werden. Diese Fragestellung ergibt sich natürlich angesichts der hervorragenden Leistung solcher Modelle bei der Erzeugung hochwertiger Bilder. Wir betrachten speziell Stable Diffusion, eines der führenden Open-Source-Text-zu-Bild-Modelle. Wir zeigen, dass (1) wenn das generative Modell mit einer angemessenen classifier-free guidance scale konfiguriert ist, das Training selbstüberwachter Methoden auf synthetischen Bildern die Leistung von realen Bildern erreichen oder übertreffen kann; (2) indem wir die mehreren Bilder, die aus demselben Text-Prompt generiert werden, als positive Beispiele füreinander behandeln, entwickeln wir eine multi-positive kontrastive Lernmethode, die wir StableRep nennen. Mit ausschließlich synthetischen Bildern übertreffen die von StableRep gelernten Repräsentationen die Leistung der von SimCLR und CLIP gelernten Repräsentationen, die denselben Satz von Text-Prompts und entsprechenden realen Bildern verwenden, auf großen Datensätzen. Wenn wir zusätzlich Sprachaufsicht hinzufügen, erreicht StableRep, das mit 20M synthetischen Bildern trainiert wurde, eine bessere Genauigkeit als CLIP, das mit 50M realen Bildern trainiert wurde.
Die personalisierte Text-zu-Bild-Generierung mithilfe von Diffusionsmodellen wurde kürzlich vorgeschlagen und hat viel Aufmerksamkeit erregt. Gegeben eine Handvoll Bilder, die ein neuartiges Konzept enthalten (z. B. ein einzigartiges Spielzeug), zielen wir darauf ab, das generative Modell so anzupassen, dass es feine visuelle Details des neuartigen Konzepts erfasst und fotorealistische Bilder gemäß einer Textbedingung generiert. Wir präsentieren eine Plug-in-Methode, genannt ViCo, für schnelle und ressourcenschonende personalisierte Generierung. Insbesondere schlagen wir ein Bild-Attentionsmodul vor, um den Diffusionsprozess auf die patch-basierten visuellen Semantiken zu konditionieren. Wir führen eine auf Aufmerksamkeit basierende Objektmaske ein, die nahezu ohne zusätzlichen Aufwand aus dem Aufmerksamkeitsmodul gewonnen wird. Zudem entwerfen wir eine einfache Regularisierung, die auf den intrinsischen Eigenschaften von Text-Bild-Attentionskarten basiert, um die häufige Überanpassungsdegradation zu mildern. Im Gegensatz zu vielen bestehenden Modellen passt unsere Methode keine Parameter des ursprünglichen Diffusionsmodells an. Dies ermöglicht eine flexiblere und übertragbarere Modellbereitstellung. Mit nur geringem Parametertraining (~6 % des Diffusion U-Nets) erreicht unsere Methode vergleichbare oder sogar bessere Leistungen als alle state-of-the-art Modelle sowohl qualitativ als auch quantitativ.
Self-supervised Learning (SSL) hat sich in letzter Zeit als vielversprechendes Paradigma für das Training generalisierbarer Modelle auf groß angelegten Daten in den Bereichen Vision, Text und Sprache etabliert. Obwohl SSL sich in der Sprach- und Audioverarbeitung als effektiv erwiesen hat, wurde seine Anwendung auf Musik-Audio noch nicht umfassend erforscht. Dies liegt vor allem an den besonderen Herausforderungen, die mit der Modellierung musikalischen Wissens verbunden sind, insbesondere den tonalen und pitch-basierten Eigenschaften der Musik. Um diese Forschungslücke zu schließen, schlagen wir ein akustisches Music undERstanding Modell mit groß angelegtem Self-supervised Training (MERT) vor, das Lehrermodelle integriert, um Pseudolabels im Stil des Masked Language Modelling (MLM) für das akustische Pre-Training bereitzustellen. In unserer Untersuchung identifizierten wir eine überlegene Kombination von Lehrermodellen, die herkömmliche Ansätze in der Sprach- und Audioverarbeitung in Bezug auf die Leistung übertrifft. Diese Kombination umfasst einen akustischen Lehrer basierend auf Residual Vector Quantization - Variational AutoEncoder (RVQ-VAE) und einen musikalischen Lehrer basierend auf der Constant-Q Transform (CQT). Diese Lehrer leiten unser Schülermodell, einen BERT-artigen Transformer-Encoder, effektiv an, um Musik-Audio besser zu modellieren. Zusätzlich führen wir eine In-Batch-Noise-Mixture-Augmentation ein, um die Robustheit der Repräsentation zu verbessern. Darüber hinaus untersuchen wir eine Vielzahl von Einstellungen, um die Instabilität im Pre-Training akustischer Sprachmodelle zu überwinden, was es unserem entworfenen Paradigma ermöglicht, von 95M auf 330M Parameter zu skalieren. Experimentelle Ergebnisse zeigen, dass unser Modell auf 14 Musikverständnisaufgaben generalisieren und gut abschneiden kann und insgesamt state-of-the-art (SOTA) Ergebnisse erzielt. Der Code und die Modelle sind online verfügbar: https://github.com/yizhilll/MERT.
Es besteht ein ausgeprägter Bedarf, vortrainierte große Text-zu-Bild-Modelle, wie z. B. Stable Diffusion, anzupassen, um innovative Konzepte zu generieren, wie beispielsweise die Benutzer selbst. Allerdings zeigt das neu hinzugefügte Konzept aus früheren Anpassungsmethoden oft schwächere Kombinationsfähigkeiten als die ursprünglichen, selbst wenn mehrere Bilder während des Trainings verwendet werden. Daher schlagen wir eine neue Personalisierungsmethode vor, die die nahtlose Integration einer einzigartigen Person in das vortrainierte Diffusionsmodell ermöglicht, indem lediglich ein Gesichtsfoto und nur 1024 trainierbare Parameter in weniger als 3 Minuten verwendet werden. So können wir mühelos beeindruckende Bilder dieser Person in jeder Pose oder Position generieren, die mit jedem interagiert und alles Vorstellbare aus Textaufforderungen tut. Um dies zu erreichen, analysieren und erstellen wir zunächst eine gut definierte Prominentenbasis aus dem Einbettungsraum des vortrainierten großen Textkodierers. Dann generieren wir, ausgehend von einem Gesichtsfoto als Zielidentität, dessen eigene Einbettung, indem wir das Gewicht dieser Basis optimieren und alle anderen Parameter sperren. Durch die vorgeschlagene Prominentenbasis zeigt die neue Identität in unserem angepassten Modell eine bessere Konzeptkombinationsfähigkeit als frühere Personalisierungsmethoden. Darüber hinaus kann unser Modell auch mehrere neue Identitäten gleichzeitig lernen und miteinander interagieren, was bei früheren Anpassungsmodellen nicht möglich war. Der Code wird veröffentlicht.
Großskalige generative Modelle sind in der Lage, hochwertige Bilder aus detaillierten Textbeschreibungen zu erzeugen. Viele Aspekte eines Bildes sind jedoch schwierig oder unmöglich, durch Text zu vermitteln. Wir stellen Self-Guidance vor, eine Methode, die eine bessere Kontrolle über generierte Bilder ermöglicht, indem sie die internen Repräsentationen von Diffusionsmodellen steuert. Wir zeigen, dass Eigenschaften wie Form, Position und Erscheinungsbild von Objekten aus diesen Repräsentationen extrahiert und zur Steuerung des Sampling-Prozesses verwendet werden können. Self-Guidance funktioniert ähnlich wie Classifier-Guidance, nutzt jedoch Signale, die im vortrainierten Modell selbst vorhanden sind, und erfordert keine zusätzlichen Modelle oder Training. Wir zeigen, wie eine einfache Menge von Eigenschaften kombiniert werden kann, um anspruchsvolle Bildmanipulationen durchzuführen, wie z. B. die Änderung der Position oder Größe von Objekten, das Zusammenführen des Erscheinungsbilds von Objekten aus einem Bild mit dem Layout eines anderen, das Komponieren von Objekten aus vielen Bildern in eines und mehr. Wir zeigen auch, dass Self-Guidance zur Bearbeitung realer Bilder verwendet werden kann. Für Ergebnisse und eine interaktive Demo besuchen Sie unsere Projektseite unter https://dave.ml/selfguidance/.
Große Sprachmodelle, die auf Transformern basieren, haben große empirische Erfolge erzielt. Da sie jedoch immer breiter eingesetzt werden, besteht ein zunehmender Bedarf, ihre internen Mechanismen besser zu verstehen, um sie zuverlässiger zu machen. Diese Modelle scheinen große Mengen an Wissen aus ihren Trainingsdaten zu speichern und sich schnell an neue Informationen anzupassen, die in ihrem Kontext oder Prompt bereitgestellt werden. Wir untersuchen, wie Transformer diese beiden Arten von Wissen ausbalancieren, indem wir ein synthetisches Setup betrachten, in dem Token entweder aus globalen oder kontextspezifischen Bigramm-Verteilungen generiert werden. Durch eine sorgfältige empirische Analyse des Trainingsprozesses an einem vereinfachten zweischichtigen Transformer verdeutlichen wir das schnelle Lernen globaler Bigramme und die langsamere Entwicklung eines „Induktionskopf“-Mechanismus für die In-Context-Bigramme. Wir heben die Rolle von Gewichtsmatrizen als assoziative Speicher hervor, liefern theoretische Einblicke, wie Gradienten deren Lernen während des Trainings ermöglichen, und untersuchen die Rolle von datenverteilungsspezifischen Eigenschaften.
Die Generierung von Musik aus Textbeschreibungen ist ein benutzerfreundlicher Modus, da Text eine relativ einfache Schnittstelle für die Benutzerinteraktion darstellt. Während einige Ansätze Texte zur Steuerung der Musikaudiogenerierung nutzen, ist die Bearbeitung musikalischer Elemente in generierten Audiodateien für Benutzer eine Herausforderung. Im Gegensatz dazu bietet symbolische Musik eine einfache Bearbeitbarkeit, was es Benutzern zugänglicher macht, spezifische musikalische Elemente zu manipulieren. In diesem Artikel stellen wir MuseCoco vor, das symbolische Musik aus Textbeschreibungen generiert, wobei musikalische Attribute als Brücke dienen, um die Aufgabe in die Phasen Text-zu-Attribut-Verständnis und Attribut-zu-Musik-Generierung zu unterteilen. MuseCoco steht für Music Composition Copilot, der Musiker befähigt, Musik direkt aus gegebenen Textbeschreibungen zu generieren, was eine erhebliche Effizienzsteigerung im Vergleich zur vollständigen Neuerstellung von Musik bietet. Das System hat zwei Hauptvorteile: Erstens ist es dateneffizient. In der Attribut-zu-Musik-Generierungsphase können die Attribute direkt aus Musiksequenzen extrahiert werden, wodurch das Modelltraining selbstüberwacht ist. In der Text-zu-Attribut-Verständnisphase wird der Text von ChatGPT basierend auf den definierten Attributvorlagen synthetisiert und verfeinert. Zweitens kann das System eine präzise Steuerung mit spezifischen Attributen in Textbeschreibungen erreichen und bietet mehrere Steuerungsoptionen durch attribut- oder textkonditionierte Ansätze. MuseCoco übertrifft Baseline-Systeme in Bezug auf Musikalität, Steuerbarkeit und Gesamtbewertung um mindestens 1,27, 1,08 bzw. 1,32. Darüber hinaus gibt es eine bemerkenswerte Verbesserung der objektiven Steuerungsgenauigkeit von etwa 20%. Zusätzlich haben wir ein robustes großskaliges Modell mit 1,2 Milliarden Parametern entwickelt, das eine außergewöhnliche Steuerbarkeit und Musikalität aufweist.
Code Intelligence spielt eine Schlüsselrolle bei der Transformation der modernen Softwareentwicklung. Kürzlich haben Deep-Learning-Modelle, insbesondere Transformer-basierte große Sprachmodelle (LLMs), bemerkenswertes Potenzial bei der Bewältigung dieser Aufgaben gezeigt, indem sie massive Open-Source-Code-Daten und Programmiersprachenmerkmale nutzen. Die Entwicklung und Bereitstellung solcher Modelle erfordert jedoch oft Expertise sowohl im Bereich des maschinellen Lernens als auch der Softwareentwicklung, was eine Barriere für die Einführung der Modelle darstellt. In diesem Artikel stellen wir CodeTF vor, eine Open-Source-Transformer-basierte Bibliothek für state-of-the-art Code LLMs und Code Intelligence. Nach den Prinzipien des modularen Designs und erweiterbaren Frameworks haben wir CodeTF mit einer einheitlichen Schnittstelle entwickelt, um einen schnellen Zugriff und die Entwicklung über verschiedene Modelltypen, Datensätze und Aufgaben hinweg zu ermöglichen. Unsere Bibliothek unterstützt eine Sammlung vortrainierter Code-LLM-Modelle und beliebter Code-Benchmarks, einschließlich einer standardisierten Schnittstelle zum effizienten Trainieren und Bereitstellen von Code LLMs sowie Datenmerkmalen wie sprachspezifischen Parsern und Utility-Funktionen zur Extraktion von Code-Attributen. In diesem Artikel beschreiben wir die Designprinzipien, die Architektur, Schlüsselmodule und -komponenten und vergleichen sie mit anderen verwandten Bibliothekswerkzeugen. Schließlich hoffen wir, dass CodeTF die Lücke zwischen maschinellem Lernen/generativer KI und Softwareentwicklung überbrücken kann und eine umfassende Open-Source-Lösung für Entwickler, Forscher und Praktiker bietet.
Text-konditionale Diffusionsmodelle sind in der Lage, hochauflösende Bilder mit vielfältigen Inhalten zu generieren. Allerdings weisen linguistische Repräsentationen häufig mehrdeutige Beschreibungen der angestrebten Zielbilder auf, was die Einbindung zusätzlicher Steuersignale erfordert, um die Effektivität von textgesteuerten Diffusionsmodellen zu erhöhen. In dieser Arbeit schlagen wir Cocktail vor, eine Pipeline zur Kombination verschiedener Modalitäten in einem Embedding, die mit einem generalisierten ControlNet (gControlNet), einer kontrollierbaren Normalisierung (ControlNorm) und einer räumlichen Steuerungs-Sampling-Methode kombiniert wird, um eine multimodale und räumlich verfeinerte Steuerung für text-konditionale Diffusionsmodelle zu realisieren. Konkret führen wir ein Hyper-Netzwerk gControlNet ein, das der Ausrichtung und Einbindung der Steuersignale aus verschiedenen Modalitäten in das vortrainierte Diffusionsmodell dient. gControlNet ist in der Lage, flexible Modalsignale zu akzeptieren, einschließlich der gleichzeitigen Aufnahme beliebiger Kombinationen von Modalsignalen oder der zusätzlichen Fusion mehrerer Modalsignale. Die Steuersignale werden dann gemäß unserer vorgeschlagenen ControlNorm fusioniert und in das Backbone-Modell injiziert. Darüber hinaus integriert unsere fortschrittliche räumliche Steuerungs-Sampling-Methode das Steuersignal effizient in den vorgesehenen Bereich und verhindert so das Auftreten unerwünschter Objekte im generierten Bild. Wir demonstrieren die Ergebnisse unserer Methode zur Steuerung verschiedener Modalitäten und belegen eine hochwertige Synthese und Treue zu mehreren externen Signalen.
Wir stellen den ObjectFolder Benchmark vor, eine Benchmark-Suite mit 10 Aufgaben für multisensorisches, objektzentriertes Lernen, die sich auf Objekterkennung, Rekonstruktion und Manipulation mit Sehen, Hören und Tasten konzentriert. Zudem präsentieren wir das ObjectFolder Real Dataset, das multisensorische Messungen für 100 reale Haushaltsgegenstände umfasst und auf einer neu entwickelten Pipeline zur Erfassung von 3D-Modellen, Videos, Aufprallgeräuschen und taktilen Messungen realer Objekte basiert. Wir führen systematische Benchmarking-Studien sowohl mit den 1.000 multisensorischen neuronalen Objekten aus ObjectFolder als auch mit den realen multisensorischen Daten aus ObjectFolder Real durch. Unsere Ergebnisse unterstreichen die Bedeutung der multisensorischen Wahrnehmung und zeigen die jeweiligen Rollen von Vision, Audio und Tasten für verschiedene objektzentrierte Lernaufgaben auf. Durch die öffentliche Bereitstellung unseres Datensatzes und der Benchmark-Suite hoffen wir, neue Forschungsansätze im Bereich des multisensorischen, objektzentrierten Lernens in der Computer Vision, Robotik und darüber hinaus anzuregen und zu ermöglichen. Projektseite: https://objectfolder.stanford.edu
Diffusionsmodell-basierte Ansätze haben vielversprechende Ergebnisse in der datengesteuerten Planung gezeigt, bieten jedoch keine Sicherheitsgarantien, was ihre Anwendung in sicherheitskritischen Bereichen erschwert. Um diese Herausforderungen zu bewältigen, schlagen wir eine neue Methode namens SafeDiffuser vor, die sicherstellt, dass Diffusionswahrscheinlichkeitsmodelle Spezifikationen erfüllen, indem eine Klasse von Kontrollbarrierenfunktionen verwendet wird. Der Kernidee unseres Ansatzes besteht darin, die vorgeschlagene endzeitliche Diffusionsinvarianz in den Denoising-Diffusionsprozess einzubetten, was eine vertrauenswürdige Generierung von Diffusionsdaten ermöglicht. Darüber hinaus zeigen wir, dass unsere Methode der endzeitlichen Diffusionsinvarianz durch generative Modelle nicht nur die Generalisierungsleistung beibehält, sondern auch Robustheit bei der sicheren Datengenerierung schafft. Wir testen unsere Methode an einer Reihe von sicheren Planungsaufgaben, einschließlich Labyrinthpfadgenerierung, Fortbewegung von Beinrobotern und 3D-Raummanipulation, wobei die Ergebnisse die Vorteile von Robustheit und Garantien gegenüber herkömmlichen Diffusionsmodellen aufzeigen.
Transformer sind zentral für die jüngsten Erfolge in der natürlichen Sprachverarbeitung und der Computer Vision. Transformer verfügen über ein weitgehend einheitliches Grundgerüst, in dem Schichten zwischen Feed-Forward- und Self-Attention-Layern abwechseln, um ein tiefes Netzwerk aufzubauen. Hier untersuchen wir diese Designentscheidung und stellen fest, dass komplexere Blöcke mit unterschiedlichen Permutationen von Schichtprimitiven effizienter sein können. Aufbauend auf dieser Erkenntnis entwickeln wir einen komplexen Block namens Brainformer, der aus einer Vielzahl von Schichten besteht, wie beispielsweise spärlich gated Feed-Forward-Schichten, dichte Feed-Forward-Schichten, Attention-Schichten sowie verschiedenen Formen von Layer-Normalisierung und Aktivierungsfunktionen. Brainformer übertrifft durchweg die modernsten dichten und spärlichen Transformer sowohl in Bezug auf Qualität als auch Effizienz. Ein Brainformer-Modell mit 8 Milliarden aktivierten Parametern pro Token zeigt eine 2x schnellere Trainingskonvergenz und eine 5x schnellere Schrittzeit im Vergleich zu seinem GLaM-Pendant. Bei der Bewertung von Downstream-Aufgaben erzielt Brainformer ebenfalls eine 3 % höhere SuperGLUE-Punktzahl mit Feinabstimmung im Vergleich zu GLaM mit einer ähnlichen Anzahl aktivierter Parameter. Schließlich übertrifft Brainformer deutlich ein Primer-Dichtemodell, das mit NAS abgeleitet wurde, bei Few-Shot-Evaluierungen bei ähnlicher Berechnung pro Token.