Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Das jüngste Aufkommen von selbstüberwachten Vortrainingsmethoden hat zu einem starken Anstieg der Nutzung von multimodalem Lernen im Bereich der Formulardokumentverarbeitung geführt. Bestehende Ansätze, die die Maskierungssprachmodellierung auf andere Modalitäten ausweiten, erfordern jedoch eine sorgfältige Multi-Task-Abstimmung, komplexe Rekonstruktionszielentwürfe oder zusätzliche Vortrainingsdaten. In FormNetV2 führen wir eine zentralisierte multimodale Graph-Kontrastlernstrategie ein, um das selbstüberwachte Vortraining für alle Modalitäten in einem einzigen Verlust zu vereinheitlichen. Das Graph-Kontrastziel maximiert die Übereinstimmung multimodaler Repräsentationen und bietet ein natürliches Zusammenspiel aller Modalitäten ohne spezielle Anpassungen. Darüber hinaus extrahieren wir Bildmerkmale innerhalb der Begrenzungsbox, die ein Tokenpaar verbindet, das durch eine Graphkante verbunden ist, und erfassen so gezieltere visuelle Hinweise, ohne einen komplexen und separat vortrainierten Bild-Einbettungsmechanismus zu laden. FormNetV2 erreicht neue State-of-the-Art-Leistungen auf den Benchmarks FUNSD, CORD, SROIE und Payment bei einer kompakteren Modellgröße.
Es besteht eine wachsende Nachfrage nach der zugänglichen Erstellung von hochwertigen, animierbaren und anpassbaren 3D-Avataren. Obwohl 3D-morphable Modelle eine intuitive Steuerung für Bearbeitung und Animation sowie Robustheit bei der Rekonstruktion von Gesichtern aus Einzelansichten bieten, können sie geometrische und Erscheinungsdetails nur schwer erfassen. Methoden, die auf neuronalen impliziten Darstellungen wie Signed Distance Functions (SDF) oder Neural Radiance Fields basieren, erreichen Foto-Realismus, sind jedoch schwer zu animieren und generalisieren schlecht auf unbekannte Daten. Um dieses Problem zu lösen, schlagen wir eine neuartige Methode zur Konstruktion impliziter 3D-morphable Gesichtsmodelle vor, die sowohl generalisierbar als auch intuitiv für die Bearbeitung sind. Unser Gesichtsmodell, das aus einer Sammlung hochwertiger 3D-Scans trainiert wird, ist durch Geometrie-, Ausdrucks- und Textur-Latent-Codes mit einer gelernten SDF und expliziter UV-Textur-Parametrisierung charakterisiert. Nach dem Training können wir einen Avatar aus einem einzelnen „in-the-wild“-Bild rekonstruieren, indem wir das gelernte Prior nutzen, um das Bild in den latenten Raum unseres Modells zu projizieren. Unsere impliziten morphable Gesichtsmodelle können verwendet werden, um einen Avatar aus neuen Blickwinkeln zu rendern, Gesichtsausdrücke durch die Modifikation von Ausdrucks-Codes zu animieren und Texturen durch direktes Bemalen der gelernten UV-Texturkarten zu bearbeiten. Wir zeigen quantitativ und qualitativ, dass unsere Methode im Vergleich zu state-of-the-art-Verfahren die Foto-Realismus, Geometrie und Ausdrucksgenauigkeit verbessert.
Dieses Paper stellt NeuralEditor vor, das neuronale Strahlungsfelder (NeRFs) nativ editierbar macht, um allgemeine Formbearbeitungsaufgaben zu ermöglichen. Trotz ihrer beeindruckenden Ergebnisse bei der Synthese neuer Ansichten bleibt es eine grundlegende Herausforderung für NeRFs, die Form einer Szene zu bearbeiten. Unser zentraler Ansatz besteht darin, die explizite Punktwolken-Darstellung als zugrunde liegende Struktur zur Konstruktion von NeRFs zu nutzen, inspiriert durch die intuitive Interpretation des NeRF-Renderings als einen Prozess, der die zugehörige 3D-Punktwolke auf eine 2D-Bildebene projiziert oder „plottet“. Zu diesem Zweck führt NeuralEditor ein neuartiges Rendering-Schema basierend auf deterministischer Integration innerhalb von K-D-Baum-gesteuerten, dichteadaptiven Voxeln ein, das sowohl hochwertige Rendering-Ergebnisse als auch präzise Punktwolken durch Optimierung erzeugt. NeuralEditor führt dann Formbearbeitungen durch, indem es zugehörige Punkte zwischen Punktwolken abbildet. Umfangreiche Auswertungen zeigen, dass NeuralEditor state-of-the-art Leistungen sowohl bei Formverformungen als auch bei Szenenmorphing-Aufgaben erreicht. Bemerkenswerterweise unterstützt NeuralEditor sowohl Zero-Shot-Inferenz als auch weiteres Feintuning über die bearbeitete Szene. Unser Code, Benchmark und Demo-Video sind unter https://immortalco.github.io/NeuralEditor verfügbar.
Mehrsprachige maschinelle Übersetzung verspricht, die Übersetzungsqualität zwischen nicht-englischen Sprachen zu verbessern. Dies ist aus mehreren Gründen vorteilhaft, insbesondere aufgrund geringerer Latenz (keine Notwendigkeit einer doppelten Übersetzung) und reduzierter Fehlerkaskaden (z. B. Vermeidung des Verlusts von Genus- und Formalitätsinformationen bei der Übersetzung über Englisch). Als Nachteil verringert die Hinzufügung weiterer Sprachen die Modellkapazität pro Sprache, was üblicherweise durch eine Vergrößerung des Gesamtmodells kompensiert wird, was das Training erschwert und die Inferenz verlangsamt. In dieser Arbeit führen wir sprachspezifische Transformer-Schichten (Language-Specific Transformer Layers, LSLs) ein, die es uns ermöglichen, die Modellkapazität zu erhöhen, während die Menge der Berechnungen und die Anzahl der Parameter im Vorwärtsdurchlauf konstant bleiben. Die zentrale Idee besteht darin, einige Schichten des Encoders sprachspezifisch für die Quell- oder Zielsprache zu gestalten, während die übrigen Schichten gemeinsam genutzt werden. Wir untersuchen die beste Platzierung dieser Schichten mithilfe eines Ansatzes, der von der neuronalen Architektursuche inspiriert ist, und erzielen eine Verbesserung von 1,3 chrF (1,5 spBLEU) Punkten gegenüber der Nichtverwendung von LSLs in einer separaten Decoder-Architektur und 1,9 chrF (2,2 spBLEU) in einer gemeinsam genutzten Decoder-Architektur.
KI-Aufgaben umfassen eine breite Palette von Domänen und Fachgebieten. Während zahlreiche KI-Modelle für spezifische Aufgaben und Anwendungen entwickelt wurden, erfordern sie oft erheblichen menschlichen Aufwand, um die richtige Modellarchitektur, den Optimierungsalgorithmus und die Hyperparameter zu finden. Jüngste Fortschritte bei großen Sprachmodellen (LLMs) wie ChatGPT zeigen bemerkenswerte Fähigkeiten in verschiedenen Aspekten des Denkens, des Verständnisses und der Interaktion. Folglich schlagen wir vor, aufgabenorientierte Prompts zu entwickeln und LLMs automatisch zu nutzen, um den Trainingsprozess zu automatisieren. Um dieses Konzept umzusetzen, präsentieren wir das AutoML-GPT, das GPT als Brücke zu verschiedenen KI-Modellen einsetzt und Modelle mit optimierten Hyperparametern dynamisch trainiert. AutoML-GPT nimmt dynamisch Benutzeranfragen aus den Modell- und Datenkarten entgegen und erstellt den entsprechenden Prompt-Absatz. Schließlich führt AutoML-GPT mit diesem Prompt-Absatz automatisch die Experimente von der Datenverarbeitung über die Modellarchitektur und Hyperparameteroptimierung bis hin zum vorhergesagten Trainingsprotokoll durch. Durch die Nutzung der robusten Sprachfähigkeiten von {\ours} und der verfügbaren KI-Modelle kann AutoML-GPT zahlreiche komplexe KI-Aufgaben über verschiedene Aufgaben und Datensätze hinweg bewältigen. Dieser Ansatz erzielt bemerkenswerte Ergebnisse in den Bereichen Computer Vision, Natural Language Processing und anderen anspruchsvollen Gebieten. Umfangreiche Experimente und Ablationsstudien zeigen, dass unsere Methode allgemein, effektiv und vorteilhaft für viele KI-Aufgaben sein kann.
Die jüngsten Fortschritte in den Fähigkeiten zur Codegenerierung durch den Einsatz großer Sprachmodelle haben hauptsächlich allgemeine Programmiersprachen begünstigt. Domänenspezifische Sprachen, wie sie beispielsweise in der IT-Automatisierung verwendet werden, haben hingegen weit weniger Beachtung gefunden, obwohl sie viele aktive Entwickler umfassen und ein wesentlicher Bestandteil moderner Cloud-Plattformen sind. Diese Arbeit konzentriert sich auf die Generierung von Ansible-YAML, einer weit verbreiteten Auszeichnungssprache für die IT-Automatisierung. Wir stellen Ansible Wisdom vor, ein Tool zur Generierung von Ansible-YAML-Code aus natürlicher Sprache, das darauf abzielt, die Produktivität in der IT-Automatisierung zu steigern. Ansible Wisdom basiert auf einem Transformer-Modell, das durch das Training mit einem neuen Datensatz, der Ansible-YAML enthält, erweitert wurde. Zudem entwickeln wir zwei neuartige Leistungsmetriken für YAML und Ansible, um die spezifischen Charakteristika dieses Bereichs zu erfassen. Die Ergebnisse zeigen, dass Ansible Wisdom präzise Ansible-Skripte aus natürlichen Sprachbefehlen generieren kann, wobei die Leistung vergleichbar oder besser ist als bei bestehenden state-of-the-art Modellen zur Codegenerierung.
Das Verfolgen von Objekten mit Persistenz in unübersichtlichen und dynamischen Umgebungen bleibt eine schwierige Herausforderung für Computersysteme. In diesem Artikel stellen wir TCOW vor, einen neuen Benchmark und ein Modell für visuelles Tracking bei starker Verdeckung und Einschluss. Wir definieren eine Aufgabe, bei der es darum geht, in einem Videosequenz sowohl die projizierte Ausdehnung des Zielobjekts als auch das umgebende Behälter- oder Verdeckungsobjekt, sofern vorhanden, zu segmentieren. Um diese Aufgabe zu untersuchen, erstellen wir eine Mischung aus synthetischen und annotierten realen Datensätzen, die sowohl überwachtes Lernen als auch eine strukturierte Bewertung der Modellleistung unter verschiedenen Formen von Aufgabenvarianz, wie bewegliche oder verschachtelte Einschlüsse, ermöglichen. Wir evaluieren zwei aktuelle Transformer-basierte Videomodelle und stellen fest, dass sie zwar überraschend gut in der Lage sind, Ziele unter bestimmten Einstellungen der Aufgabenvarianz zu verfolgen, aber dennoch eine erhebliche Leistungslücke besteht, bevor wir behaupten können, dass ein Tracking-Modell ein echtes Verständnis von Objektpermanenz erlangt hat.
Texturen sind ein wesentlicher Aspekt bei der Erstellung visuell ansprechender und realistischer 3D-Modelle. In dieser Arbeit untersuchen wir das Problem der Erzeugung hochwertiger Texturen basierend auf den Formen von 3D-Objekten, ein Bereich, der im Vergleich zur generischen 3D-Formmodellierung bisher weniger erforscht wurde. Unser Ziel ist es, einen kontrollierbaren Texturgenerierungsprozess zu ermöglichen, bei dem ein Texturcode einem bestimmten Erscheinungsstil entsprechen kann, unabhängig von den Eingabeformen innerhalb einer Kategorie. Wir führen Texture UV Radiance Fields (TUVF) ein, die Texturen in einem lernbaren UV-Kugelraum erzeugen, anstatt direkt auf der 3D-Form. Dies ermöglicht es, die Textur von der zugrunde liegenden Form zu entkoppeln und auf andere Formen zu übertragen, die denselben UV-Raum teilen, d. h. aus derselben Kategorie. Wir integrieren den UV-Kugelraum mit dem Radiance Field, was eine effizientere und genauere Darstellung von Texturen im Vergleich zu traditionellen Texturkarten bietet. Wir führen unsere Experimente auf realen Objektdatensätzen durch, bei denen wir nicht nur realistische Synthesen erreichen, sondern auch erhebliche Verbesserungen gegenüber dem Stand der Technik in Bezug auf Textursteuerung und -bearbeitung erzielen. Projektseite: https://www.anjiecheng.me/TUVF
Wir konzentrieren uns auf die Rekonstruktion hochauflösender Radiance Fields von menschlichen Köpfen, die Erfassung ihrer Animationen über die Zeit und die Synthese von Neuberechnungen aus neuen Blickwinkeln zu beliebigen Zeitpunkten. Zu diesem Zweck schlagen wir eine neue Multi-View-Aufnahmeanordnung vor, die aus 16 kalibrierten Maschinenvisionskameras besteht, die zeitlich synchronisierte Bilder mit einer Auflösung von 7,1 MP und einer Bildrate von 73 Bildern pro Sekunde aufzeichnen. Mit unserer Anordnung sammeln wir einen neuen Datensatz von über 4700 hochauflösenden, hochfrequenten Sequenzen von mehr als 220 menschlichen Köpfen, aus dem wir einen neuen Benchmark für die Rekonstruktion menschlicher Köpfe einführen. Die aufgezeichneten Sequenzen decken eine breite Palette von Gesichtsbewegungen ab, einschließlich Kopfbewegungen, natürlicher Ausdrücke, Emotionen und gesprochener Sprache. Um hochauflösende menschliche Köpfe zu rekonstruieren, schlagen wir Dynamische Neuronale Radiance Fields mit Hash Ensembles (NeRSemble) vor. Wir repräsentieren die Szenendynamik durch die Kombination eines Deformationsfelds und eines Ensembles von 3D-Mehrfachauflösungs-Hash-Kodierungen. Das Deformationsfeld ermöglicht die präzise Modellierung einfacher Szenenbewegungen, während das Ensemble von Hash-Kodierungen hilft, komplexe Dynamiken darzustellen. Als Ergebnis erhalten wir Radiance Field-Darstellungen von menschlichen Köpfen, die Bewegungen über die Zeit erfassen und die Neuberechnung beliebiger neuer Blickwinkel ermöglichen. In einer Reihe von Experimenten untersuchen wir die Designentscheidungen unserer Methode und zeigen, dass unser Ansatz die aktuellsten dynamischen Radiance Field-Ansätze deutlich übertrifft.
Wir stellen Masked Trajectory Models (MTM) als eine generische Abstraktion für sequenzielle Entscheidungsfindung vor. MTM nimmt eine Trajektorie, wie beispielsweise eine Zustand-Aktions-Sequenz, und zielt darauf ab, die Trajektorie basierend auf zufälligen Teilmengen derselben Trajektorie zu rekonstruieren. Durch das Training mit einem stark randomisierten Maskierungsmuster lernt MTM vielseitige Netzwerke, die durch die einfache Wahl geeigneter Masken zur Inferenzzeit verschiedene Rollen oder Fähigkeiten übernehmen können. Zum Beispiel kann dasselbe MTM-Netzwerk als Vorwärtsdynamikmodell, inverses Dynamikmodell oder sogar als Offline-RL-Agent verwendet werden. Durch umfangreiche Experimente in mehreren kontinuierlichen Steuerungsaufgaben zeigen wir, dass dasselbe MTM-Netzwerk – d.h. mit denselben Gewichten – spezialisierte Netzwerke, die für die genannten Fähigkeiten trainiert wurden, übertreffen oder zumindest gleichwertig abschneiden kann. Darüber hinaus stellen wir fest, dass durch MTM gelernte Zustandsrepräsentationen die Lerngeschwindigkeit traditioneller RL-Algorithmen erheblich beschleunigen können. Schließlich zeigen wir in Offline-RL-Benchmarks, dass MTM mit spezialisierten Offline-RL-Algorithmen konkurrieren kann, obwohl MTM eine generische selbstüberwachte Lernmethode ohne explizite RL-Komponenten ist. Der Code ist verfügbar unter https://github.com/facebookresearch/mtm.
Kürzlich hat DeepNorm Transformers auf extrem tiefe Architekturen (d.h. 1000 Schichten) skaliert und das vielversprechende Potenzial des tiefen Skalierens aufgezeigt. Um das Training tiefer Modelle zu stabilisieren, versucht DeepNorm (Wang et al., 2022), die Modellaktualisierung auf einen konstanten Wert zu beschränken. Obwohl die Anwendung einer solchen Beschränkung in der frühen Phase des Modelltrainings von Vorteil sein kann, kann sie während des gesamten Trainingsprozesses zu unzureichend trainierten Modellen führen. In diesem Artikel schlagen wir BranchNorm vor, das den nicht-residualen Zweig des Transformers dynamisch in Abhängigkeit von der Trainingsphase neu skaliert. BranchNorm stabilisiert nicht nur theoretisch das Training mit glatten Gradientennormen in der Anfangsphase, sondern fördert auch eine bessere Konvergenz in der späteren Trainingsphase. Experimentelle Ergebnisse bei mehreren Übersetzungsaufgaben zeigen, dass BranchNorm eine bessere Balance zwischen Trainingsstabilität und Konvergenzleistung erreicht.
Wir präsentieren ein vollständiges System für die Echtzeitdarstellung von Szenen mit komplexen Erscheinungsbildern, die bisher der Offline-Nutzung vorbehalten waren. Dies wird durch eine Kombination aus algorithmischen und systemtechnischen Innovationen erreicht. Unser Erscheinungsmodell nutzt gelernte hierarchische Texturen, die mit neuronalen Decodern interpretiert werden, welche Reflektanzwerte und importance-sampled Richtungen erzeugen. Um die Modellierungskapazität der Decoder optimal zu nutzen, statten wir die Decoder mit zwei Grafik-Priors aus. Der erste Prior – die Transformation von Richtungen in gelernte Schattierungsrahmen – ermöglicht eine präzise Rekonstruktion von Mesoskala-Effekten. Der zweite Prior – eine Mikrofacetten-Sampling-Verteilung – erlaubt es dem neuronalen Decoder, Importance Sampling effizient durchzuführen. Das resultierende Erscheinungsmodell unterstützt anisotropes Sampling und Level-of-Detail-Rendering und ermöglicht das Backen von tief geschichteten Materialgraphen in eine kompakte, vereinheitlichte neuronale Repräsentation. Indem wir hardwarebeschleunigte Tensoroperationen für Raytracing-Shader verfügbar machen, zeigen wir, dass es möglich ist, die neuronalen Decoder effizient innerhalb eines Echtzeit-Path-Tracers einzubetten und auszuführen. Wir analysieren die Skalierbarkeit mit zunehmender Anzahl neuronaler Materialien und schlagen vor, die Leistung durch Code zu verbessern, der für kohärente und divergente Ausführung optimiert ist. Unsere neuronalen Material-Shader können mehr als eine Größenordnung schneller sein als nicht-neuronale geschichtete Materialien. Dies eröffnet die Möglichkeit, filmreife Visuals in Echtzeitanwendungen wie Spielen und Live-Vorschauen zu verwenden.
Große Sprachmodelle (LLMs) treiben viele state-of-the-art-Systeme in der natürlichen Sprachverarbeitung an. Diese Modelle sind jedoch äußerst rechenintensiv, selbst zur Inferenzzeit, was die naheliegende Frage aufwirft: Wann ist der zusätzliche Aufwand für den Einsatz eines größeren Modells den erwarteten Leistungssteigerungen wert? Ein besseres Verständnis dieses Trade-offs könnte grundlegend von einer Inferenzeffizienzmetrik profitieren, die sowohl (i) leicht vergleichbar über Modelle verschiedener Anbieter hinweg ist als auch (ii) die tatsächlichen Kosten für die Ausführung von Anfragen in einer isolierten Leistungsumgebung repräsentiert. Leider ist der Zugang zu LLMs heute weitgehend auf Black-Box-Textgenerierungs-APIs beschränkt, und die über diese Schnittstelle gemessenen Rohlaufzeiten erfüllen diese Anforderungen nicht: Modellanbieter können verschiedene Software- und Hardware-Optimierungen anwenden, die orthogonal zum Modell stehen, und Modelle, die auf gemeinsam genutzter Infrastruktur betrieben werden, sind anfällig für Leistungsengpässe. Um diese Probleme zu umgehen, schlagen wir eine neue Metrik für den Vergleich der Inferenzeffizienz über Modelle hinweg vor. Diese Metrik stellt Modelle auf eine gleiche Basis, als ob sie (i) auf einheitlicher Hardware und Software betrieben würden und (ii) ohne Leistungsengpässe. Wir nennen diese Metrik die idealisierte Laufzeit und schlagen eine Methode vor, um diese Metrik für autoregressive Transformer-Modelle effizient zu schätzen. Wir schlagen auch kostenbewusste Varianten vor, die die Anzahl der benötigten Beschleuniger für den Betrieb des Modells einbeziehen. Mit diesen Metriken vergleichen wir zehn state-of-the-art-LLMs, um die erste Analyse der Trade-offs zwischen Inferenzeffizienz und Leistungsfähigkeit zu liefern; wir ziehen mehrere Beobachtungen aus dieser Analyse, darunter die Tatsache, dass die überlegene Inferenzlaufzeitleistung bestimmter APIs oft ein Nebenprodukt von Optimierungen innerhalb der API und nicht des zugrunde liegenden Modells ist. Unsere Methodik erleichtert auch den effizienten Vergleich verschiedener Software- und Hardware-Stacks.
Vortrainierte große Sprachmodelle (LLMs) erfassen prozedurales Wissen über die Welt. Neuere Arbeiten haben die Fähigkeit von LLMs genutzt, abstrakte Pläne zu generieren, um anspruchsvolle Steuerungsaufgaben zu vereinfachen, entweder durch Aktionsbewertung oder Aktionsmodellierung (Feinabstimmung). Allerdings bringt die Transformer-Architektur mehrere Einschränkungen mit sich, die es schwierig machen, das LLM direkt als Agenten einzusetzen: z.B. begrenzte Eingabelängen, Ineffizienz bei der Feinabstimmung, Verzerrungen durch das Vortraining und Inkompatibilität mit nicht-textbasierten Umgebungen. Um die Kompatibilität mit einem trainierbaren Low-Level-Akteur zu gewährleisten, schlagen wir vor, das Wissen in LLMs stattdessen zu nutzen, um das Steuerungsproblem zu vereinfachen, anstatt es zu lösen. Wir präsentieren das Plan, Eliminate, and Track (PET) Framework. Das Plan-Modul übersetzt eine Aufgabenbeschreibung in eine Liste von hochrangigen Teilaufgaben. Das Eliminate-Modul blendet irrelevante Objekte und Behälter aus der Beobachtung für die aktuelle Teilaufgabe aus. Schließlich bestimmt das Track-Modul, ob der Agent jede Teilaufgabe erfüllt hat. Auf dem AlfWorld-Instruktionsfolge-Benchmark führt das PET-Framework zu einer signifikanten Verbesserung von 15 % gegenüber dem State-of-the-Art bei der Generalisierung auf menschliche Zielvorgaben.