Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Transformer-Architektur besteht aus zwei Hauptkomponenten, die nicht zur Einbettung gehören: Attention und das Feed-Forward-Netzwerk (FFN). Attention erfasst Abhängigkeiten zwischen Wörtern unabhängig von ihrer Position, während das FFN jeden Eingabe-Token unabhängig nicht-linear transformiert. In dieser Arbeit untersuchen wir die Rolle des FFN und stellen fest, dass es trotz eines erheblichen Anteils an den Parametern des Modells stark redundant ist. Konkret können wir die Anzahl der Parameter erheblich reduzieren, indem wir das FFN in den Decoder-Schichten entfernen und ein einzelnes FFN über den Encoder hinweg teilen, wobei die Genauigkeit nur geringfügig abnimmt. Schließlich skalieren wir diese Architektur auf ihre ursprüngliche Größe zurück, indem wir die versteckte Dimension des gemeinsamen FFN erhöhen, was erhebliche Verbesserungen sowohl in der Genauigkeit als auch in der Latenz im Vergleich zum ursprünglichen Transformer Big erzielt.
Bisherige animierbare 3D-fähige GANs für die Erzeugung von menschlichen Darstellungen konzentrierten sich hauptsächlich entweder auf den Kopf oder den gesamten Körper. Allerdings sind Videos, die nur den Kopf zeigen, im realen Leben relativ unüblich, und die Erzeugung des gesamten Körpers befasst sich typischerweise nicht mit der Kontrolle von Gesichtsausdrücken und hat weiterhin Schwierigkeiten, hochwertige Ergebnisse zu erzielen. Im Hinblick auf anwendbare Videoavatare präsentieren wir ein animierbares 3D-fähiges GAN, das Porträtbilder mit kontrollierbaren Gesichtsausdrücken, Kopfhaltungen und Schulterbewegungen erzeugt. Es handelt sich um ein generatives Modell, das auf unstrukturierten 2D-Bildsammlungen trainiert wurde, ohne 3D- oder Videodaten zu verwenden. Für diese neue Aufgabe basieren wir unsere Methode auf der generativen Radiance-Manifold-Darstellung und statten sie mit erlernbaren Gesichts- und Kopf-Schulter-Deformationen aus. Ein Dual-Kamera-Rendering und ein adversarielles Lernschema werden vorgeschlagen, um die Qualität der erzeugten Gesichter zu verbessern, was für Porträtbilder entscheidend ist. Ein Netzwerk zur Verarbeitung von Pose-Deformationen wurde entwickelt, um plausible Deformationen für anspruchsvolle Regionen wie langes Haar zu erzeugen. Experimente zeigen, dass unsere Methode, die auf unstrukturierten 2D-Bildern trainiert wurde, vielfältige und hochwertige 3D-Porträts mit gewünschter Kontrolle über verschiedene Eigenschaften erzeugen kann.
Große Sprachmodelle (LLMs) haben in letzter Zeit bemerkenswerte Fähigkeiten gezeigt, menschliche Absichten zu verstehen, in logisches Denken einzutreten und planungsähnliches Verhalten zu entwerfen. Um die Leistungsfähigkeit von LLMs weiter zu entfesseln und komplexe Aufgaben zu bewältigen, gibt es einen zunehmenden Trend, Agenten-Frameworks zu entwickeln, die LLMs wie ChatGPT mit Werkzeugnutzungsfähigkeiten ausstatten, um sie mit einer Vielzahl externer APIs zu verbinden. In dieser Arbeit stellen wir ModelScope-Agent vor, ein allgemeines und anpassbares Agenten-Framework für reale Anwendungen, das auf Open-Source-LLMs als Steuerungseinheiten basiert. Es bietet eine benutzerfreundliche Systembibliothek mit einem anpassbaren Engine-Design, das das Modelltraining auf mehreren Open-Source-LLMs unterstützt und gleichzeitig eine nahtlose Integration sowohl mit Modell-APIs als auch mit gängigen APIs auf einheitliche Weise ermöglicht. Um die LLMs mit Werkzeugnutzungsfähigkeiten auszustatten, wurde ein umfassendes Framework vorgeschlagen, das die Datensammlung für die Werkzeugnutzung, die Werkzeugrückgewinnung, die Werkzeugregistrierung, die Speichersteuerung, das angepasste Modelltraining und die Bewertung für praktische reale Anwendungen abdeckt. Schließlich präsentieren wir ModelScopeGPT, einen intelligenten Assistenten der ModelScope-Community, der auf dem ModelScope-Agent-Framework basiert und in der Lage ist, Open-Source-LLMs mit mehr als 1000 öffentlichen KI-Modellen und lokalisiertem Community-Wissen in ModelScope zu verbinden. Die ModelScope-Agent-Bibliothek https://github.com/modelscope/modelscope-agent und die Online-Demo https://modelscope.cn/studios/damo/ModelScopeGPT/summary sind nun öffentlich verfügbar.
Die Materialrekonstruktion aus einem Foto ist eine Schlüsselkomponente bei der Demokratisierung der 3D-Inhaltserstellung. Wir schlagen vor, dieses schlecht gestellte Problem als ein kontrolliertes Syntheseproblem zu formulieren und dabei die jüngsten Fortschritte bei generativen Deep Networks zu nutzen. Wir präsentieren ControlMat, eine Methode, die ausgehend von einem einzelnen Foto mit unkontrollierter Beleuchtung als Eingabe ein Diffusionsmodell konditioniert, um plausible, kachelbare, hochauflösende physikalisch basierte digitale Materialien zu erzeugen. Wir analysieren sorgfältig das Verhalten von Diffusionsmodellen für mehrkanalige Ausgaben, passen den Sampling-Prozess an, um mehrskalige Informationen zu fusionieren, und führen gerollte Diffusion ein, um sowohl Kachelbarkeit als auch gepatchte Diffusion für hochauflösende Ausgaben zu ermöglichen. Unser generativer Ansatz ermöglicht weiterhin die Erkundung einer Vielzahl von Materialien, die dem Eingabebild entsprechen könnten, und mildert so die unbekannten Beleuchtungsbedingungen. Wir zeigen, dass unser Ansatz aktuelle Inferenz- und Latentraum-Optimierungsmethoden übertrifft, und validieren sorgfältig unsere Designentscheidungen für den Diffusionsprozess. Ergänzende Materialien und zusätzliche Details sind verfügbar unter: https://gvecchio.com/controlmat/.
Reinforcement Learning with Human Feedback (RLHF) hat die Sprachmodellierung revolutioniert, indem es Modelle mit menschlichen Präferenzen in Einklang bringt. Allerdings erfordert die RL-Phase, Proximal Policy Optimization (PPO), mehr als das Dreifache des Speichers im Vergleich zum Supervised Fine-Tuning (SFT), was ihre Anwendung für die meisten Praktiker unpraktikabel macht. Um dieses Problem zu lösen, präsentieren wir eine umfassende Analyse des Speicherverbrauchs, der Leistung und der Trainingszeit von speichereffizienten Techniken für PPO. Wir stellen Hydra-RLHF vor, indem wir zunächst das SFT- und das Belohnungsmodell integrieren und dann LoRA während des Trainings dynamisch „abschalten“. Unsere Experimente zeigen: 1. Die Verwendung von LoRA während PPO reduziert den Speicherverbrauch auf ein Niveau, das unter dem von SFT liegt, und verbessert gleichzeitig die Ausrichtung über vier öffentliche Benchmarks hinweg, und 2. Hydra-PPO reduziert die Latenz pro Sample von LoRA-PPO um bis zu 65 %, während die Leistung erhalten bleibt. Unsere Ergebnisse zeigen, dass Hydra-PPO eine einfache und vielversprechende Lösung ist, um eine breitere Nutzung von RLHF zu ermöglichen.
Sprache vermittelt mehr Informationen als bloßer Text, da dasselbe Wort in verschiedenen Stimmen ausgesprochen werden kann, um unterschiedliche Informationen zu übermitteln. Im Vergleich zu traditionellen Text-zu-Sprache (TTS)-Methoden, die sich auf Sprachprompts (Referenzsprache) für die Stimmvariabilität verlassen, ist die Verwendung von Textprompts (Beschreibungen) benutzerfreundlicher, da Sprachprompts schwer zu finden sein können oder möglicherweise überhaupt nicht existieren. TTS-Ansätze, die auf Textprompts basieren, stehen vor zwei Herausforderungen: 1) das Eins-zu-Viele-Problem, bei dem nicht alle Details über die Stimmvariabilität im Textprompt beschrieben werden können, und 2) die begrenzte Verfügbarkeit von Textprompt-Datensätzen, bei denen Anbieter und hohe Kosten für die Datenbeschriftung erforderlich sind, um Textprompts für Sprache zu erstellen. In dieser Arbeit stellen wir PromptTTS 2 vor, um diese Herausforderungen mit einem Variationsnetzwerk zu bewältigen, das Variabilitätsinformationen der Stimme liefert, die nicht durch Textprompts erfasst werden, und einer Prompt-Generierungspipeline, die große Sprachmodelle (LLM) nutzt, um hochwertige Textprompts zu erstellen. Konkret sagt das Variationsnetzwerk die Darstellung voraus, die aus der Referenzsprache (die vollständige Informationen über die Stimme enthält) basierend auf der Textprompt-Darstellung extrahiert wird. Für die Prompt-Generierungspipeline generiert sie Textprompts für Sprache mit einem Sprachverständnismodell, um Stimmattribute (z. B. Geschlecht, Geschwindigkeit) aus der Sprache zu erkennen, und einem großen Sprachmodell, um den Textprompt basierend auf den Erkennungsergebnissen zu formulieren. Experimente mit einem groß angelegten (44.000 Stunden) Sprachdatensatz zeigen, dass PromptTTS 2 im Vergleich zu früheren Arbeiten Stimmen erzeugt, die konsistenter mit Textprompts sind, und die Stichprobenbildung verschiedener Stimmvariabilitäten unterstützt, wodurch den Nutzern mehr Möglichkeiten zur Stimmerzeugung geboten werden. Darüber hinaus produziert die Prompt-Generierungspipeline hochwertige Prompts und eliminiert die hohen Kosten für die Beschriftung. Die Demo-Seite von PromptTTS 2 ist online verfügbar: https://speechresearch.github.io/prompttts2.
Video Outpainting zielt darauf ab, fehlende Bereiche an den Rändern von Videobildern angemessen zu vervollständigen. Im Vergleich zum Image Outpainting stellt es eine zusätzliche Herausforderung dar, da das Modell die zeitliche Konsistenz des gefüllten Bereichs beibehalten sollte. In diesem Artikel stellen wir ein maskiertes 3D-Diffusionsmodell für Video Outpainting vor. Wir verwenden die Technik der Maskenmodellierung, um das 3D-Diffusionsmodell zu trainieren. Dies ermöglicht es uns, mehrere Leitbilder zu verwenden, um die Ergebnisse mehrerer Videoclip-Inferenzen zu verbinden und so die zeitliche Konsistenz zu gewährleisten und Ruckeln zwischen benachbarten Bildern zu reduzieren. Gleichzeitig extrahieren wir die globalen Bilder des Videos als Prompts und leiten das Modell an, mithilfe von Cross-Attention Informationen außerhalb des aktuellen Videoclips zu erhalten. Wir führen außerdem eine hybride Coarse-to-Fine-Inferenzpipeline ein, um das Problem der Artefaktakkumulation zu mildern. Die bestehende Coarse-to-Fine-Pipeline verwendet nur die Infilling-Strategie, was aufgrund des zu großen Zeitintervalls der spärlichen Bilder zu einer Verschlechterung führt. Unsere Pipeline profitiert vom bidirektionalen Lernen der Maskenmodellierung und kann daher beim Generieren spärlicher Bilder eine hybride Strategie aus Infilling und Interpolation anwenden. Experimente zeigen, dass unsere Methode state-of-the-art Ergebnisse in Video-Outpainting-Aufgaben erzielt. Weitere Ergebnisse sind auf unserer Website https://fanfanda.github.io/M3DDM/ verfügbar.
Dieses Papier stellt eine LoRA-freie Methode zur Erzeugung von stilisierten Bildern vor, die einen Textprompt und Stilreferenzbilder als Eingaben verwendet und in einem einzigen Durchlauf ein Ausgabebild erzeugt. Im Gegensatz zu bestehenden Methoden, die auf das Training eines separaten LoRA für jeden Stil angewiesen sind, kann unsere Methode sich mit einem einheitlichen Modell an verschiedene Stile anpassen. Dies stellt jedoch zwei Herausforderungen dar: 1) der Prompt verliert die Kontrolle über den generierten Inhalt, und 2) das Ausgabebild übernimmt sowohl die semantischen als auch die stilistischen Merkmale des Stilreferenzbildes, was die Inhaltsgenauigkeit beeinträchtigt. Um diese Herausforderungen zu bewältigen, führen wir StyleAdapter ein, ein Modell, das aus zwei Komponenten besteht: einem Zwei-Pfad-Kreuz-Attentionsmodul (TPCA) und drei Entkopplungsstrategien. Diese Komponenten ermöglichen es unserem Modell, den Prompt und die Stilreferenzmerkmale separat zu verarbeiten und die starke Kopplung zwischen den semantischen und stilistischen Informationen in den Stilreferenzen zu reduzieren. StyleAdapter kann in einem einzigen Durchlauf hochwertige Bilder erzeugen, die den Inhalt der Prompts widerspiegeln und den Stil der Referenzen übernehmen (auch für unbekannte Stile), was flexibler und effizienter ist als bisherige Methoden. Experimente wurden durchgeführt, um die Überlegenheit unserer Methode gegenüber früheren Arbeiten zu demonstrieren.
Wir betrachten die Aufgabe der visuellen Disambiguierung, bei der bestimmt werden soll, ob ein Paar visuell ähnlicher Bilder dieselben oder unterschiedliche 3D-Oberflächen darstellen (z. B. dieselbe oder gegenüberliegende Seiten eines symmetrischen Gebäudes). Illusorische Bildübereinstimmungen, bei denen zwei Bilder unterschiedliche, aber visuell ähnliche 3D-Oberflächen zeigen, können für Menschen schwer zu unterscheiden sein und können auch dazu führen, dass 3D-Rekonstruktionsalgorithmen fehlerhafte Ergebnisse liefern. Wir schlagen einen lernbasierten Ansatz zur visuellen Disambiguierung vor, der diese Aufgabe als binäre Klassifikation von Bildpaaren formuliert. Zu diesem Zweck führen wir einen neuen Datensatz für dieses Problem ein, Doppelgänger, der Bildpaare ähnlicher Strukturen mit Ground-Truth-Labels enthält. Wir entwerfen außerdem eine Netzwerkarchitektur, die die räumliche Verteilung lokaler Keypoints und Übereinstimmungen als Eingabe verwendet, um eine bessere Berücksichtigung sowohl lokaler als auch globaler Hinweise zu ermöglichen. Unsere Auswertung zeigt, dass unsere Methode illusorische Übereinstimmungen in schwierigen Fällen unterscheiden kann und in SfM-Pipelines integriert werden kann, um korrekte, disambiguierte 3D-Rekonstruktionen zu erzeugen. Besuchen Sie unsere Projektseite für unseren Code, Datensätze und weitere Ergebnisse: http://doppelgangers-3d.github.io/.
Jüngste architektonische Entwicklungen haben es rekurrenten neuronalen Netzen (RNNs) ermöglicht, die Leistung von Transformern bei bestimmten Sequenzmodellierungsaufgaben zu erreichen oder sogar zu übertreffen. Diese modernen RNNs weisen ein markantes Designmuster auf: lineare rekurrente Schichten, die durch Feedforward-Pfade mit multiplikativer Gating-Funktion verbunden sind. Hier zeigen wir, wie RNNs, die mit diesen beiden Designelementen ausgestattet sind, exakt (lineare) Selbstaufmerksamkeit implementieren können, den Hauptbaustein von Transformern. Durch die Reverse-Engineering-Analyse einer Reihe von trainierten RNNs stellen wir fest, dass der Gradientenabstieg in der Praxis unsere Konstruktion entdeckt. Insbesondere untersuchen wir RNNs, die darauf trainiert wurden, einfache In-Context-Learning-Aufgaben zu lösen, bei denen bekannt ist, dass Transformer hervorragende Leistungen erbringen, und finden, dass der Gradientenabstieg in unseren RNNs denselben auf Aufmerksamkeit basierenden In-Context-Learning-Algorithmus verankert, der von Transformern verwendet wird. Unsere Ergebnisse unterstreichen die Bedeutung multiplikativer Interaktionen in neuronalen Netzen und legen nahe, dass bestimmte RNNs möglicherweise unerwarteterweise Aufmerksamkeit im Hintergrund implementieren.
Wir präsentieren den Contrastive Feature Masking Vision Transformer (CFM-ViT) – eine Methode zur Vorverarbeitung von Bild-Text-Daten, die gleichzeitiges Lernen von Bild- und Regionenrepräsentationen für die Open-Vocabulary-Objekterkennung (OVD) ermöglicht. Unser Ansatz kombiniert das Ziel des Masked Autoencoders (MAE) mit dem Kontrastlernziel, um die Repräsentation für Lokalisierungsaufgaben zu verbessern. Im Gegensatz zum Standard-MAE führen wir die Rekonstruktion im gemeinsamen Bild-Text-Einbettungsraum durch, anstatt im Pixelraum, wie es bei der klassischen MAE-Methode üblich ist. Dies führt dazu, dass das Modell Regionen-Semantik besser erlernt. Darüber hinaus führen wir Positional Embedding Dropout (PED) ein, um Skalenvariationen zwischen der Bild-Text-Vorverarbeitung und der Feinabstimmung der Erkennung zu adressieren, indem wir während der Vorverarbeitung zufällig Positions-Einbettungen auslassen. PED verbessert die Erkennungsleistung und ermöglicht die Verwendung eines eingefrorenen ViT-Backbones als Regionenklassifikator, wodurch das Vergessen von Open-Vocabulary-Wissen während der Feinabstimmung der Erkennung verhindert wird. Auf dem LVIS-Benchmark für Open-Vocabulary-Erkennung erreicht CFM-ViT einen Spitzenwert von 33,9 APr und übertrifft den besten Ansatz um 7,6 Punkte, wobei auch eine bessere Zero-Shot-Erkennungsübertragung erzielt wird. Schließlich erzielt CFM-ViT eine starke Bildrepräsentation und übertrifft den Stand der Technik bei 8 von 12 Metriken auf Zero-Shot-Bild-Text-Retrieval-Benchmarks.
Dieses Papier stellt einen Ansatz vor, um das Lösen kontinuierlicher Constraint-Satisfaction-Probleme (CCSP) in der robotischen Entscheidungsfindung und Planung zu erlernen. Bisherige Methoden stützen sich hauptsächlich auf manuell entwickelte oder gelernte Generatoren für spezifische Constraint-Typen und verwerfen anschließend die Wertzuweisungen, wenn andere Constraints verletzt werden. Im Gegensatz dazu leitet unser Modell, der Compositional Diffusion Continuous Constraint Solver (Diffusion-CCSP), globale Lösungen für CCSPs ab, indem es diese als Faktorgraphen darstellt und die Energien von Diffusionsmodellen kombiniert, die darauf trainiert sind, Stichproben für einzelne Constraint-Typen zu erzeugen. Diffusion-CCSP zeigt eine starke Generalisierungsfähigkeit für neuartige Kombinationen bekannter Constraints und kann in einen Task- und Motion-Planner integriert werden, um langfristige Pläne zu entwickeln, die Aktionen mit sowohl diskreten als auch kontinuierlichen Parametern umfassen. Projektseite: https://diffusion-ccsp.github.io/
Dieses Papier befasst sich mit der Herausforderung, das visuelle Erscheinungsbild von Videos zu verändern, während ihre Bewegung erhalten bleibt. Es wird ein neuartiges Framework namens MagicProp vorgeschlagen, das den Video-Bearbeitungsprozess in zwei Stufen entkoppelt: Erscheinungsbild-Bearbeitung und bewegungsbewusste Erscheinungsbild-Propagierung. In der ersten Stufe wählt MagicProp einen einzelnen Frame aus dem Eingabevideo aus und wendet Bildbearbeitungstechniken an, um den Inhalt und/oder den Stil des Frames zu verändern. Die Flexibilität dieser Techniken ermöglicht die Bearbeitung beliebiger Regionen innerhalb des Frames. In der zweiten Stufe verwendet MagicProp den bearbeiteten Frame als Referenz für das Erscheinungsbild und erzeugt die verbleibenden Frames mithilfe eines autoregressiven Rendering-Ansatzes. Hierfür wird ein diffusionsbasiertes bedingtes Generierungsmodell, genannt PropDPM, entwickelt, das den Ziel-Frame durch die Bedingung auf das Referenz-Erscheinungsbild, die Zielbewegung und das vorherige Erscheinungsbild synthetisiert. Der autoregressive Bearbeitungsansatz gewährleistet die zeitliche Konsistenz in den resultierenden Videos. Insgesamt kombiniert MagicProp die Flexibilität von Bildbearbeitungstechniken mit der überlegenen zeitlichen Konsistenz des autoregressiven Modellierens, wodurch eine flexible Bearbeitung von Objekttypen und ästhetischen Stilen in beliebigen Regionen von Eingabevideos ermöglicht wird, während eine gute zeitliche Konsistenz über die Frames hinweg erhalten bleibt. Umfangreiche Experimente in verschiedenen Video-Bearbeitungsszenarien demonstrieren die Wirksamkeit von MagicProp.
Inverse design refers to the problem of optimizing the input of an objective function in order to enact a target outcome. For many real-world engineering problems, the objective function takes the form of a simulator that predicts how the system state will evolve over time, and the design challenge is to optimize the initial conditions that lead to a target outcome. Recent developments in learned simulation have shown that graph neural networks (GNNs) can be used for accurate, efficient, differentiable estimation of simulator dynamics, and support high-quality design optimization with gradient- or sampling-based optimization procedures. However, optimizing designs from scratch requires many expensive model queries, and these procedures exhibit basic failures on either non-convex or high-dimensional problems.In this work, we show how denoising diffusion models (DDMs) can be used to solve inverse design problems efficiently and propose a particle sampling algorithm for further improving their efficiency. We perform experiments on a number of fluid dynamics design challenges, and find that our approach substantially reduces the number of calls to the simulator compared to standard techniques.
Viele reale Manipulationsaufgaben bestehen aus einer Reihe von Teilaufgaben, die sich deutlich voneinander unterscheiden. Solche langfristigen, komplexen Aufgaben verdeutlichen das Potenzial geschickter Hände, die über Anpassungsfähigkeit und Vielseitigkeit verfügen und nahtlos zwischen verschiedenen Funktionsmodi wechseln können, ohne dass ein Neugreifen oder externe Werkzeuge erforderlich sind. Die Herausforderungen ergeben sich jedoch aus dem hochdimensionalen Aktionsraum geschickter Hände und den komplexen, zusammengesetzten Dynamiken langfristiger Aufgaben. Wir präsentieren Sequential Dexterity, ein allgemeines System basierend auf Reinforcement Learning (RL), das mehrere geschickte Richtlinien verknüpft, um langfristige Aufgabenziele zu erreichen. Das Kernstück des Systems ist eine Übergangs-Machbarkeitsfunktion, die die Teilrichtlinien schrittweise verfeinert, um die Erfolgsrate der Verkettung zu erhöhen, und gleichzeitig autonomes Richtlinienwechseln ermöglicht, um sich von Fehlschlägen zu erholen und redundante Phasen zu umgehen. Obwohl unser System nur in der Simulation mit wenigen Aufgabenobjekten trainiert wurde, zeigt es eine Generalisierungsfähigkeit auf neue Objektformen und kann ohne Anpassung auf einen realen Roboter mit einer geschickten Hand übertragen werden. Weitere Details und Videoergebnisse finden Sie unter https://sequential-dexterity.github.io.