Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren Magic123, einen zweistufigen Ansatz von grob zu fein für die Erzeugung hochwertiger, texturierter 3D-Meshes aus einem einzelnen unposierten Bild in freier Wildbahn unter Verwendung von sowohl 2D- als auch 3D-Priors. In der ersten Stufe optimieren wir ein neurales Strahlungsfeld, um eine grobe Geometrie zu erzeugen. In der zweiten Stufe verwenden wir eine speichereffiziente, differenzierbare Mesh-Darstellung, um ein hochauflösendes Mesh mit einer visuell ansprechenden Textur zu erzeugen. In beiden Stufen wird der 3D-Inhalt durch Referenzansichtsüberwachung und neuartige Ansichten gelernt, die durch eine Kombination von 2D- und 3D-Diffusionspriors geleitet werden. Wir führen einen einzelnen Kompromissparameter zwischen den 2D- und 3D-Priors ein, um die Exploration (imaginativer) und die Exploitation (präziser) der erzeugten Geometrie zu steuern. Zusätzlich setzen wir Textual Inversion und monokulare Tiefenregularisierung ein, um konsistente Erscheinungen über verschiedene Ansichten hinweg zu fördern und degenerierte Lösungen zu verhindern. Magic123 zeigt eine signifikante Verbesserung gegenüber früheren Bild-zu-3D-Techniken, wie durch umfangreiche Experimente auf synthetischen Benchmarks und diversen realen Bildern validiert wird. Unser Code, Modelle und erzeugte 3D-Assets sind unter https://github.com/guochengqian/Magic123 verfügbar.
Große Sprachmodelle (LLMs) bieten ein vielversprechendes Werkzeug, das Robotern ermöglicht, komplexe Denkaufgaben zu bewältigen. Das begrenzte Kontextfenster zeitgenössischer LLMs erschwert jedoch das Denken über lange Zeiträume hinweg. Verkörperte Aufgaben, wie sie beispielsweise von einem Haushaltsroboter erwartet werden könnten, erfordern in der Regel, dass der Planer Informationen berücksichtigt, die vor langer Zeit erworben wurden (z. B. Eigenschaften der vielen Objekte, denen der Roboter zuvor in der Umgebung begegnet ist). Versuche, den Weltzustand mit der impliziten internen Repräsentation eines LLMs zu erfassen, werden durch den Mangel an aufgaben- und umgebungsrelevanten Informationen in der Aktionshistorie des Roboters erschwert, während Methoden, die sich auf die Fähigkeit verlassen, Informationen über den Prompt an das LLM zu übermitteln, durch dessen begrenztes Kontextfenster eingeschränkt sind. In diesem Artikel schlagen wir Statler vor, ein Framework, das LLMs mit einer expliziten Repräsentation des Weltzustands als eine Form von „Gedächtnis“ ausstattet, das über die Zeit hinweg aufrechterhalten wird. Integraler Bestandteil von Statler ist die Verwendung von zwei Instanzen allgemeiner LLMs – einem Weltmodell-Leser und einem Weltmodell-Schreiber –, die mit dem Weltzustand interagieren und diesen aufrechterhalten. Durch den Zugriff auf dieses „Gedächtnis“ des Weltzustands verbessert Statler die Fähigkeit bestehender LLMs, über längere Zeiträume hinweg zu denken, ohne durch die Länge des Kontexts eingeschränkt zu sein. Wir bewerten die Wirksamkeit unseres Ansatzes in drei simulierten Tischmanipulationsdomänen und einer realen Roboterdoman und zeigen, dass er den Stand der Technik in der LLM-basierten Roboterdenkfähigkeit verbessert. Projektwebsite: https://statler-lm.github.io/
Vision Transformer (ViTs) haben die Landschaft der Computer Vision erheblich verändert und regelmäßig eine überlegene Leistung bei visuellen Aufgaben im Vergleich zu Convolutional Neural Networks (CNNs) gezeigt. Obwohl die Frage, welcher Modelltyp überlegen ist, noch nicht abschließend geklärt ist, besitzt jeder einzigartige induktive Verzerrungen, die ihr Lern- und Generalisierungsverhalten prägen. Beispielsweise weisen ViTs interessante Eigenschaften in Bezug auf die nicht-lokale Merkmalsabhängigkeit in frühen Schichten sowie Selbstaufmerksamkeitsmechanismen auf, die die Lernflexibilität erhöhen und es ihnen ermöglichen, kontextfremde Bildinformationen effektiver zu ignorieren. Wir stellen die Hypothese auf, dass diese Fähigkeit, kontextfremde Informationen zu ignorieren (die wir als Patch-Selektivität bezeichnen), während gleichzeitig kontextbezogene Informationen in frühen Schichten auf nicht-lokale Weise integriert werden, es ViTs erleichtert, mit Okklusionen umzugehen. In dieser Studie zielen wir darauf ab, zu untersuchen, ob wir CNNs diese Fähigkeit der Patch-Selektivität simulieren können, indem wir diese induktive Verzerrung effektiv durch die Datenaugmentationsmethode Patch Mixing implementieren. Diese Methode besteht darin, Patches aus einem anderen Bild in ein Trainingsbild einzufügen und die Labels zwischen den beiden Bildklassen zu interpolieren. Konkret verwenden wir Patch Mixing, um state-of-the-art ViTs und CNNs zu trainieren und bewerten deren Auswirkung auf die Fähigkeit, kontextfremde Patches zu ignorieren und natürliche Okklusionen zu bewältigen. Wir stellen fest, dass ViTs bei der Verwendung von Patch Mixing weder verbessert noch verschlechtert werden, CNNs jedoch neue Fähigkeiten erwerben, um kontextfremde Informationen zu ignorieren und bei Okklusions-Benchmarks besser abzuschneiden. Daraus schließen wir, dass diese Trainingsmethode eine Möglichkeit darstellt, in CNNs die Fähigkeiten zu simulieren, die ViTs bereits besitzen. Wir werden unsere Patch-Mixing-Implementierung und die vorgeschlagenen Datensätze für die öffentliche Nutzung freigeben. Projektseite: https://arielnlee.github.io/PatchMixing/
In der Theorie des Deep Learnings dient die Kovarianzmatrix der Repräsentationen als Stellvertreter, um die Trainierbarkeit des Netzwerks zu untersuchen. Motiviert durch den Erfolg von Transformern, untersuchen wir die Kovarianzmatrix eines modifizierten Softmax-basierten Aufmerksamkeitsmodells mit Skip-Connections im proportionalen Grenzfall unendlicher Tiefe und Breite. Wir zeigen, dass die Grenzverteilung bei der Initialisierung durch eine stochastische Differentialgleichung (SDE) beschrieben werden kann, die durch das Verhältnis von Tiefe zu Breite indiziert wird. Um einen wohldefinierten stochastischen Grenzwert zu erreichen, wird der Aufmerksamkeitsmechanismus des Transformers modifiziert, indem die Softmax-Ausgabe auf die Identität zentriert und die Softmax-Logits durch einen breitenabhängigen Temperaturparameter skaliert werden. Wir untersuchen die Stabilität des Netzwerks durch die entsprechende SDE und zeigen, wie die Skala sowohl der Drift als auch der Diffusion elegant mit Hilfe von Residualverbindungen gesteuert werden kann. Die Existenz einer stabilen SDE impliziert, dass die Kovarianzstruktur auch bei sehr großer Tiefe und Breite gutartig ist, wodurch die bekannten Probleme der Rangentartung in tiefen Aufmerksamkeitsmodellen verhindert werden. Schließlich zeigen wir durch Simulationen, dass die SDE eine überraschend gute Beschreibung des entsprechenden Modells mit endlicher Größe liefert. Wir prägen den Namen Shaped Transformer für diese architektonischen Modifikationen.
Dieses Papier stellt einen neuen Mechanismus vor, der das Training von Maskentransformern für effiziente panoptische Segmentierung erleichtert und deren Einsatz zugänglicher macht. Wir beobachten, dass das Trainingsziel der panoptischen Segmentierung aufgrund ihrer hohen Komplexität unweigerlich zu einer deutlich stärkeren Bestrafung von falsch positiven Ergebnissen führt. Ein solcher unausgewogener Verlust erschwert den Trainingsprozess von end-to-end Maskentransformer-basierten Architekturen, insbesondere für effiziente Modelle. In diesem Papier präsentieren wir ReMaX, das während des Trainings für die panoptische Segmentierung eine Entspannung der Maskenvorhersagen und Klassenvorhersagen hinzufügt. Wir zeigen, dass durch diese einfachen Entspannungstechniken während des Trainings unser Modell konsequent und deutlich verbessert werden kann, ohne zusätzliche Rechenkosten bei der Inferenz. Durch die Kombination unserer Methode mit effizienten Backbones wie MobileNetV3-Small erzielt unsere Methode neue state-of-the-art Ergebnisse für effiziente panoptische Segmentierung auf COCO, ADE20K und Cityscapes. Code und vortrainierte Checkpoints werden unter https://github.com/google-research/deeplab2 verfügbar sein.