Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs) sind in vielen NLP-Aufgaben nützlich und werden mit zunehmender Größe leistungsfähiger, wobei die besten Open-Source-Modelle über 50 Milliarden Parameter aufweisen. Die Nutzung dieser Modelle mit 50 Milliarden+ Parametern erfordert jedoch High-End-Hardware, was sie für die meisten Forscher unzugänglich macht. In dieser Arbeit untersuchen wir Methoden für kosteneffizientes Inferenz und Fine-Tuning von LLMs und vergleichen lokale und verteilte Strategien. Wir beobachten, dass ein ausreichend großes Modell (50 Milliarden+) selbst auf geografisch verteilten Geräten in einem Consumer-Grade-Netzwerk effizient laufen kann. Dies könnte die effiziente Ausführung von LLMs ermöglichen, indem Rechenressourcen mehrerer Forschungsgruppen und Freiwilliger zusammengelegt werden. Wir behandeln zwei offene Probleme: (1) wie man Inferenz und Fine-Tuning zuverlässig durchführen kann, wenn jedes Gerät abrupt die Verbindung trennen kann, und (2) wie man LLMs zwischen Geräten mit ungleicher Hardware aufteilen kann, die sich nach Belieben verbinden und trennen. Dazu entwickeln wir spezielle fehlertolerante Inferenzalgorithmen und Lastverteilungsprotokolle, die Geräte automatisch zuweisen, um den Gesamtdurchsatz des Systems zu maximieren. Wir präsentieren diese Algorithmen in Petals – einem dezentralen System, das Llama 2 (70 Milliarden) und BLOOM (176 Milliarden) über das Internet bis zu 10-mal schneller als Offloading für interaktive Generierung ausführt. Wir bewerten die Leistung unseres Systems unter simulierten Bedingungen und in einem realen Setup, das zwei Kontinente umspannt.
Bestehende Methoden für die offene Vokabular-Bildsegmentierung erfordern einen Feinabstimmungsschritt auf Maskenannotationen und/oder Bild-Text-Datensätze. Maskenlabels sind arbeitsintensiv, was die Anzahl der Kategorien in Segmentierungsdatensätzen begrenzt. Infolgedessen wird die offene Vokabular-Kapazität vortrainierter visueller Sprachmodelle (VLMs) nach der Feinabstimmung erheblich reduziert. Ohne Feinabstimmung neigen VLMs, die unter schwacher Bild-Text-Aufsicht trainiert wurden, jedoch zu suboptimalen Maskenvorhersagen, wenn Textanfragen Konzepte betreffen, die im Bild nicht vorhanden sind. Um diese Probleme zu mildern, führen wir ein neuartiges rekurrentes Framework ein, das irrelevante Texte schrittweise herausfiltert und die Maskenqualität ohne Trainingsaufwand verbessert. Die rekurrente Einheit ist ein zweistufiger Segmentierer, der auf einem VLM mit eingefrorenen Gewichten basiert. Dadurch behält unser Modell den breiten Vokabularraum des VLMs bei und stärkt gleichzeitig dessen Segmentierungsfähigkeit. Experimentelle Ergebnisse zeigen, dass unsere Methode nicht nur die trainingsfreien Gegenstücke übertrifft, sondern auch solche, die mit Millionen zusätzlicher Datenproben feinabgestimmt wurden, und neue State-of-the-Art-Rekorde sowohl für Zero-Shot-Semantik- als auch für referenzielle Bildsegmentierungsaufgaben setzt. Insbesondere verbessern wir den aktuellen Rekord um 28,8, 16,0 und 6,9 mIoU auf Pascal VOC, COCO Object und Pascal Context.
3D-simulierte Umgebungen spielen eine entscheidende Rolle in der Embodied AI, doch ihre Erstellung erfordert Fachwissen und umfangreichen manuellen Aufwand, was ihre Vielfalt und ihren Umfang einschränkt. Um diese Einschränkung zu überwinden, präsentieren wir Holodeck, ein System, das 3D-Umgebungen vollautomatisch auf der Grundlage eines benutzerdefinierten Prompts generiert. Holodeck kann vielfältige Szenen wie Spielhallen, Spas und Museen erstellen, die Designs an verschiedene Stile anpassen und die Semantik komplexer Anfragen wie „Wohnung für einen Forscher mit einer Katze“ oder „Büro eines Professors, der ein Fan von Star Wars ist“ erfassen. Holodeck nutzt ein großes Sprachmodell (GPT-4) für allgemeines Wissen darüber, wie eine Szene aussehen könnte, und verwendet eine umfangreiche Sammlung von 3D-Assets aus Objaverse, um die Szene mit diversen Objekten zu füllen. Um die Herausforderung der korrekten Positionierung von Objekten zu bewältigen, fordern wir GPT-4 auf, räumliche Beziehungsbedingungen zwischen den Objekten zu generieren, und optimieren dann das Layout, um diese Bedingungen zu erfüllen. Unsere groß angelegte menschliche Bewertung zeigt, dass Annotatoren Holodeck gegenüber manuell entworfenen prozeduralen Baselines in Wohnszenen bevorzugen und dass Holodeck hochwertige Ergebnisse für verschiedene Szenentypen liefern kann. Wir demonstrieren auch eine spannende Anwendung von Holodeck in der Embodied AI, bei der Agenten trainiert werden, sich in neuartigen Szenen wie Musikräumen und Kindertagesstätten zu bewegen, ohne auf von Menschen erstellte Daten zurückzugreifen. Dies stellt einen bedeutenden Schritt in der Entwicklung von allgemein einsetzbaren Embodied Agents dar.
Diese Arbeit zielt darauf ab, die Effizienz von Text-zu-Bild-Diffusionsmodellen zu verbessern. Während Diffusionsmodelle in jedem Generierungsschritt rechenintensive UNet-basierte Denoising-Operationen verwenden, stellen wir fest, dass nicht alle Operationen gleichermaßen relevant für die endgültige Ausgabequalität sind. Insbesondere beobachten wir, dass UNet-Schichten, die auf hochauflösenden Feature-Maps operieren, relativ empfindlich auf kleine Störungen reagieren. Im Gegensatz dazu beeinflussen niedrigauflösende Feature-Maps das semantische Layout des endgültigen Bildes und können oft gestört werden, ohne dass sich die Ausgabe merklich verändert. Basierend auf dieser Beobachtung schlagen wir Clockwork Diffusion vor, eine Methode, die periodisch Berechnungen aus vorherigen Denoising-Schritten wiederverwendet, um niedrigauflösende Feature-Maps in einem oder mehreren nachfolgenden Schritten zu approximieren. Für mehrere Baselines und sowohl für die Text-zu-Bild-Generierung als auch für die Bildbearbeitung zeigen wir, dass Clockwork vergleichbare oder verbesserte Wahrnehmungswerte bei drastisch reduzierter Rechenkomplexität liefert. Als Beispiel sparen wir für Stable Diffusion v1.5 mit 8 DPM++-Schritten 32 % der FLOPs bei vernachlässigbarer Änderung von FID und CLIP.
Wir präsentieren FoundationPose, ein einheitliches Foundation-Modell für die 6D-Objektschätzung und -verfolgung, das sowohl modellbasierte als auch modellfreie Ansätze unterstützt. Unser Ansatz kann zur Testzeit sofort auf ein neues Objekt angewendet werden, ohne dass eine Feinabstimmung erforderlich ist, solange das CAD-Modell des Objekts vorliegt oder eine kleine Anzahl von Referenzbildern aufgenommen wurde. Wir überbrücken die Lücke zwischen diesen beiden Ansätzen mit einer neuronalen impliziten Repräsentation, die eine effektive Synthese neuer Ansichten ermöglicht und dabei die nachgelagerten Module zur Pose-Schätzung innerhalb desselben einheitlichen Frameworks invariant hält. Eine starke Generalisierbarkeit wird durch groß angelegtes synthetisches Training erreicht, unterstützt durch ein großes Sprachmodell (LLM), eine neuartige Transformer-basierte Architektur und ein kontrastives Lernverfahren. Umfangreiche Auswertungen auf mehreren öffentlichen Datensätzen, die herausfordernde Szenarien und Objekte umfassen, zeigen, dass unser einheitlicher Ansatz bestehende Methoden, die für jede Aufgabe spezialisiert sind, deutlich übertrifft. Darüber hinaus erzielt er sogar vergleichbare Ergebnisse zu instanzspezifischen Methoden, trotz der reduzierten Annahmen. Projektseite: https://nvlabs.github.io/FoundationPose/
Große Sprachmodelle (LLMs) stehen vor Herausforderungen bei der Lösung komplexer mathematischer Probleme, die umfassende Fähigkeiten erfordern, um die Aussagen zu analysieren, Domänenwissen zu assoziieren, zusammengesetzte logische Schlussfolgerungen durchzuführen und die Zwischenrationale zu integrieren. Die gleichzeitige Bewältigung all dieser Probleme kann für LLMs mühsam sein und somit zu Verwirrung bei der Generierung führen. In dieser Arbeit untersuchen wir das Potenzial, LLMs durch Agenten zu verbessern, indem wir den mathematischen Denkprozess sorgfältig zerlegen und modellieren. Konkret schlagen wir eine formale Beschreibung der mathematischen Problemlösung vor und erweitern LLMs mit einem agentenbasierten Zero-Shot-Framework namens Planner-Reasoner-Executor-Reflector (PRER). Darüber hinaus stellen wir zwei MathAgents bereit und implementieren sie, die die logischen Formen und inhärenten Beziehungen über einen Pool von Aktionen in verschiedenen Granularitäten und Ausrichtungen definieren: MathAgent-M passt seine Aktionen an LLMs an, während MathAgent-H sich an der menschlichen Denkweise orientiert. Experimente auf miniF2F und MATH haben die Wirksamkeit von PRER und den vorgeschlagenen MathAgents demonstriert, mit einer Steigerung von 12,3 % (53,9 % auf 66,2 %) auf MiniF2F, 9,2 % (49,8 % auf 59,0 %) auf MATH und 13,2 % (23,2 % auf 35,4 %) für Level-5-Probleme von MATH im Vergleich zu GPT-4. Weitere analytische Ergebnisse bieten tiefere Einblicke in die Nutzung des Verhaltens von LLMs als Agenten.
Die Entdeckung von Rationalen wird definiert als das Finden einer Teilmenge der Eingabedaten, die die Vorhersage von nachgelagerten Aufgaben maximal unterstützt. Im Kontext des maschinellen Lernens auf Graphen wird das Graph-Rational definiert als die Lokalisierung des kritischen Teilgraphen in der gegebenen Graphentopologie, der die Vorhersageergebnisse grundlegend bestimmt. Im Gegensatz zum Rational-Teilgraphen wird der verbleibende Teilgraph als Umwelt-Teilgraph bezeichnet. Die Graph-Rationalisierung kann die Modellleistung verbessern, da die Abbildung zwischen dem Graph-Rational und dem Vorhersagelabel als invariant angenommen wird. Um die diskriminative Kraft der extrahierten Rational-Teilgraphen sicherzustellen, wird eine Schlüsseltechnik namens „Intervention“ angewendet. Die Kernidee der Intervention besteht darin, dass die Semantik des Rational-Teilgraphen bei beliebigen Veränderungen des Umwelt-Teilgraphen invariant bleibt, was das korrekte Vorhersageergebnis gewährleistet. Die meisten, wenn nicht alle, bestehenden Rationalisierungsarbeiten auf Graphdaten entwickeln ihre Interventionsstrategien jedoch auf der Graphenebene, was grobkörnig ist. In diesem Artikel schlagen wir maßgeschneiderte Interventionsstrategien für Graphdaten vor. Unsere Idee wird durch die Entwicklung von Transformer-Modellen inspiriert, deren Selbstaufmerksamkeitsmodul reiche Interaktionen zwischen den Eingabeknoten bietet. Basierend auf dem Selbstaufmerksamkeitsmodul kann unser vorgeschlagener invarianter Graph-Transformer (IGT) feinkörnige, genauer gesagt, knoten- und virtuell-knotenbasierte Interventionen erreichen. Unsere umfassenden Experimente umfassen 7 reale Datensätze, und der vorgeschlagene IGT zeigt signifikante Leistungsvorteile im Vergleich zu 13 Baseline-Methoden.
Jüngste Fortschritte im Bereich des neuronalen Renderings haben gezeigt, dass implizite, kompakte Modelle, obwohl langsam, die Geometrien und sichtabhängigen Erscheinungsformen einer Szene aus mehreren Blickwinkeln erlernen können. Um einen derart geringen Speicherbedarf beizubehalten und gleichzeitig schnellere Inferenzzeiten zu erreichen, haben aktuelle Arbeiten sogenannte „Sampler“-Netzwerke eingeführt, die adaptiv eine kleine Teilmenge von Punkten entlang jedes Strahls in den impliziten neuronalen Strahlungsfeldern (NeRF) auswählen. Obwohl diese Methoden eine bis zu 10-fache Reduzierung der Renderzeit erreichen, leiden sie immer noch unter einer erheblichen Qualitätsminderung im Vergleich zum ursprünglichen NeRF. Im Gegensatz dazu schlagen wir ProNeRF vor, das einen optimalen Kompromiss zwischen Speicherbedarf (ähnlich wie NeRF), Geschwindigkeit (schneller als HyperReel) und Qualität (besser als K-Planes) bietet. ProNeRF ist mit einem neuartigen projektionsbewussten Sampling-Netzwerk (PAS) sowie einer neuen Trainingsstrategie zur Strahlenexploration und -ausnutzung ausgestattet, die ein effizientes, fein abgestimmtes Partikelsampling ermöglicht. Unser ProNeRF erzielt state-of-the-art Metriken, ist 15-23 Mal schneller bei einem um 0,65 dB höheren PSNR-Wert als NeRF und liefert einen um 0,95 dB höheren PSNR-Wert als die beste veröffentlichte Sampler-basierte Methode, HyperReel. Unsere Trainingsstrategie zur Exploration und Ausnutzung ermöglicht es ProNeRF, die vollständigen Farb- und Dichteverteilungen der Szenen zu erlernen, während gleichzeitig ein effizientes Strahlensampling auf die Regionen mit der höchsten Dichte fokussiert wird. Wir präsentieren umfangreiche experimentelle Ergebnisse, die die Wirksamkeit unserer Methode auf den weit verbreiteten Datensätzen für vorwärtsgerichtete und 360-Grad-Szenen, LLFF und Blender, belegen.