Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir untersuchen empirisch eine einfache Schicht-Pruning-Strategie für beliebte Familien von Open-Weight-vortrainierten LLMs und stellen fest, dass die Leistung auf verschiedenen Frage-Antwort-Benchmarks nur minimal abnimmt, bis nach einer großen Anzahl (bis zu der Hälfte) der Schichten entfernt werden. Um diese Modelle zu prunen, identifizieren wir den optimalen Block von Schichten, die geprunt werden sollen, indem wir die Ähnlichkeit zwischen den Schichten berücksichtigen; anschließend führen wir zur "Heilung" des Schadens eine geringe Menge an Feinabstimmung durch. Insbesondere verwenden wir parameter-effiziente Feinabstimmungs (PEFT)-Methoden, speziell Quantisierung und Low-Rank-Adapter (QLoRA), so dass jedes unserer Experimente auf einer einzelnen A100 GPU durchgeführt werden kann. Aus praktischer Sicht legen diese Ergebnisse nahe, dass Schicht-Pruning-Methoden andere PEFT-Strategien ergänzen können, um die Rechenressourcen der Feinabstimmung weiter zu reduzieren, und gleichzeitig den Speicher und die Latenz der Inferenz verbessern können. Aus wissenschaftlicher Sicht deutet die Robustheit dieser LLMs gegenüber dem Löschen von Schichten entweder darauf hin, dass aktuelle Vortrainingsmethoden die Parameter in den tieferen Schichten des Netzwerks nicht ordnungsgemäß nutzen oder dass die oberflächlichen Schichten eine entscheidende Rolle bei der Speicherung von Wissen spielen.
Die Entwicklung von großen Sprachmodellen (LLMs) wie ChatGPT und GPT-4 hat Diskussionen über das Aufkommen der Künstlichen Allgemeinen Intelligenz (AGI) ausgelöst. Die Replikation solcher Fortschritte in Open-Source-Modellen war jedoch herausfordernd. Dieser Artikel stellt InternLM2 vor, ein Open-Source-LLM, das seine Vorgänger in umfassenden Bewertungen über 6 Dimensionen und 30 Benchmarks, Langkontextmodellierung und offenen subjektiven Bewertungen durch innovative Vorabtrainings- und Optimierungstechniken übertrifft. Der Vorabtrainingsprozess von InternLM2 ist sorgfältig detailliert und hebt die Vorbereitung verschiedener Datentypen, einschließlich Text, Code und Langkontextdaten, hervor. InternLM2 erfasst effizient langfristige Abhängigkeiten, zunächst trainiert mit 4k Tokens vor dem Fortschreiten zu 32k Tokens in den Vorabtrainings- und Feinabstimmungsphasen und zeigt bemerkenswerte Leistung im 200k "Nadel im Heuhaufen"-Test. InternLM2 wird weiterhin durch Supervised Fine-Tuning (SFT) und eine neuartige Strategie des Bedingten Online-Verstärkungslernens aus menschlichem Feedback (COOL RLHF) ausgerichtet, die sich mit widersprüchlichen menschlichen Präferenzen und Belohnungshacking befasst. Durch die Veröffentlichung von InternLM2-Modellen in verschiedenen Trainingsphasen und Modellgrößen geben wir der Gemeinschaft Einblicke in die Entwicklung des Modells.
Die 3D-Gauß-Splatting (3DGS) hat kürzlich die Rekonstruktion von Strahlungsfeldern revolutioniert, indem sie eine hochwertige Synthese neuer Ansichten und schnelle Rendering-Geschwindigkeiten ohne Vorverarbeitung ermöglicht. Allerdings kann 3DGS aufgrund der multiplen Ansichten inkonsistenten Natur der 3D-Gaußschen Oberflächen nicht genau darstellen. Wir stellen das 2D-Gauß-Splatting (2DGS) vor, einen neuartigen Ansatz zur Modellierung und Rekonstruktion geometrisch genauer Strahlungsfelder aus Multi-View-Bildern. Unsere Schlüsselidee besteht darin, das 3D-Volumen in eine Reihe von 2D-ausgerichteten planaren Gaußschen Scheiben zu überführen. Im Gegensatz zu 3D-Gaußschen bieten 2D-Gaußschen eine konsistente Ansichtsgeometrie und modellieren Oberflächen intrinsisch. Um dünne Oberflächen genau wiederherzustellen und eine stabile Optimierung zu erreichen, führen wir einen perspektivgenauen 2D-Splatting-Prozess ein, der Ray-Splat-Schnittpunkte und Rasterisierung nutzt. Darüber hinaus integrieren wir Tiefenverzerrungs- und Normalenkonsistenzbedingungen, um die Qualität der Rekonstruktionen weiter zu verbessern. Wir zeigen, dass unser differenzierbarer Renderer eine rauschfreie und detaillierte Geometrierekonstruktion ermöglicht, während er eine wettbewerbsfähige Erscheinungsqualität, schnelle Trainingsgeschwindigkeit und Echtzeit-Rendering beibehält. Unser Code wird öffentlich zugänglich gemacht.
Beeindruckende Fortschritte bei Text-zu-Bild (T2I) generativen Modellen haben eine Vielzahl leistungsstarker Modelle hervorgebracht, die in der Lage sind, ästhetisch ansprechende, fotorealistische Bilder zu generieren. Trotz des Fortschritts haben diese Modelle immer noch Schwierigkeiten, Bilder zu erzeugen, die konsistent mit der Eingabeaufforderung sind, und scheitern oft daran, Objektmengen, Beziehungen und Attribute ordnungsgemäß zu erfassen. Bestehende Lösungen zur Verbesserung der Konsistenz zwischen Aufforderung und Bild leiden unter den folgenden Herausforderungen: (1) sie erfordern oft eine Feinabstimmung des Modells, (2) sie konzentrieren sich nur auf nahegelegene Aufforderungsbeispiele und (3) sie sind von ungünstigen Kompromissen zwischen Bildqualität, Repräsentationsvielfalt und Konsistenz zwischen Aufforderung und Bild betroffen. In diesem Papier gehen wir auf diese Herausforderungen ein und stellen einen T2I-Optimierungsansatz durch Aufforderungen vor, OPT2I, der ein großes Sprachmodell (LLM) nutzt, um die Konsistenz zwischen Aufforderung und Bild in T2I-Modellen zu verbessern. Unser Ansatz beginnt mit einer Benutzeranweisung und generiert iterativ überarbeitete Anweisungen mit dem Ziel, einen Konsistenzwert zu maximieren. Unsere umfangreiche Validierung an zwei Datensätzen, MSCOCO und PartiPrompts, zeigt, dass OPT2I den anfänglichen Konsistenzwert um bis zu 24,9% in Bezug auf den DSG-Wert steigern kann, während der FID beibehalten und die Übereinstimmung zwischen generierten und realen Daten erhöht wird. Unsere Arbeit ebnet den Weg für den Aufbau zuverlässigerer und robusterer T2I-Systeme durch die Nutzung der Leistungsfähigkeit von LLMs.
Aktuelle Techniken zur Text-zu-4D-Generierung synthetisieren dynamische 3D-Szenen unter Verwendung der Überwachung durch vortrainierte Text-zu-Video-Modelle. Allerdings sind bestehende Repräsentationen für Bewegung, wie Deformationsmodelle oder zeitabhängige neuronale Repräsentationen, in der Menge der erzeugbaren Bewegung begrenzt - sie können keine Bewegung synthetisieren, die weit über die für die Volumenrendering verwendete Begrenzung hinausgeht. Das Fehlen eines flexibleren Bewegungsmodells trägt zur Diskrepanz in der Realitätsnähe zwischen 4D-Generierungsmethoden und aktuellen, nahezu fotorealistischen Videogenerierungsmodellen bei. Hier schlagen wir TC4D vor: trajekektorbedingte Text-zu-4D-Generierung, das die Bewegung in globale und lokale Komponenten aufteilt. Wir repräsentieren die globale Bewegung des Begrenzungsrahmens einer Szene mittels einer starren Transformation entlang eines durch einen Spline parametrisierten Trajektorie. Wir lernen lokale Verformungen, die sich der globalen Trajektorie anpassen, unter Verwendung der Überwachung durch ein Text-zu-Video-Modell. Unser Ansatz ermöglicht die Synthese von Szenen, die entlang beliebiger Trajektorien animiert sind, die kompositorische Szenengenerierung und signifikante Verbesserungen hinsichtlich der Realitätsnähe und der Menge der erzeugten Bewegung, die wir qualitativ und durch eine Benutzerstudie evaluieren. Die Videoergebnisse können auf unserer Website angesehen werden: https://sherwinbahmani.github.io/tc4d.
Die kürzlich entwickelte 3D-Gaußsplatting (3D-GS) hat im Vergleich zu auf NeRF basierenden neuronalen Szenenrepräsentationen eine bemerkenswerte Renderingtreue und Effizienz gezeigt. Während sie das Potenzial für Echtzeit-Rendering aufzeigt, stößt 3D-GS in großen Szenen mit komplexen Details auf Rendering-Engpässe aufgrund einer übermäßigen Anzahl von Gauß-Primitiven innerhalb des Sichtfrustums. Diese Einschränkung ist insbesondere bei herausgezoomten Ansichten deutlich erkennbar und kann zu inkonsistenten Rendering-Geschwindigkeiten in Szenen mit unterschiedlichen Details führen. Darüber hinaus hat es oft Schwierigkeiten, das entsprechende Detailniveau in verschiedenen Maßstäben mit seinem heuristischen Dichtesteuerungsverfahren zu erfassen. Inspiriert von den Techniken des Detaillierungsgrads (LOD) führen wir Octree-GS ein, das einen LOD-strukturierten 3D-Gauß-Ansatz unterstützt, der eine Detaillierungsgradzerlegung für die Szenendarstellung ermöglicht und zu den endgültigen Rendering-Ergebnissen beiträgt. Unser Modell wählt dynamisch das geeignete Niveau aus der Gruppe von mehrstufigen Ankerpunkten aus, um eine konsistente Rendering-Leistung mit adaptiven LOD-Anpassungen sicherzustellen und gleichzeitig hochwertige Rendering-Ergebnisse zu erzielen.
In dieser Studie schlagen wir AniPortrait vor, ein neuartiges Framework zur Erzeugung hochwertiger Animationen, die durch Audio und ein Referenz-Porträtbild gesteuert werden. Unsere Methodik ist in zwei Phasen unterteilt. Zunächst extrahieren wir 3D-Zwischenrepräsentationen aus dem Audio und projizieren sie auf eine Sequenz von 2D-Gesichtslandmarken. Anschließend verwenden wir ein robustes Diffusionsmodell, kombiniert mit einem Bewegungsmodul, um die Landmarkenfolge in fotorealistische und zeitlich konsistente Porträtanimationen umzuwandeln. Experimentelle Ergebnisse zeigen die Überlegenheit von AniPortrait in Bezug auf natürliche Gesichtszüge, Posevielfalt und visuelle Qualität, wodurch ein verbessertes Wahrnehmungserlebnis geboten wird. Darüber hinaus zeigt unsere Methodik erhebliches Potenzial in Bezug auf Flexibilität und Steuerbarkeit, die effektiv in Bereichen wie der Bearbeitung von Gesichtsbewegungen oder der Gesichtsimitation eingesetzt werden können. Wir veröffentlichen den Code und die Modellgewichte unter https://github.com/scutzzj/AniPortrait
Wir präsentieren DreamPolisher, eine neuartige auf Gauss'schem Splatting basierende Methode mit geometrischer Führung, die darauf abzielt, die konsistente Darstellung aus verschiedenen Ansichten und feine Details aus textuellen Beschreibungen zu erlernen. Während die jüngsten Fortschritte bei Methoden zur Generierung von 3D-Modellen aus Text vielversprechend waren, scheitern vorherrschende Methoden oft daran, Ansichtskonsistenz und textliche Vielfalt sicherzustellen. Dieses Problem wird besonders deutlich bei Methoden, die ausschließlich mit Texteingaben arbeiten. Um dies zu lösen, schlagen wir einen zweistufigen Ansatz auf Basis von Gauss'schem Splatting vor, der eine geometrische Konsistenz zwischen den Ansichten erzwingt. Zunächst durchläuft eine grobe 3D-Generierung eine Verfeinerung durch geometrische Optimierung. Anschließend verwenden wir einen durch ControlNet gesteuerten Verfeinerer in Verbindung mit dem geometrischen Konsistenzterm, um sowohl die Texturtreue als auch die Gesamtkonsistenz des generierten 3D-Objekts zu verbessern. Empirische Bewertungen über verschiedene textuelle Eingaben, die verschiedene Objektkategorien abdecken, zeigen die Wirksamkeit von DreamPolisher bei der Erzeugung konsistenter und realistischer 3D-Objekte, die eng mit der Semantik der textlichen Anweisungen übereinstimmen.
Dieses Paper präsentiert eine SYCL-Implementierung von Mehrschicht-Perzeptronen (MLPs), die auf die Intel Data Center GPU Max 1550 abzielt und für diese optimiert ist. Um die Leistung zu steigern, minimiert unsere Implementierung die langsamen globalen Speicherzugriffe, indem sie die Datenwiederverwendung im allgemeinen Registerfile und im gemeinsam genutzten lokalen Speicher maximiert, indem sie die Operationen in jeder Schicht des MLP verschmilzt. Wir zeigen mit einem einfachen Roofline-Modell, dass dies zu einer signifikanten Steigerung der arithmetischen Intensität führt, was zu einer verbesserten Leistung, insbesondere für die Inferenz, führt. Wir vergleichen unseren Ansatz mit einer ähnlichen CUDA-Implementierung für MLPs und zeigen, dass unsere Implementierung auf der Intel Data Center GPU die CUDA-Implementierung auf Nvidias H100 GPU um den Faktor bis zu 2,84 bei der Inferenz und 1,75 beim Training übertrifft. Das Paper zeigt auch die Effizienz unserer SYCL-Implementierung in drei wichtigen Bereichen: Bildkompression, Neuronale Strahlungsfelder und Physikbasiertes maschinelles Lernen. In allen Fällen übertrifft unsere Implementierung die Standard-Intel-Erweiterung für PyTorch (IPEX) auf derselben Intel-GPU um bis zu den Faktor 30 und die CUDA PyTorch-Version auf Nvidias H100-GPU um bis zu den Faktor 19. Der Code ist unter https://github.com/intel/tiny-dpcpp-nn verfügbar.