Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir untersuchen die Wirksamkeit eines einfachen Ansatzes zur Entwicklung eines kleinen Basissprachmodells (LM) ausgehend von einem bestehenden großen Basissprachmodell: Zunächst erben wir einige Transformer-Blöcke vom größeren LM und trainieren dann dieses kleinere Modell auf einem sehr kleinen Teil (0,1 %) der Rohdaten des größeren Modells. Wir nennen unser einfaches Rezept "Inheritune" und demonstrieren es zunächst für den Aufbau eines kleinen Basissprachmodells mit 1,5 Milliarden Parametern unter Verwendung von 1 Milliarde Tokens (und einigen anfänglichen Schichten des größeren LM mit 3 Milliarden Parametern); dies geschieht unter Verwendung einer einzelnen A6000 GPU für weniger als einen halben Tag. Über 9 verschiedene Evaluierungsdatensätze sowie den MMLU-Benchmark hinweg schneidet das resultierende Modell im Vergleich zu öffentlich verfügbaren Basismodellen der Größe 1-2 Milliarden günstig ab, von denen einige mit 50-1000-mal mehr Tokens trainiert wurden. Wir untersuchen Inheritune in einer etwas anderen Konfiguration, bei der wir kleine LMs unter Verwendung größerer LMs und deren vollständigem Vortrainingsdatensatz trainieren. Hier zeigen wir, dass kleinere LMs, die einige der Schichten von GPT2-medium (355M) und GPT-2-large (770M) nutzen, effektiv den Val-Verlust ihrer größeren Gegenstücke erreichen können, wenn sie für die gleiche Anzahl von Trainingsschritten auf dem OpenWebText-Datensatz mit 9 Milliarden Tokens von Grund auf trainiert werden. Wir analysieren unser Rezept mit umfangreichen Experimenten und zeigen seine Wirksamkeit in verschiedenen Konfigurationen. Unser Code ist verfügbar unter https://github.com/sanyalsunny111/LLM-Inheritune.
In den letzten Jahrzehnten hat die Vision-Community bemerkenswerte Fortschritte bei der visuellen Erkennung verzeichnet, teilweise aufgrund von Fortschritten bei Benchmark-Datensätzen. Insbesondere hat der etablierte COCO-Benchmark die Entwicklung moderner Detektions- und Segmentierungssysteme vorangetrieben. Allerdings hat der COCO-Segmentierungsbenchmark in den letzten zehn Jahren vergleichsweise langsame Verbesserungen erfahren. Ursprünglich ausgestattet mit groben Polygonannotationen für Objektinstanzen, hat er allmählich grobe Superpixelannotationen für Bereichsregionen integriert, die anschließend heuristisch vereinigt wurden, um Panoptik-Segmentierungsannotationen zu erzeugen. Diese Annotationen, von verschiedenen Gruppen von Bewertern ausgeführt, haben nicht nur zu groben Segmentierungsmasken geführt, sondern auch zu Inkonsistenzen zwischen den Segmentierungstypen. In dieser Studie unterziehen wir die COCO-Segmentierungsannotationen einer umfassenden Neubewertung. Durch Verbesserung der Annotationsqualität und Erweiterung des Datensatzes auf 383.000 Bilder mit mehr als 5,18 Millionen Panoptikmasken stellen wir COCONut vor, den COCO Next Universal Segmentation-Datensatz. COCONut harmonisiert Segmentierungsannotationen über semantische, Instanz- und Panoptiksegmentierung hinweg mit sorgfältig erstellten hochwertigen Masken und etabliert einen robusten Benchmark für alle Segmentierungsaufgaben. Unseres Wissens nach ist COCONut der erste groß angelegte universelle Segmentierungsd atensatz, der von menschlichen Bewertern überprüft wurde. Wir erwarten, dass die Veröffentlichung von COCONut wesentlich dazu beitragen wird, die Fähigkeit der Community zur Bewertung des Fortschritts von neuartigen neuronalen Netzwerken zu verbessern.
Dieses Paper untersucht die Leistungsfähigkeit des Contrastive Language-Image Pre-training (CLIP), wenn es auf begrenzte Rechenbudgets skaliert wird. Wir erkunden CLIP entlang dreier Dimensionen: Daten, Architektur und Trainingsstrategien. In Bezug auf die Daten zeigen wir die Bedeutung hochwertiger Trainingsdaten auf und zeigen, dass ein kleineres Datenset hochwertiger Daten ein größeres Datenset mit geringerer Qualität übertreffen kann. Wir untersuchen auch, wie sich die Modellleistung mit unterschiedlichen Datensatzgrößen verändert und schlagen vor, dass kleinere ViT-Modelle besser für kleinere Datensätze geeignet sind, während größere Modelle auf größeren Datensätzen mit festgelegter Rechenleistung besser abschneiden. Darüber hinaus geben wir Empfehlungen dazu, wann man eine CNN-basierte Architektur oder eine ViT-basierte Architektur für das CLIP-Training wählen sollte. Wir vergleichen vier CLIP-Trainingsstrategien - SLIP, FLIP, CLIP und CLIP+Data Augmentation - und zeigen, dass die Wahl der Trainingsstrategie von den verfügbaren Rechenressourcen abhängt. Unsere Analyse zeigt, dass CLIP+Data Augmentation vergleichbare Leistungen wie CLIP mit nur der Hälfte der Trainingsdaten erzielen kann. Diese Arbeit bietet praktische Einblicke, wie CLIP-Modelle effektiv trainiert und eingesetzt werden können, um sie in verschiedenen Anwendungen zugänglicher und erschwinglicher zu machen.
In jüngster Zeit haben Fortschritte im Bereich des groß angelegten Vortrainings zu visuellen Grundlagenmodellen mit starken Fähigkeiten geführt. Diese aktuellen Modelle können nicht nur auf beliebige Bilder für ihre Trainingsaufgabe verallgemeinern, sondern auch ihre Zwischenrepräsentationen sind nützlich für andere visuelle Aufgaben wie Detektion und Segmentierung. Angesichts der Tatsache, dass solche Modelle Objekte in 2D klassifizieren, abgrenzen und lokalisieren können, fragen wir uns, ob sie auch deren 3D-Struktur repräsentieren? In dieser Arbeit analysieren wir das 3D-Bewusstsein von visuellen Grundlagenmodellen. Wir postulieren, dass 3D-Bewusstsein bedeutet, dass die Repräsentationen (1) die 3D-Struktur der Szene kodieren und (2) die Oberfläche konsistent über Ansichten hinweg darstellen. Wir führen eine Reihe von Experimenten mit aufgabenspezifischen Sonden und Zero-Shot-Inferenzverfahren auf eingefrorenen Merkmalen durch. Unsere Experimente zeigen mehrere Einschränkungen der aktuellen Modelle auf. Unser Code und unsere Analyse finden Sie unter https://github.com/mbanani/probe3d.
In jüngster Zeit wurden Fortschritte bei der monokularen Tiefenschätzung erzielt, indem natürliche Sprache als zusätzliche Anleitung integriert wurde. Obwohl beeindruckende Ergebnisse erzielt wurden, bleibt der Einfluss der Sprachpriorität, insbesondere in Bezug auf Verallgemeinerung und Robustheit, unerforscht. In diesem Artikel adressieren wir diese Lücke, indem wir den Einfluss dieses Priors quantifizieren und Methoden vorstellen, um seine Wirksamkeit in verschiedenen Einstellungen zu bewerten. Wir generieren "niedrigstufige" Sätze, die objektorientierte, dreidimensionale räumliche Beziehungen vermitteln, integrieren sie als zusätzliche Sprachprioritäten und bewerten ihre Auswirkungen auf die Tiefenschätzung. Unsere wichtigste Erkenntnis ist, dass aktuelle, sprachgesteuerte Tiefenschätzer nur optimal mit Szenenbeschreibungen funktionieren und paradoxerweise mit niedrigstufigen Beschreibungen schlechter abschneiden. Trotz der Nutzung zusätzlicher Daten sind diese Methoden nicht robust gegen gerichtete adversarielle Angriffe und die Leistung nimmt mit einer Zunahme von Verteilungsverschiebungen ab. Abschließend identifizieren wir, um eine Grundlage für zukünftige Forschung zu schaffen, Fehlerpunkte und bieten Einblicke, um diese Mängel besser zu verstehen. Mit einer zunehmenden Anzahl von Methoden, die Sprache für die Tiefenschätzung nutzen, heben unsere Ergebnisse die Chancen und Fallstricke hervor, die sorgfältig berücksichtigt werden müssen, um eine effektive Implementierung in realen Umgebungen zu gewährleisten.
Reinforcement Learning (RL) aus menschlichem präferenzbasiertem Feedback ist ein beliebtes Paradigma zur Feinabstimmung generativer Modelle, das beeindruckende Modelle wie GPT-4 und Claude3 Opus hervorgebracht hat. Dieser Rahmen besteht häufig aus zwei Schritten: dem Erlernen eines Belohnungsmodells aus einem Offline-Präferenzdatensatz, gefolgt von der Durchführung von Online-RL zur Optimierung des erlernten Belohnungsmodells. In dieser Arbeit schlagen wir unter Nutzung der Idee des Resets einen neuen RLHF-Algorithmus mit nachweisbaren Garantien vor. Angespornt durch die Tatsache, dass der Offline-Präferenzdatensatz informative Zustände liefert (d. h. Daten, die von den Labelern bevorzugt werden), integriert unser neuer Algorithmus, Dataset Reset Policy Optimization (DR-PO), den bestehenden Offline-Präferenzdatensatz in das Online-Policy-Trainingsverfahren über einen Datensatzreset: Er setzt den Policy-Optimierer direkt auf die Zustände im Offline-Datensatz zurück, anstatt immer von der anfänglichen Zustandsverteilung aus zu starten. Theoretisch zeigen wir, dass DR-PO lernt, mindestens so gut zu performen wie jede Richtlinie, die durch den Offline-Datensatz unter allgemeiner Funktionsapproximation mit endlicher Stichprobenkomplexität abgedeckt ist. In Experimenten zeigen wir, dass sowohl bei der TL;DR-Zusammenfassung als auch beim Anthropic Helpful Harmful (HH)-Datensatz die Generierung von DR-PO unter der Metrik des GPT4-Gewinnanteils besser ist als die von Proximal Policy Optimization (PPO) und Direction Preference Optimization (DPO). Der Code für diese Arbeit ist unter https://github.com/Cornell-RL/drpo verfügbar.
Die neuesten regulierten Neural Radiance Field (NeRF) Ansätze liefern schlechte Geometrie und Ansichtsextrapolation für Multiview Stereo (MVS) Benchmarks wie ETH3D. In diesem Artikel zielen wir darauf ab, 3D-Modelle zu erstellen, die präzise Geometrie und Ansichtssynthese bieten und teilweise die große geometrische Leistungslücke zwischen NeRF und traditionellen MVS-Methoden schließen. Wir schlagen einen patchbasierten Ansatz vor, der effektiv monokulare Oberflächennormalen und relative Tiefenvorhersagen nutzt. Die patchbasierte Strahlenabtastung ermöglicht auch die Erscheinungsregulierung der normalisierten Kreuzkorrelation (NCC) und der strukturellen Ähnlichkeit (SSIM) zwischen zufällig ausgewählten virtuellen und Trainingsansichten. Wir zeigen weiterhin, dass "Dichtebeschränkungen" basierend auf spärlichen Struktur-aus-Bewegungspunkten die geometrische Genauigkeit erheblich verbessern können, bei einem leichten Rückgang der Metriken für die Synthese neuer Ansichten. Unsere Experimente zeigen eine Leistungssteigerung um das 4-fache gegenüber RegNeRF und das 8-fache gegenüber FreeNeRF im Durchschnitt von F1@2cm für den ETH3D MVS-Benchmark, was auf eine vielversprechende Forschungsrichtung zur Verbesserung der geometrischen Genauigkeit von NeRF-basierten Modellen hinweist und einen potenziellen zukünftigen Ansatz beleuchtet, um die NeRF-basierte Optimierung letztendlich besser als traditionelle MVS-Methoden zu machen.