Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Komplexität des Ausrichtungsproblems ergibt sich aus der Tatsache, dass bestehende Methoden instabil sind. Forscher erfinden kontinuierlich verschiedene Tricks, um diesem Mangel abzuhelfen. Zum Beispiel wird in der grundlegenden Technik des Reinforcement Learning From Human Feedback (RLHF) der Sprachmodellausrichtung neben der Belohnungsmaximierung die Kullback-Leibler-Divergenz zwischen der trainierbaren Richtlinie und der SFT-Richtlinie minimiert. Diese Ergänzung verhindert, dass das Modell zu stark an das Belohnungsmodell (RM) angepasst wird und Texte erzeugt, die für das RM außerhalb des Anwendungsbereichs liegen. Die Methode der direkten Präferenzoptimierung (DPO) reformuliert die Optimierungsaufgabe des RLHF und beseitigt das Belohnungsmodell, während implizit die Anforderung aufrechterhalten wird, dass die Richtlinie der SFT-Richtlinie nahekommen soll. In unserem Paper argumentieren wir, dass diese implizite Einschränkung in der DPO-Methode zu suboptimalen Ergebnissen führt. Wir schlagen eine neue Methode namens Trust Region DPO (TR-DPO) vor, die die Referenzrichtlinie während des Trainings aktualisiert. Mit einem solch einfachen Update zeigen wir die Wirksamkeit von TR-DPO gegenüber DPO anhand der Anthropic HH- und TLDR-Datensätze. Wir zeigen, dass TR-DPO DPO um bis zu 19% übertrifft, gemessen durch automatische Bewertung mit GPT-4. Der neue Ausrichtungsansatz, den wir vorschlagen, ermöglicht es uns, die Qualität von Modellen gleichzeitig über mehrere Parameter hinweg zu verbessern, wie Kohärenz, Korrektheit, Detailgrad, Hilfreichkeit und Unschädlichkeit.
Die quadratische Komplexität und die schwache Längenextrapolation von Transformatoren begrenzen ihre Fähigkeit, auf lange Sequenzen zu skalieren. Obwohl subquadratische Lösungen wie lineare Aufmerksamkeit und Zustandsraummodelle existieren, unterperformen sie empirisch im Vergleich zu Transformatoren hinsichtlich der Effizienz beim Pretraining und der Genauigkeit bei nachgelagerten Aufgaben. Wir stellen Megalodon vor, eine neuronale Architektur für effizientes Sequenzmodellieren mit unbegrenzter Kontextlänge. Megalodon erbt die Architektur von Mega (Exponentieller gleitender Durchschnitt mit gesteuerter Aufmerksamkeit) und führt zusätzliche technische Komponenten ein, um ihre Leistungsfähigkeit und Stabilität zu verbessern, darunter komplexe exponentielle gleitende Durchschnittswerte (CEMA), Zeitschrittnormalisierungsschicht, normalisierte Aufmerksamkeitsmechanismen und Pre-Norm mit Zweischritt-Residualkonfiguration. In einem kontrollierten direkten Vergleich mit Llama2 erzielt Megalodon eine bessere Effizienz als der Transformer im Maßstab von 7 Milliarden Parametern und 2 Billionen Trainings-Token. Megalodon erreicht einen Trainingsverlust von 1.70, was sich zwischen Llama2-7B (1.75) und 13B (1.67) befindet. Code: https://github.com/XuezheMax/megalodon
Obwohl Transformers das Deep Learning revolutioniert haben, beeinträchtigt ihre quadratische Aufmerksamkeitskomplexität ihre Fähigkeit, unendlich lange Eingaben zu verarbeiten. Wir schlagen Feedback Attention Memory (FAM) vor, eine neuartige Transformer-Architektur, die eine Rückkopplungsschleife nutzt, um dem Netzwerk zu ermöglichen, auf seine eigenen latenten Repräsentationen zu achten. Dieses Design fördert das Entstehen von Arbeitsgedächtnis innerhalb des Transformers, was es ihm ermöglicht, unendlich lange Sequenzen zu verarbeiten. TransformerFAM erfordert keine zusätzlichen Gewichte und ermöglicht eine nahtlose Integration mit vortrainierten Modellen. Unsere Experimente zeigen, dass TransformerFAM die Leistung des Transformers bei Aufgaben mit langem Kontext bei verschiedenen Modellgrößen (1B, 8B und 24B) signifikant verbessert. Diese Ergebnisse zeigen das Potenzial, große Sprachmodelle (LLMs) zu befähigen, Sequenzen beliebiger Länge zu verarbeiten.
Die Erstellung hochwertiger und interaktiver virtueller Umgebungen, wie Spiele und Simulatoren, erfordert oft komplexe und kostspielige manuelle Modellierungsprozesse. In diesem Artikel stellen wir Video2Game vor, einen innovativen Ansatz, der Videos von realen Szenen automatisch in realistische und interaktive Spielumgebungen umwandelt. Im Zentrum unseres Systems stehen drei Kernkomponenten: (i) ein neuronales Strahlungsfeld (NeRF)-Modul, das die Geometrie und visuelle Erscheinung der Szene effektiv erfasst; (ii) ein Mesh-Modul, das das Wissen aus NeRF für eine schnellere Darstellung destilliert; und (iii) ein Physik-Modul, das die Interaktionen und physikalische Dynamik zwischen den Objekten modelliert. Durch die sorgfältig gestaltete Pipeline kann man eine interaktive und handlungsfähige digitale Nachbildung der realen Welt erstellen. Wir evaluieren unser System anhand von Innen- und großflächigen Außenszenen. Wir zeigen, dass wir nicht nur hochrealistische Darstellungen in Echtzeit erzeugen können, sondern auch interaktive Spiele darauf aufbauen können.
Es wird angenommen, dass das Erlernen einer guten Komprimierung zu Intelligenz führen wird. In letzter Zeit wurde gezeigt, dass Sprachmodellierung äquivalent zur Komprimierung ist, was eine überzeugende Begründung für den Erfolg großer Sprachmodelle (LLMs) bietet: Die Entwicklung fortschrittlicherer Sprachmodelle verbessert im Wesentlichen die Komprimierung, die Intelligenz erleichtert. Trotz solch ansprechender Diskussionen gibt es nur wenig empirische Beweise für das Zusammenspiel von Komprimierung und Intelligenz. In dieser Arbeit untersuchen wir ihre Beziehung im Kontext von LLMs und behandeln LLMs als Datenkomprimierer. Angesichts des abstrakten Konzepts der "Intelligenz" übernehmen wir die durchschnittlichen Benchmark-Ergebnisse als Surrogat, das speziell auf Intelligenz im Zusammenhang mit Wissen und gesundem Menschenverstand, Codierung und mathematischem Denken abzielt. Über 12 Benchmarks hinweg vereint unsere Studie 30 öffentliche LLMs aus verschiedenen Organisationen. Bemerkenswerterweise stellen wir fest, dass die Intelligenz der LLMs - reflektiert durch durchschnittliche Benchmark-Ergebnisse - fast linear mit ihrer Fähigkeit korreliert, externe Textcorpora zu komprimieren. Diese Ergebnisse liefern konkrete Beweise, die die Annahme unterstützen, dass eine überlegene Komprimierung eine größere Intelligenz anzeigt. Darüber hinaus legen unsere Ergebnisse nahe, dass die Komprimierungseffizienz als ein aus Rohtextcorpora abgeleitetes unüberwachtes Maß ein zuverlässiges Bewertungskriterium darstellt, das linear mit den Modellfähigkeiten verbunden ist. Wir stellen unsere Komprimierungsdatensätze sowie unsere Datensammlungspipelines als Open-Source zur Verfügung, um zukünftigen Forschern die ordnungsgemäße Bewertung der Komprimierung zu erleichtern.
ControlNets werden weit verbreitet verwendet, um räumliche Steuerung bei der Bildgenerierung unter verschiedenen Bedingungen wie Tiefenkarten, Canny-Kanten und menschlichen Posen hinzuzufügen. Es gibt jedoch mehrere Herausforderungen beim Einsatz von vorab trainierten Bild- ControlNets für die kontrollierte Videogenerierung. Erstens kann das vorab trainierte ControlNet aufgrund von Merkmalsrauminkompatibilitäten nicht direkt in neue Backbone-Modelle integriert werden, und die Kosten für das Training von ControlNets für neue Backbones sind eine große Belastung. Zweitens können ControlNet-Merkmale für verschiedene Frames möglicherweise die zeitliche Konsistenz nicht effektiv handhaben. Um diesen Herausforderungen zu begegnen, stellen wir Ctrl-Adapter vor, ein effizientes und vielseitiges Framework, das verschiedenen Bild-/Video-Diffusionsmodellen diverse Steuerungen hinzufügt, indem vorab trainierte ControlNets angepasst werden (und die zeitliche Ausrichtung für Videos verbessert wird). Ctrl-Adapter bietet vielfältige Fähigkeiten, darunter Bildsteuerung, Videosteuerung, Videosteuerung mit spärlichen Frames, Mehrbedingungssteuerung, Kompatibilität mit verschiedenen Backbones, Anpassung an unerwartete Steuerungsbedingungen und Videobearbeitung. In Ctrl-Adapter trainieren wir Adapter-Schichten, die vorab trainierte ControlNet-Merkmale mit verschiedenen Bild-/Video-Diffusionsmodellen verschmelzen, während die Parameter der ControlNets und der Diffusionsmodelle eingefroren bleiben. Ctrl-Adapter besteht aus zeitlichen und räumlichen Modulen, sodass es die zeitliche Konsistenz von Videos effektiv handhaben kann. Wir schlagen auch latentes Überspringen und inverse Zeitpunktauswahl für robuste Anpassung und spärliche Steuerung vor. Darüber hinaus ermöglicht Ctrl-Adapter die Steuerung aus mehreren Bedingungen, indem einfach der (gewichtete) Durchschnitt der ControlNet-Ausgaben genommen wird. Mit verschiedenen Bild-/Video-Diffusions-Backbones (SDXL, Hotshot-XL, I2VGen-XL und SVD) gleicht Ctrl-Adapter ControlNet für die Bildsteuerung an und übertrifft alle Baselines für die Videosteuerung (erreicht die SOTA-Genauigkeit auf dem DAVIS 2017 Datensatz) bei signifikant geringeren Rechenkosten (weniger als 10 GPU-Stunden).
Diese Studie stellt HQ-Edit vor, ein hochwertiges instruktionsbasiertes Bildbearbeitungsdatenset mit rund 200.000 Bearbeitungen. Im Gegensatz zu früheren Ansätzen, die auf Attributanleitung oder menschlichem Feedback beim Aufbau von Datensätzen beruhen, haben wir eine skalierbare Datensammlungspipeline entwickelt, die auf fortschrittlichen Grundlagenmodellen basiert, nämlich GPT-4V und DALL-E 3. Um seine hohe Qualität sicherzustellen, werden zunächst vielfältige Beispiele online gesammelt, erweitert und dann verwendet, um hochwertige Diptychen mit Eingabe- und Ausgabe-Bildern sowie detaillierten Textanweisungen zu erstellen, gefolgt von einer präzisen Ausrichtung, die durch die Nachbearbeitung sichergestellt wird. Darüber hinaus schlagen wir zwei Bewertungsmetriken, Ausrichtung und Kohärenz, vor, um die Qualität von Bildbearbeitungspaaren quantitativ mithilfe von GPT-4V zu bewerten. HQ-Edits hochauflösende Bilder, reich an Details und begleitet von umfassenden Bearbeitungsanweisungen, verbessern erheblich die Fähigkeiten bestehender Bildbearbeitungsmodelle. Beispielsweise kann ein mit HQ-Edit feinabgestimmtes InstructPix2Pix eine Bildbearbeitungsleistung auf dem neuesten Stand der Technik erreichen, sogar diejenigen Modelle übertreffen, die mit menschlich annotierten Daten feinabgestimmt wurden. Die Projektseite ist https://thefllood.github.io/HQEdit_web.
Das Schließen mit Multimodalen Großen Sprachmodellen (MLLMs) ist aufgrund ihres großen Sprachmodell-Rückgrats, das unter einem Speicherbandbreitenengpass leidet und Token auto-regressiv generiert, langsam. In diesem Papier untersuchen wir die Anwendung des spekulativen Decodings zur Verbesserung der Inferenzeffizienz von MLLMs, speziell des LLaVA 7B-Modells. Wir zeigen, dass ein rein sprachliches Modell als gutes Entwurfsmodell für spekulatives Decoding mit LLaVA 7B dienen kann, wodurch die Notwendigkeit von Bild-Token und den zugehörigen Verarbeitungskomponenten des Entwurfsmodells umgangen wird. Unsere Experimente über drei verschiedene Aufgaben hinweg zeigen, dass spekulatives Decoding mit einem 115M-Parameter-Sprachmodell, das wir von Grund auf trainiert haben, eine speichergebundene Beschleunigung von bis zu 2,37-facher Geschwindigkeit erreichen kann. Zusätzlich stellen wir ein kompaktes LLaVA-Entwurfsmodell vor, das einen Bildadapter integriert, der geringfügige Leistungssteigerungen bei der Bildunterschriftenerstellung zeigt, während vergleichbare Ergebnisse in anderen Aufgaben beibehalten werden.
Generative multimodaler Inhalt ist zunehmend in vielen Bereichen der Inhalteerstellung verbreitet, da es Künstlern und Medienschaffenden ermöglicht, durch schnelles Umsetzen ihrer Ideen Vorproduktionsentwürfe zu erstellen. Die Generierung von Audio aus Texteingaben ist ein wichtiger Aspekt solcher Prozesse in der Musik- und Filmindustrie. Viele der neueren, auf Diffusion basierenden Text-zu-Audio-Modelle konzentrieren sich darauf, zunehmend anspruchsvolle Diffusionsmodelle auf einem großen Satz von Datensätzen von Eingabe-Audio-Paarungen zu trainieren. Diese Modelle konzentrieren sich nicht explizit auf die Präsenz von Konzepten oder Ereignissen und deren zeitliche Reihenfolge im Ausgabe-Audio in Bezug auf die Eingabeaufforderung. Unsere Hypothese besteht darin, wie diese Aspekte der Audioerzeugung die Leistung der Audioerzeugung bei begrenzten Daten verbessern könnten. Daher erstellen wir in dieser Arbeit unter Verwendung eines vorhandenen Text-zu-Audio-Modells Tango einen Präferenzdatensatz, bei dem jeder Eingabe eine Gewinner-Ausgabe und einige Verlierer-Ausgaben für das Diffusionsmodell zum Lernen zugeordnet sind. Die Verliererausgaben weisen theoretisch einige fehlende Konzepte aus der Eingabe oder eine falsche Reihenfolge auf. Wir feinabstimmen das öffentlich verfügbare Tango Text-zu-Audio-Modell unter Verwendung des Diffusions-DPO (Direct Preference Optimization) Verlusts auf unserem Präferenzdatensatz und zeigen, dass dies zu einer verbesserten Audioausgabe im Vergleich zu Tango und AudioLDM2 führt, sowohl in automatischen als auch manuellen Auswertungsmetriken.
Multimodale Large Language Models (MLLMs) haben beeindruckende Ergebnisse bei verschiedenen multimodalen Aufgaben gezeigt. Die meisten bestehenden MLLMs sind jedoch nicht gut für dokumentenorientierte Aufgaben geeignet, die eine feingranulare Bildwahrnehmung und Informationskompression erfordern. In diesem Paper präsentieren wir TextHawk, ein MLLM, das speziell für dokumentenorientierte Aufgaben entwickelt wurde, während die allgemeinen Fähigkeiten von MLLMs erhalten bleiben. TextHawk zielt darauf ab, eine effiziente feingranulare Wahrnehmung zu erforschen, indem vier dedizierte Komponenten entworfen werden. Zunächst wird ein ReSampling and ReArrangement (ReSA)-Modul vorgeschlagen, um die Redundanz in den Dokumententexten zu reduzieren und die Rechenkosten des MLLMs zu senken. Wir erforschen die Kodierung der Positionen jedes lokalen Merkmals, indem Skalierbare Positionale Einbettungen (SPEs) präsentiert werden, die die Skalierbarkeit verschiedener Bildgrößen bewahren können. Ein Query Proposal Network (QPN) wird dann übernommen, um die Abfragen dynamisch zwischen verschiedenen Teilbildern zu initialisieren. Um die feingranulare visuelle Wahrnehmungsfähigkeit des MLLMs weiter zu verbessern, entwerfen wir einen Multi-Level Cross-Attention (MLCA)-Mechanismus, der die hierarchische Struktur und semantischen Beziehungen von Dokumentenbildern erfasst. Darüber hinaus erstellen wir einen neuen Anweisungsabstimmungs-Datensatz für dokumentenorientierte Aufgaben, indem wir die multimodalen Dokumentendaten mit Gemini Pro anreichern. Wir führen umfangreiche Experimente sowohl an allgemeinen als auch an dokumentenorientierten MLLM-Benchmarks durch und zeigen, dass TextHawk die State-of-the-Art-Methoden übertrifft, was seine Wirksamkeit und Überlegenheit bei der feingranularen Dokumentwahrnehmung und den allgemeinen Fähigkeiten demonstriert.
Neural Radiance Field (NeRF) ist eine Darstellung für die 3D-Rekonstruktion aus multiplen Ansichten. Obwohl einige aktuelle Arbeiten vorläufigen Erfolg bei der Bearbeitung eines rekonstruierten NeRF mit Diffusionsprior gezeigt haben, haben sie weiterhin Schwierigkeiten, eine plausible Geometrie in vollständig unbedeckten Regionen zu synthetisieren. Ein Hauptgrund hierfür ist die hohe Vielfalt an synthetischen Inhalten aus dem Diffusionsmodell, die die Radiance-Field daran hindert, zu einer klaren und deterministischen Geometrie zu konvergieren. Darüber hinaus führt die Anwendung von latenten Diffusionsmodellen auf echten Daten oft zu einer texturalen Verschiebung, die inkohärent zur Bildbedingung ist, aufgrund von Fehler bei der Auto-Codierung. Diese beiden Probleme werden durch die Verwendung von Pixel-Abstandsverlusten weiter verstärkt. Um diese Probleme anzugehen, schlagen wir vor, die Stochastizität des Diffusionsmodells durch eine an die Szene angepasste Temperierung zu mildern und die texturale Verschiebung durch maskiertes adversariales Training zu reduzieren. Während der Analysen stellten wir außerdem fest, dass die häufig verwendeten Pixel- und perzeptuellen Verluste bei der NeRF-Inpainting-Aufgabe schädlich sind. Durch rigorose Experimente liefert unser Framework erstklassige NeRF-Inpainting-Ergebnisse in verschiedenen realen Szenen. Projektseite: https://hubert0527.github.io/MALD-NeRF
Gaussian Splatting, bekannt für seine außergewöhnliche Rendering-Qualität und Effizienz, hat sich als eine prominente Technik in der 3D-Szenendarstellung etabliert. Allerdings behindert das beträchtliche Datenvolumen von Gaussian Splatting seine praktische Anwendbarkeit in realen Anwendungen. Hier schlagen wir eine effiziente 3D-Szenendarstellung namens Komprimiertes Gaussian Splatting (CompGS) vor, das kompakte Gaußsche Primitive nutzt, um eine treue 3D-Szenenmodellierung mit einer bemerkenswert reduzierten Datengröße zu ermöglichen. Um die Kompaktheit der Gaußschen Primitive sicherzustellen, entwickeln wir eine hybride Primitive-Struktur, die vorhersagbare Beziehungen zwischen ihnen erfasst. Anschließend nutzen wir eine kleine Anzahl von Anker-Primitiven für die Vorhersage, wodurch der Großteil der Primitive in hochkompakte Restformen eingebettet werden kann. Darüber hinaus entwickeln wir ein rate-beschränktes Optimierungsschema, um Redundanzen innerhalb solcher hybrider Primitive zu eliminieren und unser CompGS auf einen optimalen Kompromiss zwischen Bitratenverbrauch und Repräsentationseffizienz auszurichten. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene CompGS bestehende Methoden signifikant übertrifft, eine überlegene Kompaktheit in der 3D-Szenendarstellung erreicht, ohne die Modellgenauigkeit und Rendering-Qualität zu beeinträchtigen. Unser Code wird auf GitHub für weitere Forschungszwecke veröffentlicht.