Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Im vergangenen Jahr haben multimodale Architekturen eine Revolution in KI-basierten Ansätzen und Lösungen eingeleitet, die die Fähigkeiten großer Sprachmodelle erweitern. Wir schlagen ein OmniFusion-Modell vor, das auf einem vorab trainierten Sprachmodell basiert und Adapter für die visuelle Modalität enthält. Wir haben verschiedene Architekturentwurfsprinzipien zur besseren Kopplung von Text- und visuellen Daten evaluiert und verglichen: MLP- und Transformer-Adapter, verschiedene CLIP ViT-basierte Encoder (SigLIP, InternVIT usw.) und ihren Verschmelzungsansatz, die Bildcodierungsmethode (Gesamtbild oder Kachelcodierung) und zwei 7B-Sprachmodelle (das proprietäre und das Open-Source-Modell Mistral). Experimente an 8 visuell-sprachlichen Benchmarktests zeigen die Bestleistung für das beste OmniFusion-Setup in Bezug auf verschiedene VQA-Aufgaben im Vergleich zu Open-Source-Lösungen wie LLaVA: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. Wir schlagen auch verschiedene Situationen vor, in denen OmniFusion hochdetaillierte Antworten in verschiedenen Bereichen liefert: Hausverwaltung, Sightseeing, Kultur, Medizin, Erkennung von handgeschriebenen und gescannten Gleichungen usw. Das auf Mistral basierende OmniFusion-Modell ist eine Open-Source-Lösung mit verfügbaren Gewichten, Trainings- und Inferenzskripten unter https://github.com/AIRI-Institute/OmniFusion.
Große Decoder-Only-Sprachmodelle (LLMs) sind die modernsten Modelle für die meisten heutigen NLP-Aufgaben und Benchmarks. Dennoch übernimmt die Gemeinschaft nur langsam diese Modelle für Texteinbettungsaufgaben, die reichhaltige kontextualisierte Darstellungen erfordern. In dieser Arbeit stellen wir LLM2Vec vor, einen einfachen unüberwachten Ansatz, der jedes Decoder-Only-LLM in einen leistungsstarken Textencoder umwandeln kann. LLM2Vec besteht aus drei einfachen Schritten: 1) Aktivierung bidirektionaler Aufmerksamkeit, 2) maskierte Vorhersage des nächsten Tokens und 3) unüberwachtes kontrastives Lernen. Wir zeigen die Wirksamkeit von LLM2Vec, indem wir es auf 3 beliebte LLMs mit Parametern von 1,3 Mrd. bis 7 Mrd. anwenden und die transformierten Modelle auf englischen Wort- und Sequenzebene-Aufgaben evaluieren. Wir übertreffen Encoder-Only-Modelle bei Wortebene-Aufgaben deutlich und erreichen eine neue unüberwachte State-of-the-Art-Leistung im Massive Text Embeddings Benchmark (MTEB). Darüber hinaus erreichen wir durch die Kombination von LLM2Vec mit überwachtem kontrastivem Lernen eine State-of-the-Art-Leistung im MTEB unter Modellen, die nur auf öffentlich verfügbaren Daten trainieren. Unsere starken empirischen Ergebnisse und umfangreiche Analyse zeigen, dass LLMs effektiv in universelle Textencoder auf parameter-effiziente Weise umgewandelt werden können, ohne teure Anpassungen oder synthetische, von GPT-4 generierte Daten zu benötigen.
Wir präsentieren Eagle (RWKV-5) und Finch (RWKV-6), Sequenzmodelle, die auf der RWKV (RWKV-4) Architektur aufbauen und verbessert wurden. Unsere architektonischen Fortschritte umfassen mehrköpfige, matrixwertige Zustände und einen dynamischen Rekurrenzmechanismus, die die Ausdrucksfähigkeit verbessern und gleichzeitig die Inferenzeffizienzmerkmale von RNNs beibehalten. Wir stellen einen neuen mehrsprachigen Korpus mit 1,12 Billionen Tokens und einen schnellen Tokenizer auf der Grundlage von gierigem Matching für eine verbesserte Mehrsprachigkeit vor. Wir haben vier Eagle-Modelle mit 0,46 bis 7,5 Milliarden Parametern und zwei Finch-Modelle mit 1,6 und 3,1 Milliarden Parametern trainiert und festgestellt, dass sie eine wettbewerbsfähige Leistung in einer Vielzahl von Benchmarks erzielen. Wir veröffentlichen alle unsere Modelle unter der Apache 2.0 Lizenz auf HuggingFace. Modelle unter: https://huggingface.co/RWKV Trainingscode unter: https://github.com/RWKV/RWKV-LM Inferenzcode unter: https://github.com/RWKV/ChatRWKV Zeitparalleler Trainingscode unter: https://github.com/RWKV/RWKV-infctx-trainer
Das Feld des Großen Vision-Sprach-Modells (LVLM) hat bedeutende Fortschritte verzeichnet, doch seine Entwicklung wurde durch Herausforderungen bei der Erfassung feingranularer visueller Inhalte aufgrund begrenzter Auflösung behindert. Jüngste Bemühungen zielten darauf ab, die Fähigkeiten zur hochauflösenden Verarbeitung von LVLMs zu verbessern, doch sie bleiben bei ungefähr 1500 x 1500 Pixeln begrenzt und auf einen relativ schmalen Auflösungsbereich beschränkt. Dieses Papier stellt InternLM-XComposer2-4KHD vor, eine wegweisende Erforschung zur Erhöhung der LVLM-Auflösungsfähigkeiten auf 4K HD (3840 x 1600) und darüber hinaus. Gleichzeitig, da die ultrahohe Auflösung nicht in allen Szenarien erforderlich sein könnte, unterstützt es eine breite Palette von verschiedenen Auflösungen von 336 Pixeln bis zum 4K-Standard, wodurch sein Anwendungsbereich erheblich erweitert wird. Speziell fördert diese Forschung das Patch-Divisions-Paradigma durch die Einführung einer neuartigen Erweiterung: dynamische Auflösung mit automatischer Patch-Konfiguration. Es bewahrt die Seitenverhältnisse des Trainingsbildes, während es automatisch die Patch-Anzahl variiert und Layouts basierend auf einem vortrainierten Vision-Transformer (ViT) (336 x 336) konfiguriert, was zu einer dynamischen Trainingsauflösung von 336 Pixeln bis zum 4K-Standard führt. Unsere Forschung zeigt, dass die Skalierung der Trainingsauflösung auf 4K HD zu konsistenten Leistungsverbesserungen führt, ohne an das Potenzial für Verbesserungen zu stoßen. InternLM-XComposer2-4KHD zeigt eine hervorragende Leistungsfähigkeit, die in 10 von 16 Benchmarks mit GPT-4V und Gemini Pro mithalten oder diese sogar übertreffen kann. Die InternLM-XComposer2-4KHD-Modellreihe mit 7B Parametern ist öffentlich unter https://github.com/InternLM/InternLM-XComposer verfügbar.
Das wachsende Interesse an der Entwicklung von Large Language Models (LLMs) mit bis zu einer Billion Parametern stößt auf Bedenken hinsichtlich Ressourceneffizienz und praktischen Kosten, insbesondere vor dem Hintergrund der immensen Kosten für Experimente. Dieses Szenario unterstreicht die Bedeutung der Erkundung des Potenzials von Small Language Models (SLMs) als ressourceneffiziente Alternative. In diesem Zusammenhang stellen wir MiniCPM vor, insbesondere die Varianten mit 1,2 Mrd. und 2,4 Mrd. Nicht-Einbettungsparametern, die nicht nur in ihren jeweiligen Kategorien herausragend sind, sondern auch Fähigkeiten auf Augenhöhe mit 7 Mrd. bis 13 Mrd. LLMs zeigen. Während wir uns auf SLMs konzentrieren, zeigt unser Ansatz Skalierbarkeit sowohl in Modell- als auch in Datenabmessungen für zukünftige LLM-Forschung. Hinsichtlich der Modellskalierung führen wir umfangreiche Modell-Windkanal-Experimente für eine stabile und optimale Skalierung durch. Für die Datenskalierung führen wir einen Warmup-Stable-Decay (WSD) Learning Rate Scheduler (LRS) ein, der kontinuierliches Training und Domänenanpassung ermöglicht. Wir präsentieren eine eingehende Analyse der interessanten Trainingsdynamik, die im WSD LRS auftrat. Mit WSD LRS sind wir nun in der Lage, das Daten-Modell-Skalierungsgesetz effizient zu untersuchen, ohne umfangreiche Neutrainings-Experimente auf beiden Achsen von Modell und Daten durchzuführen, aus denen wir das deutlich höhere, rechenoptimale Daten-Modell-Verhältnis ableiten als das Chinchilla-Optimum. Darüber hinaus stellen wir die MiniCPM-Familie vor, darunter MiniCPM-DPO, MiniCPM-MoE und MiniCPM-128K, deren hervorragende Leistung MiniCPMs Fundament in vielfältigen SLM-Anwendungen weiter festigt. MiniCPM-Modelle sind öffentlich unter https://github.com/OpenBMB/MiniCPM verfügbar.
Die Anpassung von Anweisungen hat sich als Schlüsselfaktor herausgestellt, um große Sprachmodelle (LLMs) mit spezifischen Aufgabenanweisungen in Einklang zu bringen und somit die Diskrepanz zwischen dem Ziel der Vorhersage des nächsten Tokens und den tatsächlichen Zielen der Benutzer zu mildern. Um den Arbeits- und Zeitaufwand für die Sammlung oder Annotation von Daten durch Menschen zu reduzieren, beginnen Forscher damit, LLMs zur Generierung von anweisungsgerechten synthetischen Daten zu erforschen. Aktuelle Arbeiten konzentrieren sich darauf, vielfältige Anweisungen zu generieren und LLMs zur Steigerung der Anweisungskomplexität anzuwenden, wobei oft die nachgelagerten Anwendungsfälle vernachlässigt werden. Es bleibt unklar, wie hochwertige Daten angepasst werden können, um bessere Anweisungsfolgefähigkeiten in verschiedenen Zielanweisungsverteilungen und LLMs hervorzurufen. Zu diesem Zweck stellen wir CodecLM vor, ein allgemeines Framework zur adaptiven Generierung hochwertiger synthetischer Daten zur Ausrichtung von LLMs mit verschiedenen nachgelagerten Anweisungsverteilungen und LLMs. Unter Verwendung der Prinzipien des Kodierens und Decodierens verwenden wir LLMs als Codecs, um den Datengenerierungsprozess zu steuern. Wir kodieren zunächst Ausgangsanweisungen in Metadaten, die prägnante Stichwörter sind, die spontan generiert werden, um die Zielanweisungsverteilung zu erfassen, und decodieren dann die Metadaten, um maßgeschneiderte Anweisungen zu erstellen. Wir führen auch Selbst-Rubriken und kontrastive Filterung während des Decodierens ein, um dateneffiziente Stichproben anzupassen. Umfangreiche Experimente an vier Open-Domain-Anweisungsfolge-Benchmarks bestätigen die Wirksamkeit von CodecLM im Vergleich zum aktuellen Stand der Technik.
In diesem Paper untersuchen wir die Anwendung von Large Language Models (LLMs) auf das Pre-Training von Musik. Während die vorherrschende Verwendung von MIDI in der Musikmodellierung gut etabliert ist, legen unsere Ergebnisse nahe, dass LLMs von Natur aus besser mit der ABC-Notation kompatibel sind, die enger mit ihrem Design und ihren Stärken übereinstimmt und somit die Leistung des Modells in der musikalischen Komposition verbessert. Um den Herausforderungen im Umgang mit nicht übereinstimmenden Maßen aus verschiedenen Spuren während der Generierung zu begegnen, schlagen wir die Entwicklung einer Synchronized Multi-Track ABC-Notation (SMT-ABC-Notation) vor, die darauf abzielt, die Kohärenz über mehrere Musikspuren hinweg zu bewahren. Unsere Beiträge umfassen eine Reihe von Modellen, die bis zu 8192 Tokens verarbeiten können und 90\% der symbolischen Musikdaten in unserem Trainingsset abdecken. Darüber hinaus untersuchen wir die Auswirkungen des Symbolic Music Scaling Law (SMS Law) auf die Modellleistung. Die Ergebnisse deuten auf eine vielversprechende Richtung für zukünftige Forschung in der Musikgenerierung hin und bieten umfangreiche Ressourcen für communitybasierte Forschung durch unsere Open-Source-Beiträge.
Die Evolution der 3D-generativen Modellierung wurde maßgeblich durch die Übernahme von 2D-Diffusionsmodellen vorangetrieben. Trotz dieses Fortschritts stellt der umständliche Optimierungsprozess an sich eine kritische Hürde für die Effizienz dar. In diesem Paper stellen wir Hash3D vor, eine universelle Beschleunigung für die 3D-Generierung ohne Modelltraining. Zentral für Hash3D ist die Erkenntnis, dass die Redundanz von Merkmalskarten in Bildern, die aus Kamerapositionen und Diffusionszeitpunkten in unmittelbarer Nähe gerendert wurden, weit verbreitet ist. Durch effektives Hashing und Wiederverwendung dieser Merkmalskarten über benachbarte Zeitpunkte und Kamerawinkel hinweg verhindert Hash3D wesentlich redundante Berechnungen und beschleunigt somit die Inferenz des Diffusionsmodells bei 3D-Generierungsaufgaben erheblich. Dies erreichen wir durch ein adaptives rasterbasiertes Hashing. Überraschenderweise beschleunigt dieser Merkmalsfreigabemechanismus nicht nur die Generierung, sondern verbessert auch die Geschmeidigkeit und Ansichtskonsistenz der synthetisierten 3D-Objekte. Unsere Experimente mit 5 Text-zu-3D- und 3 Bild-zu-3D-Modellen zeigen die Vielseitigkeit von Hash3D zur Beschleunigung der Optimierung und zur Steigerung der Effizienz um das 1,3- bis 4-fache. Darüber hinaus beschleunigt die Integration von Hash3D mit 3D-Gaußsplatting die 3D-Modellerstellung erheblich, wodurch die Verarbeitung von Text zu 3D auf etwa 10 Minuten und die Bild-zu-3D-Konvertierung auf ungefähr 30 Sekunden reduziert wird. Die Projektseite befindet sich unter https://adamdad.github.io/hash3D/.
Trotz der weit verbreiteten Verfügbarkeit von LLMs besteht nach wie vor eine erhebliche Kluft in ihren Fähigkeiten und der Verfügbarkeit in verschiedenen Sprachen. Ein Ansatz zur Bewältigung dieser Probleme besteht darin, ein vorhandenes vortrainiertes LLM zu nehmen und weiterhin auf neue Sprachen zu trainieren. Während frühere Arbeiten mit Sprachanpassung experimentiert haben, wurden viele Fragen zu bewährten Verfahren und Methoden noch nicht behandelt. In diesem Paper präsentieren wir eine umfassende Untersuchung zur Anpassung von LLMs an neue Sprachen. Unsere Studie umfasst die Schlüsselkomponenten dieses Prozesses, einschließlich der Erweiterung des Vokabulars, der direkten Präferenzoptimierung und des Problems der Datenknappheit für die menschliche Ausrichtung in Sprachen mit geringen Ressourcen. Wir skalieren diese Experimente auf 9 Sprachen und 2 Parametergrößen (7B und 70B). Wir vergleichen unsere Modelle mit Llama 2, Aya-101, XGLM, BLOOM und bestehenden Sprachexperten und übertreffen alle zuvor veröffentlichten Baselines. Darüber hinaus werden alle Evaluierungscodes und Checkpoints öffentlich zugänglich gemacht, um zukünftige Forschung zu erleichtern.
Die Text-zu-3D-Generierung hat durch groß angelegte Text-zu-Bild-Diffusionsmodelle bemerkenswerte Erfolge erzielt. Dennoch gibt es kein Paradigma zur Skalierung der Methodik auf städtische Maßstäbe. Städtische Szenen, die durch zahlreiche Elemente, komplexe Anordnungsbeziehungen und große Maßstäbe gekennzeichnet sind, stellen eine enorme Hürde für die Interpretierbarkeit mehrdeutiger textueller Beschreibungen zur effektiven Modelloptimierung dar. In dieser Arbeit überwinden wir die Einschränkungen, indem wir eine kompositorische 3D-Layout-Repräsentation in das Text-zu-3D-Paradigma einführen, die als zusätzliche Priorität dient. Sie besteht aus einer Reihe semantischer Primitive mit einfachen geometrischen Strukturen und expliziten Anordnungsbeziehungen, die textuelle Beschreibungen ergänzen und eine lenkbare Generierung ermöglichen. Darauf aufbauend schlagen wir zwei Modifikationen vor: (1) Wir führen das Layout-geführte Variationelle Score-Distillation ein, um Modelloptimierungsinkonsistenzen anzugehen. Es konditioniert den Score-Distillation-Abtastprozess mit geometrischen und semantischen Einschränkungen von 3D-Layouts. (2) Um mit der unbeschränkten Natur städtischer Szenen umzugehen, repräsentieren wir 3D-Szenen mit einer skalierbaren Hash-Gitterstruktur, die sich inkrementell an die wachsenden Maßstäbe städtischer Szenen anpasst. Umfangreiche Experimente belegen die Fähigkeit unseres Frameworks, die Text-zu-3D-Generierung auf groß angelegte städtische Szenen auszudehnen, die erstmals eine Fahrstrecke von über 1000 m abdecken. Wir präsentieren auch verschiedene Szenenbearbeitungsdemonstrationen, die die Möglichkeiten der lenkbaren städtischen Szenengenerierung zeigen. Webseite: https://urbanarchitect.github.io.
In diesem Paper behandeln wir die Einschränkungen der Adaptive Density Control (ADC) in der 3D-Gauß-Splatting (3DGS), einer Szene-Repräsentationsmethode, die hochwertige, fotorealistische Ergebnisse für die Synthese neuer Ansichten erzielt. ADC wurde zur automatischen Verwaltung von 3D-Punktprimitiven eingeführt, um die Verdichtung und das Beschneiden zu steuern, jedoch mit bestimmten Einschränkungen in der Verdichtungslogik. Unser Hauptbeitrag ist eine prinzipienbasierte, pixelfehlergesteuerte Formulierung für die Dichtesteuerung in 3DGS, die eine Hilfsfunktion pro Pixelfehler als Kriterium für die Verdichtung nutzt. Wir führen außerdem einen Mechanismus ein, um die Gesamtanzahl der pro Szene erzeugten Primitiven zu steuern und einen Bias in der aktuellen Opazitätsbehandlungsstrategie von ADC während der Klonvorgänge zu korrigieren. Unser Ansatz führt zu konsistenten Qualitätsverbesserungen über eine Vielzahl von Benchmark-Szenen, ohne die Effizienz der Methode zu beeinträchtigen.
Dank der schnellen Entwicklung von 2D-Diffusionsmodellen hat die 3D-Inhalteerstellung in letzter Zeit erhebliche Fortschritte gemacht. Eine vielversprechende Lösung besteht darin, vortrainierte 2D-Diffusionsmodelle feinzutunen, um ihre Fähigkeit zur Erzeugung von Multi-View-Bildern zu nutzen, die dann mithilfe von Methoden wie Fast-NeRFs oder großen Rekonstruktionsmodellen präzise in 3D-Modelle umgewandelt werden. Da jedoch immer noch Inkonsistenzen bestehen und die erzeugte Auflösung begrenzt ist, fehlen den Generierungsergebnissen solcher Methoden immer noch komplexe Texturen und komplexe Geometrien. Um dieses Problem zu lösen, schlagen wir Magic-Boost vor, ein Multi-View-konditioniertes Diffusionsmodell, das grobe generative Ergebnisse durch eine kurze Phase der SDS-Optimierung (ca. 15 Minuten) signifikant verfeinert. Im Vergleich zu den früheren text- oder einzelbildbasierten Diffusionsmodellen zeigt Magic-Boost eine robuste Fähigkeit zur Erzeugung von Bildern mit hoher Konsistenz aus pseudo-synthetisierten Multi-View-Bildern. Es bietet präzise SDS-Anleitung, die gut mit der Identität der Eingabebilder übereinstimmt, und bereichert die lokalen Details sowohl in der Geometrie als auch in der Textur der ursprünglichen generativen Ergebnisse. Umfangreiche Experimente zeigen, dass Magic-Boost die groben Eingaben erheblich verbessert und hochwertige 3D-Ressourcen mit reichen geometrischen und texturierten Details erzeugt. (Projektseite: https://magic-research.github.io/magic-boost/)
Objekte, die von der Hand manipuliert werden (d. h. Manipulanda), sind besonders herausfordernd, um sie aus RGB-Bildern oder -Videos in natürlicher Umgebung wiederherzustellen. Nicht nur verdeckt die Hand einen Großteil des Objekts, sondern das Objekt ist oft auch nur in einer kleinen Anzahl von Bildpixeln sichtbar. Gleichzeitig ergeben sich in diesem Szenario zwei starke Ankerpunkte: (1) Geschätzte 3D-Hände helfen, den Ort und die Skala des Objekts zu entwirren, und (2) die Anzahl der Manipulanda ist im Vergleich zu allen möglichen Objekten gering. Mit diesen Erkenntnissen im Hinterkopf präsentieren wir ein skalierbares Paradigma für die Rekonstruktion von handgehaltenen Objekten, das auf den neuesten Fortschritten in großen Sprach-/Bildmodellen und 3D-Objektdatensätzen aufbaut. Unser Modell, MCC-Hand-Object (MCC-HO), rekonstruiert gemeinsam die Geometrie von Hand und Objekt basierend auf einem einzelnen RGB-Bild und den abgeleiteten 3D-Händen als Eingaben. Anschließend verwenden wir GPT-4(V), um ein 3D-Objektmodell abzurufen, das zum Objekt im Bild passt, und richten das Modell starr an die netzwerkinferierte Geometrie aus; wir nennen diese Ausrichtung "Retrieval-Augmented Reconstruction" (RAR). Experimente zeigen, dass MCC-HO eine Spitzenleistung auf Labor- und Internetdatensätzen erreicht, und wir zeigen, wie RAR verwendet werden kann, um automatisch 3D-Labels für Bilder in natürlicher Umgebung von Hand-Objekt-Interaktionen zu erhalten.
Obwohl viele gezeigt haben, wie sich große Sprachmodelle (Large Language Models, LLMs) auf eine Vielzahl von Aufgaben anwenden lassen, werden die kritischen Probleme der Datenkontamination und Memorierung oft übersehen. In dieser Arbeit gehen wir auf diese Bedenken im Zusammenhang mit tabellarischen Daten ein. Konkret stellen wir verschiedene Techniken vor, um zu bewerten, ob ein Sprachmodell einen tabellarischen Datensatz während des Trainings gesehen hat. Diese Untersuchung zeigt, dass LLMs viele beliebte tabellarische Datensätze wortwörtlich auswendig gelernt haben. Anschließend vergleichen wir die Few-Shot-Lernleistung von LLMs auf Datensätzen, die während des Trainings gesehen wurden, mit der Leistung auf Datensätzen, die nach dem Training veröffentlicht wurden. Wir stellen fest, dass LLMs auf während des Trainings gesehenen Datensätzen besser abschneiden, was darauf hindeutet, dass Memorierung zu Overfitting führt. Gleichzeitig zeigen LLMs eine nicht unerhebliche Leistung auf neuen Datensätzen und sind überraschend robust gegenüber Datenveränderungen. Anschließend untersuchen wir die statistischen Lernfähigkeiten von LLMs im Kontext. Ohne Feinabstimmung stellen wir fest, dass sie begrenzt sind. Dies legt nahe, dass ein Großteil der Few-Shot-Leistung auf neuen Datensätzen auf dem Weltwissen des LLMs beruht. Insgesamt unterstreichen unsere Ergebnisse die Bedeutung der Überprüfung, ob ein LLM einen Bewertungsdatensatz während des Pre-Trainings gesehen hat. Wir stellen die von uns entwickelten Expositionstests als das Python-Paket tabmemcheck unter https://github.com/interpretml/LLM-Tabular-Memorization-Checker zur Verfügung.