Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die rasante Entwicklung großer Sprach- und Bildmodelle (LLVMs) wurde durch Fortschritte im visuellen Anweisungstuning vorangetrieben. In letzter Zeit haben Open-Source-LLVMs hochwertige Datensätze für visuelles Anweisungstuning kuratiert und zusätzliche Bildcodierer oder mehrere Computer-Visionsmodelle genutzt, um die Leistungslücke mit leistungsstarken Closed-Source-LLVMs zu verringern. Diese Fortschritte sind auf die vielschichtigen Informationen zurückzuführen, die für verschiedene Fähigkeiten erforderlich sind, einschließlich grundlegendem Bildverständnis, weltlichem Wissen über Alltagslogik und nicht-objektbezogene Konzepte (z. B. Diagramme, Symbole, Zeichen und mathematische Probleme) sowie schrittweise Verfahren zur Lösung komplexer Fragen. Unter Verwendung dieser vielschichtigen Informationen präsentieren wir ein neues effizientes LLVM, das auf dem Mamba-Traversal von Begründungen (Meteor) basiert, das vielschichtige Begründungen nutzt, um Verständnis- und Antwortfähigkeiten zu verbessern. Um umfangreiche Begründungen mit reichhaltigen Informationen einzubetten, verwenden wir die Mamba-Architektur, die in der Lage ist, sequenzielle Daten mit linearer Zeitkomplexität zu verarbeiten. Wir führen ein neues Konzept des Begründungstraversierens ein, das die effiziente Einbettung von Begründungen erleichtert. Anschließend wird das Backbone-Multimodell-Sprachmodell (MLM) darauf trainiert, Antworten mithilfe von Begründungen zu generieren. Durch diese Schritte erzielt Meteor signifikante Verbesserungen bei der Sprachleistung im Bereich der Bildverarbeitung über mehrere Bewertungsmaßstäbe hinweg, die verschiedene Fähigkeiten erfordern, ohne die Modellgröße zu skalieren oder zusätzliche Bildcodierer und Computer-Visionsmodelle einzusetzen.
Hochauflösende Large Multimodal Models (LMMs) stehen vor den Herausforderungen von übermäßigen visuellen Tokens und quadratischer visueller Komplexität. Aktuelle hochauflösende LMMs bewältigen die quadratische Komplexität, erzeugen jedoch immer noch übermäßige visuelle Tokens. Die Redundanz in den visuellen Tokens ist jedoch das Hauptproblem, da dies zu einem erheblichen Rechenaufwand führt. Um dieses Problem zu mildern, schlagen wir ConvLLaVA vor, das ConvNeXt, ein hierarchisches Rückgrat, als visuellen Encoder von LMM verwendet, um den Vision Transformer (ViT) zu ersetzen. ConvLLaVA komprimiert hochauflösende Bilder in informationsreiche visuelle Merkmale, um die Erzeugung übermäßiger visueller Tokens effektiv zu verhindern. Zur Verbesserung der Fähigkeiten von ConvLLaVA schlagen wir zwei entscheidende Optimierungen vor. Da das vortrainierte ConvNeXt mit niedriger Auflösung unterdurchschnittlich abschneidet, wenn es direkt auf hohe Auflösung angewendet wird, aktualisieren wir es, um die Kluft zu überbrücken. Darüber hinaus, da das ursprüngliche Kompressionsverhältnis von ConvNeXt für Eingaben mit viel höherer Auflösung unzureichend ist, trainieren wir eine aufeinanderfolgende Stufe, um die visuellen Tokens weiter zu komprimieren und somit die Redundanz zu reduzieren. Diese Optimierungen ermöglichen es ConvLLaVA, Eingaben mit einer Auflösung von 1536x1536 zu unterstützen, wobei nur 576 visuelle Tokens erzeugt werden, die Bilder mit beliebigen Seitenverhältnissen verarbeiten können. Experimentelle Ergebnisse zeigen, dass unsere Methode eine wettbewerbsfähige Leistung mit modernsten Modellen auf gängigen Benchmarks erzielt. Die ConvLLaVA-Modellreihe ist öffentlich unter https://github.com/alibaba/conv-llava verfügbar.
Wir untersuchen, ob Transformer lernen können, implizit über parametrisches Wissen zu schlussfolgern, eine Fähigkeit, mit der selbst die leistungsfähigsten Sprachmodelle zu kämpfen haben. Indem wir uns auf zwei repräsentative Arten des Schlussfolgerns, die Zusammensetzung und den Vergleich, konzentrieren, stellen wir konsequent fest, dass Transformer implizites Schlussfolgern erlernen können, jedoch nur durch "Grokking", d.h. ein erweitertes Training, das weit über das Überanpassen hinausgeht. Die Generalisierungsebenen variieren auch je nach Art des Schlussfolgerns: Wenn sie mit Beispielen außerhalb der Verteilung konfrontiert werden, versagen Transformer darin, systematisch für die Zusammensetzung zu generalisieren, gelingen jedoch beim Vergleich. Wir tauchen während des Trainings in die Interna des Modells ein und führen analytische Experimente durch, die Folgendes aufdecken: 1) den Mechanismus hinter dem Grokking, wie die Bildung des generalisierenden Schaltkreises und sein Verhältnis zur relativen Effizienz der generalisierenden und memorierenden Schaltkreise, und 2) die Verbindung zwischen Systematik und der Konfiguration des generalisierenden Schaltkreises. Unsere Ergebnisse leiten Daten und Trainingsaufbau an, um implizites Schlussfolgern besser zu fördern, und legen potenzielle Verbesserungen der Transformer-Architektur nahe, wie die Förderung des Wissensaustauschs zwischen den Schichten. Darüber hinaus zeigen wir, dass für eine anspruchsvolle Schlussfolgerungsaufgabe mit einem großen Suchraum GPT-4-Turbo und Gemini-1.5-Pro auf Basis von nicht-parametrischem Speicher unabhängig von den Abfragestilen oder der Abrufverstärkung schlecht abschneiden, während ein vollständig gegrokkter Transformer nahezu perfekte Genauigkeit erreichen kann, was die Leistungsfähigkeit des parametrischen Speichers für komplexe Schlussfolgerungen verdeutlicht.
Dieser technische Bericht stellt Aya 23 vor, eine Familie von mehrsprachigen Sprachmodellen. Aya 23 baut auf der kürzlich veröffentlichten Aya-Modell (Ustün et al., 2024) auf und konzentriert sich darauf, ein hochleistungsfähiges vorab trainiertes Modell mit der kürzlich veröffentlichten Aya-Sammlung (Singh et al., 2024) zu kombinieren. Das Ergebnis ist ein leistungsstarkes mehrsprachiges großes Sprachmodell, das 23 Sprachen bedient und die Sprachmodellierungsfähigkeiten auf dem neuesten Stand auf etwa die Hälfte der Weltbevölkerung erweitert. Das Aya-Modell umfasste 101 Sprachen, während Aya 23 ein Experiment in Tiefe gegen Breite darstellt, das die Auswirkungen der Zuweisung von mehr Kapazität auf weniger Sprachen untersucht, die während des Vorabtrainings enthalten sind. Aya 23 übertrifft sowohl frühere massiv mehrsprachige Modelle wie Aya 101 für die abgedeckten Sprachen als auch weit verbreitete Modelle wie Gemma, Mistral und Mixtral bei einer umfangreichen Palette von diskriminierenden und generativen Aufgaben. Wir veröffentlichen die offenen Gewichte sowohl für die 8B- als auch die 35B-Modelle im Rahmen unseres fortgesetzten Engagements zur Erweiterung des Zugangs zum multilingualen Fortschritt.
LLMs sind aufgrund ihrer großen Skalierung rechenaufwändig, um vorab zu trainieren. Das Modellwachstum entwickelt sich als vielversprechender Ansatz, indem kleinere Modelle genutzt werden, um das Training größerer zu beschleunigen. Die Machbarkeit dieser Methoden des Modellwachstums beim effizienten Vorabtraining von LLMs bleibt jedoch weitgehend unerforscht. Diese Arbeit identifiziert drei kritische Hindernisse: (O1) Mangel an umfassender Bewertung, (O2) ungetestete Machbarkeit für Skalierung und (O3) Mangel an empirischen Leitlinien. Um O1 anzugehen, fassen wir bestehende Ansätze in vier atomare Wachstumsoperatoren zusammen und evaluieren sie systematisch in einem standardisierten LLM-Vorabtrainingsumfeld. Unsere Ergebnisse zeigen, dass ein Tiefenstapelungsoperator namens G_{stack} eine bemerkenswerte Beschleunigung im Training aufweist, was zu verringertem Verlust und verbesserten Gesamtleistungen auf acht Standard-NLP-Benchmarks im Vergleich zu starken Baselines führt. Motiviert durch diese vielversprechenden Ergebnisse führen wir umfangreiche Experimente durch, um tiefer in G_{stack} einzutauchen, um O2 und O3 anzugehen. Für O2 (nicht getestete Skalierbarkeit) zeigt unsere Studie, dass G_{stack} skalierbar ist und konsistent gut abschneidet, mit Experimenten von bis zu 7B LLMs nach dem Wachstum und Vorabtraining von LLMs mit 750B Tokens. Zum Beispiel konvergiert unser G_{stack}-Modell im Vergleich zu einem konventionell trainierten 7B-Modell mit 300B Tokens bei 194B Tokens zum gleichen Verlust, was zu einer Beschleunigung von 54,6\% führt. Wir gehen auch auf O3 (Mangel an empirischen Leitlinien) ein, indem wir Leitlinien formalisieren, um den Zeitpunkt des Wachstums und den Wachstumsfaktor für G_{stack} zu bestimmen, was es für allgemeines LLM-Vorabtraining praktisch macht. Wir bieten auch eingehende Diskussionen und umfassende Ablationsstudien von G_{stack} an. Unser Code und unser vorab trainiertes Modell sind verfügbar unter https://llm-stacking.github.io/.
Bestehende Lernratenpläne, die keine Angabe des Optimierungsschrittstopps T erfordern, werden deutlich von Lernratenplänen übertroffen, die von T abhängen. Wir schlagen einen Ansatz vor, der auf die Notwendigkeit dieser Stoppzeit verzichtet, indem er vollständig auf Pläne verzichtet, während er im Vergleich zu Plänen bei einer breiten Palette von Problemen von konvexen Problemen bis hin zu groß angelegten Deep-Learning-Problemen eine Spitzenleistung zeigt. Unser planfreier Ansatz führt keine zusätzlichen Hyperparameter im Vergleich zu Standardoptimierern mit Schwung ein. Unsere Methode ist eine direkte Konsequenz einer neuen Theorie, die wir entwickeln, die Planung und Iterationsmittelung vereint. Eine Open-Source-Implementierung unserer Methode ist verfügbar (https://github.com/facebookresearch/schedule_free).
Wir stellen AutoCoder vor, das erste Large Language Model, das GPT-4 Turbo (April 2024) und GPT-4o in pass@1 beim Human Eval Benchmark-Test übertroffen hat (90,9% gegenüber 90,2%). Darüber hinaus bietet AutoCoder einen vielseitigeren Code-Interpreter im Vergleich zu GPT-4 Turbo und GPT-4o. Sein Code-Interpreter kann externe Pakete installieren, anstatt auf integrierte Pakete beschränkt zu sein. Die Trainingsdaten von AutoCoder sind ein Multi-Turn-Dialogdatensatz, der von einem System erstellt wurde, das Agenteninteraktion und die Überprüfung der externen Codeausführung kombiniert, ein Verfahren, das wir als \textsc{AIEV-Instruct} bezeichnen (Instruktionsabstimmung mit Agenteninteraktion und Ausführungsüberprüfung). Im Vergleich zu früheren Methoden zur Generierung von Codesätzen im großen Maßstab reduziert AIEV-Instruct die Abhängigkeit von proprietären großen Modellen und bietet einen ausführungsvalidierten Code-Datensatz. Der Code und das Demo-Video sind verfügbar unter https://github.com/bin123apple/AutoCoder.
Wir präsentieren ein neuartiges generatives 3D-Modellierungssystem namens CraftsMan, das hochwertige 3D-Geometrien mit stark variierenden Formen, regelmäßigen Netztopologien und detaillierten Oberflächen erzeugen kann und es ermöglicht, die Geometrie auf interaktive Weise zu verfeinern. Trotz der signifikanten Fortschritte bei der 3D-Generierung haben bestehende Methoden immer noch Schwierigkeiten mit langwierigen Optimierungsprozessen, unregelmäßigen Netztopologien, rauschenden Oberflächen und Problemen bei der Berücksichtigung von Benutzerbearbeitungen, was ihre weitreichende Übernahme und Implementierung in 3D-Modellierungssoftware behindert. Unsere Arbeit ist vom Handwerker inspiriert, der in der Regel zuerst die ganzheitliche Figur des Werks grob skizziert und anschließend die Oberflächendetails ausarbeitet. Speziell verwenden wir ein 3D-eigenes Diffusionsmodell, das im latenten Raum arbeitet, der aus latenzbasierten 3D-Repräsentationen gelernt wurde, um grobe Geometrien mit regelmäßiger Netztopologie in Sekunden zu generieren. Insbesondere nimmt dieser Prozess einen Textprompt oder ein Referenzbild als Eingabe und nutzt ein leistungsstarkes Multi-View (MV) Diffusionsmodell, um mehrere Ansichten der groben Geometrie zu generieren, die in unser MV-konditioniertes 3D-Diffusionsmodell eingespeist werden, um die 3D-Geometrie zu generieren und die Robustheit und Generalisierbarkeit signifikant zu verbessern. Anschließend wird ein geometrischer Verfeinerer auf Basis von Normalen verwendet, um die Oberflächendetails signifikant zu verbessern. Diese Verfeinerung kann automatisch oder interaktiv mit benutzerdefinierten Bearbeitungen durchgeführt werden. Umfangreiche Experimente zeigen, dass unsere Methode eine hohe Wirksamkeit bei der Erzeugung hochwertiger 3D-Assets im Vergleich zu bestehenden Methoden erreicht. Homepage: https://craftsman3d.github.io/, Code: https://github.com/wyysf-98/CraftsMan
Selbstüberwachte Merkmale sind der Eckpfeiler moderner maschineller Lernsysteme. Sie werden in der Regel vorab auf Datensammlungen trainiert, deren Erstellung und Pflege in der Regel einen erheblichen menschlichen Aufwand erfordern. Dieser manuelle Prozess hat einige Einschränkungen, die denen im überwachten Lernen ähneln, z. B. ist die Auswahl von Daten durch Crowdsourcing kostspielig und zeitaufwändig, was die Skalierung der Datensatzgröße verhindert. In dieser Arbeit betrachten wir das Problem der automatischen Pflege hochwertiger Datensätze für die selbstüberwachte Vorabtrainierung. Wir postulieren, dass solche Datensätze groß, vielfältig und ausgewogen sein sollten, und schlagen einen clusteringbasierten Ansatz vor, um solche zu erstellen, die all diese Kriterien erfüllen. Unsere Methode beinhaltet aufeinanderfolgende und hierarchische Anwendungen von k-Means auf einem großen und vielfältigen Datenrepository, um Cluster zu erhalten, die gleichmäßig über Datenkonzepte verteilt sind, gefolgt von einem hierarchischen, ausgewogenen Stichprobenentnahmeschritt aus diesen Clustern. Umfangreiche Experimente in drei verschiedenen Datenbereichen, einschließlich webbasierter Bilder, Satellitenbilder und Texte, zeigen, dass Merkmale, die auf unseren automatisch gepflegten Datensätzen trainiert sind, solche übertreffen, die auf ungepflegten Daten trainiert sind, während sie auf dem Niveau oder besser als diejenigen abschneiden, die auf manuell gepflegten Daten trainiert sind.
Weltmodelle ermöglichen es modellbasierten Agenten, interaktiv zu erkunden, zu argumentieren und in vorgestellten Umgebungen für Entscheidungsfindungen in der realen Welt zu planen. Die hohe Nachfrage nach Interaktivität stellt jedoch Herausforderungen bei der Nutzung aktueller Fortschritte in der Entwicklung von Weltmodellen im großen Maßstab mit Hilfe von Video-generativen Modellen dar. Diese Arbeit stellt Interactive VideoGPT (iVideoGPT) vor, ein skalierbares autoregressives Transformer-Framework, das multimodale Signale - visuelle Beobachtungen, Aktionen und Belohnungen - in eine Sequenz von Tokens integriert, um eine interaktive Erfahrung von Agenten durch die Vorhersage des nächsten Tokens zu ermöglichen. iVideoGPT verfügt über eine neuartige komprimierende Tokenisierungstechnik, die hochdimensionale visuelle Beobachtungen effizient diskretisiert. Durch die Nutzung seiner skalierbaren Architektur können wir iVideoGPT auf Millionen von menschlichen und robotischen Manipulationstrajektorien vorab trainieren und so eine vielseitige Grundlage schaffen, die anpassungsfähig ist, um als interaktive Weltmodelle für eine Vielzahl von nachgelagerten Aufgaben zu dienen. Dazu gehören aktionskonditionierte Video-Vorhersage, visuelle Planung und modellbasiertes Verstärkungslernen, bei denen iVideoGPT im Vergleich zu State-of-the-Art-Methoden eine wettbewerbsfähige Leistung erzielt. Unsere Arbeit fördert die Entwicklung interaktiver allgemeiner Weltmodelle und schließt die Lücke zwischen generativen Videomodellen und praktischen modellbasierten Anwendungen des Verstärkungslernens.
Sprachmodelle (LMs) werden seit langem verwendet, um die Ergebnisse von automatischen Spracherkennungssystemen (ASR) zu verbessern, sind jedoch nicht über die Fehler informiert, die ASR-Systeme machen. Fehlerkorrekturmodelle sind darauf ausgelegt, ASR-Fehler zu beheben, zeigten jedoch nur geringe Verbesserungen gegenüber herkömmlichen LMs, hauptsächlich aufgrund des Mangels an überwachungsbezogenen Trainingsdaten. In diesem Papier stellen wir das Denoising LM (DLM) vor, das ein skaliertes Fehlerkorrekturmodell ist, das mit umfangreichen Mengen an synthetischen Daten trainiert wurde, die deutlich über bisherige Versuche hinausgehen und gleichzeitig eine neue Spitzenleistung bei ASR erzielen. Wir verwenden Text-in-Sprache (TTS)-Systeme, um Audio zu synthetisieren, das in ein ASR-System eingespeist wird, um rauschige Hypothesen zu erzeugen, die dann mit den Originaltexten gepaart werden, um das DLM zu trainieren. DLM hat mehrere Schlüsselkomponenten: (i) hochskaliertes Modell und Daten; (ii) Verwendung von Multi-Sprecher-TTS-Systemen; (iii) Kombination mehrerer Rauschverstärkungsstrategien; und (iv) neue Decodierungstechniken. Mit einem Transformer-CTC ASR erreicht DLM eine Wortfehlerrate (WER) von 1,5% bei test-clean und 3,3% WER bei test-other auf Librispeech, die unseres Wissens nach die besten gemeldeten Zahlen im Szenario sind, in dem keine externen Audio-Daten verwendet werden und sogar mit selbstüberwachten Methoden übereinstimmen, die externe Audio-Daten verwenden. Darüber hinaus ist ein einzelnes DLM auf verschiedene ASRs anwendbar und übertrifft deutlich die Leistung von konventionellen LM-basierten Beam-Search-Rescoring. Diese Ergebnisse deuten darauf hin, dass sorgfältig untersuchte Fehlerkorrekturmodelle das Potenzial haben, herkömmliche LMs zu ersetzen und den Schlüssel zu einem neuen Genauigkeitsniveau in ASR-Systemen darstellen.
Große Sprachmodelle zeigen außergewöhnliche Verallgemeinerungsfähigkeiten, die hauptsächlich auf die Nutzung vielfältig beschaffener Daten zurückzuführen sind. Allerdings beruhen herkömmliche Praktiken zur Integration dieser vielfältigen Daten stark auf heuristischen Ansätzen, die theoretische Anleitung vermissen lassen. Diese Forschung begegnet diesen Einschränkungen, indem sie Strategien untersucht, die auf kostengünstigen Stellvertretern für Datenmischungen basieren, mit dem Ziel, die Datenkuration zu optimieren und die Trainingseffizienz zu steigern. Konkret schlagen wir ein vereinheitlichtes Skalierungsgesetz namens BiMix vor, das das bivariate Skalierungsverhalten sowohl der Datenmenge als auch der Mischungsverhältnisse präzise modelliert. Wir führen systematische Experimente durch und liefern empirische Belege für die Vorhersagekraft und die grundlegenden Prinzipien von BiMix. Insbesondere zeigen unsere Ergebnisse, dass entropiegesteuerte, trainingfreie Datenmischungen vergleichbare oder sogar bessere Leistungen erzielen können als ressourcenintensivere Methoden. Wir hoffen, dass unsere quantitativen Erkenntnisse dazu beitragen können, weitere sorgfältige Forschung und Entwicklung im kosteneffizienten Sprachmodellieren zu beleuchten.
Die High Dynamic Range (HDR) Novel View Synthesis (NVS) zielt darauf ab, fotorealistische Bilder aus neuen Blickwinkeln mithilfe von HDR-Bildgebungstechniken zu erstellen. Die gerenderten HDR-Bilder erfassen einen breiteren Helligkeitsbereich und enthalten mehr Details der Szene als normale Low Dynamic Range (LDR) Bilder. Bestehende HDR-NVS-Methoden basieren hauptsächlich auf NeRF. Sie leiden unter langen Trainingszeiten und langsamen Inferenzgeschwindigkeiten. In diesem Paper schlagen wir ein neues Framework, High Dynamic Range Gaussian Splatting (HDR-GS), vor, das neuartige HDR-Ansichten effizient rendern kann und LDR-Bilder mit einer Benutzereingabe zur Belichtungszeit rekonstruiert. Speziell entwerfen wir ein Dual Dynamic Range (DDR) Gauss'sches Punktwolkenmodell, das sphärische Harmonien zur Anpassung von HDR-Farben verwendet und einen MLP-basierten Tone-Mapper zur Darstellung von LDR-Farben einsetzt. Die HDR- und LDR-Farben werden dann in zwei parallele differentiell rasterisierbare Prozesse eingespeist, um HDR- und LDR-Ansichten zu rekonstruieren. Um die Datenbasis für die Erforschung von 3D-Gauss'schen Splatting-basierten Methoden in HDR-NVS zu schaffen, kalibrieren wir die Kameraparameter neu und berechnen die Anfangspositionen für Gauss'sche Punktwolken. Experimente zeigen, dass unser HDR-GS die state-of-the-art NeRF-basierte Methode um 3,84 bzw. 1,91 dB bei LDR- und HDR-NVS übertrifft, während es eine Inferenzgeschwindigkeit von 1000x bietet und nur 6,3% der Trainingszeit benötigt.