Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Fähigkeit, komplexe visuelle Informationen genau zu interpretieren, ist ein entscheidendes Thema für multimodale große Sprachmodelle (MLLMs). Aktuelle Arbeiten deuten darauf hin, dass eine verbesserte visuelle Wahrnehmung Halluzinationen signifikant reduziert und die Leistung bei auflösungssensiblen Aufgaben wie optischer Zeichenerkennung und Dokumentenanalyse verbessert. Eine Reihe aktueller MLLMs erreicht dieses Ziel durch die Verwendung einer Mischung von Bildcodierern. Trotz ihres Erfolgs fehlen systematische Vergleiche und detaillierte Ablationsstudien, die kritische Aspekte wie die Auswahl von Experten und die Integration mehrerer Bildexperten behandeln. Diese Studie bietet eine umfassende Erkundung des Designraums für MLLMs unter Verwendung einer Mischung von Bildcodierern und Auflösungen. Unsere Ergebnisse zeigen mehrere zugrunde liegende Prinzipien auf, die verschiedenen bestehenden Strategien gemeinsam sind und zu einem schlanken, aber effektiven Designansatz führen. Wir entdecken, dass das einfache Konkatenieren visueller Token aus einer Reihe von komplementären Bildcodierern genauso effektiv ist wie komplexere Mischarchitekturen oder -strategien. Darüber hinaus führen wir Pre-Alignment ein, um die Kluft zwischen bildfokussierten Encodern und Sprachtokens zu überbrücken und die Kohärenz des Modells zu verbessern. Die resultierende Familie von MLLMs, Eagle, übertrifft andere führende Open-Source-Modelle bei wichtigen MLLM-Benchmarks. Modelle und Code: https://github.com/NVlabs/Eagle
Die allgemeinen Fähigkeiten von Large Language Models (LLM) hängen stark von der Zusammensetzung und Auswahl umfangreicher Vortrainingsdatensätze ab, die von mehreren Institutionen als Geschäftsgeheimnisse behandelt werden. Um dieses Problem zu mildern, veröffentlichen wir die Details einer universell anwendbaren Datenverarbeitungspipeline und validieren deren Wirksamkeit und Potenzial, indem wir eine wettbewerbsfähige LLM-Baseline einführen. Konkret besteht die Datenverarbeitungspipeline aus einer umfassenden Datensammlung zur Skalierung und einer Neugewichtung zur Verbesserung der Qualität. Anschließend trainieren wir ein 7B-Modell BaichuanSEED mit 3T Tokens, die von unserer Pipeline verarbeitet wurden, ohne eine gezielte Optimierung im Zusammenhang mit nachgelagerten Aufgaben, gefolgt von einer einfachen, aber effektiven überwachten Feinabstimmungsphase. BaichuanSEED zeigt während des Trainings Konsistenz und Vorhersagbarkeit und erzielt vergleichbare Leistungen auf umfassenden Benchmarks mit mehreren kommerziellen fortschrittlichen Large Language Models wie Qwen1.5 und Llama3. Wir führen auch mehrere heuristische Experimente durch, um das Potenzial für eine weitere Optimierung von nachgelagerten Aufgaben wie Mathematik und Codierung zu diskutieren.
Dieses Papier stellt Dolphin vor, eine neuartige Decoder-Decoder-Architektur für die energieeffiziente Verarbeitung langer Kontexte in Sprachmodellen. Unser Ansatz begegnet den signifikanten Herausforderungen hinsichtlich Energieverbrauch und Latenz, die in On-Device-Modellen inhärent sind. Dolphin verwendet einen kompakten Decoder mit 0,5 Milliarden Parametern, um umfangreiche Kontextinformationen in ein Speicherembedding zu destillieren und dadurch die Eingabegröße für das primäre Decoder-Modell mit 7 Milliarden Parametern wesentlich zu reduzieren. Inspiriert von Bild-Sprach-Modellen, nutzen wir den Bild-Embedding-Projektor, um lange Textkontexte zu kodieren und erweiterten Kontext effektiv als eigenständige Modalität zu behandeln. Diese innovative Methode ermöglicht die Verarbeitung wesentlich längerer Kontexte ohne den üblichen Rechenaufwand, der mit erweiterten Eingabesequenzen verbunden ist. Empirische Bewertungen zeigen eine Verbesserung der Energieeffizienz um das Zehnfache und eine Reduzierung der Latenz um das Fünffache im Vergleich zu herkömmlichen Methoden zur Verarbeitung von vollständigen Kontexten, ohne die Qualität der Antwort zu beeinträchtigen. Unsere Arbeit trägt zur Entwicklung nachhaltigerer und skalierbarerer Sprachmodelle für On-Device-Anwendungen bei und adressiert den dringenden Bedarf an energieeffizienten und reaktionsschnellen KI-Technologien in ressourcenbeschränkten Umgebungen, während die Genauigkeit zur Verarbeitung langer Kontexte erhalten bleibt. Diese Forschung hat Auswirkungen auf das breitere Feld der natürlichen Sprachverarbeitung, insbesondere im Bereich des effizienten Modellentwurfs für ressourcenbeschränkte Umgebungen. Indem Dolphin fortschrittlichere KI-Fähigkeiten auf Edge-Geräten ermöglicht, ebnet es den Weg für fortschrittliche Sprachverarbeitung in einer Vielzahl von Anwendungen, in denen Rechenressourcen knapp sind. Das Dolphin-Modell ist öffentlich verfügbar unter https://huggingface.co/NexaAIDev/Dolphin.
Wir stellen LLaVA-MoD vor, ein neuartiges Framework, das entwickelt wurde, um das effiziente Training von kleinen Multimodal Language Models (s-MLLM) durch die Destillation von Wissen aus groß angelegten MLLM (l-MLLM) zu ermöglichen. Unser Ansatz begegnet zwei grundlegenden Herausforderungen bei der MLLM-Destillation. Erstens optimieren wir die Netzwerkstruktur des s-MLLM, indem wir eine spärliche Mixture-of-Experts (MoE) Architektur in das Sprachmodell integrieren, um ein Gleichgewicht zwischen Recheneffizienz und Modellausdruckskraft zu schaffen. Zweitens schlagen wir eine progressive Wissensübertragungsstrategie vor, um eine umfassende Wissensmigration sicherzustellen. Diese Strategie beginnt mit der Mimik-Destillation, bei der wir die Kullback-Leibler-Divergenz zwischen den Ausgangsverteilungen minimieren, um dem Schülermodell zu ermöglichen, das Verständnis des Lehrernetzwerks zu emulieren. Anschließend führen wir die Präferenz-Destillation über die Direkte Präferenzoptimierung (DPO) ein, wobei der Schlüssel darin liegt, das l-MLLM als Referenzmodell zu behandeln. Während dieser Phase wird die Fähigkeit des s-MLLM, zwischen überlegenen und minderwertigen Beispielen zu unterscheiden, signifikant über das l-MLLM hinaus verbessert, was zu einem besseren Schüler führt, der insbesondere bei Halluzinations-Benchmarks seinen Lehrer übertrifft. Umfangreiche Experimente zeigen, dass LLaVA-MoD bestehende Modelle in verschiedenen multimodalen Benchmarks übertrifft, während eine minimale Anzahl aktivierter Parameter und geringe Rechenkosten beibehalten werden. Bemerkenswert ist, dass LLaVA-MoD mit nur 2B aktivierten Parametern Qwen-VL-Chat-7B im Durchschnitt um 8,8% übertrifft, wobei lediglich 0,3% der Trainingsdaten und 23% der trainierbaren Parameter verwendet werden. Diese Ergebnisse unterstreichen die Fähigkeit von LLaVA-MoD, umfassendes Wissen effektiv aus seinem Lehrermodell zu destillieren und ebnet den Weg für die Entwicklung effizienterer MLLMs. Der Code wird verfügbar sein unter: https://github.com/shufangxun/LLaVA-MoD.
Bei der Inferenz großer Sprachmodelle (Large Language Model, LLM) wird die Ausgabelänge einer LLM-Anfrage in der Regel als nicht im Voraus bekannt angesehen. Folglich verwenden die meisten LLM-Systeme eine einfache "First-come-first-serve" (FCFS) Zeitplanungsstrategie, die zu Head-Of-Line (HOL) Blockaden und einer verringerten Durchsatzrate und Servicequalität führt. In diesem Paper überprüfen wir diese Annahme erneut - wir zeigen, dass es zwar nicht möglich ist, die genaue Generierungslänge jeder Anfrage vorherzusagen, jedoch die relativen Ränge der Ausgabelängen in einer Stapelverarbeitung von Anfragen mithilfe des Lernens zur Rangordnung vorhergesagt werden können. Die Ranginformationen bieten wertvolle Anleitung für die Zeitplanung von Anfragen. Basierend auf dieser Erkenntnis entwickeln wir einen neuartigen Zeitplaner für LLM-Inferenz und -Service, der den "Shortest-Job-First" (SJF) Zeitplan besser approximieren kann als bestehende Ansätze. Wir integrieren diesen Zeitplaner in das hochmoderne LLM-Service-System und zeigen signifikante Leistungsverbesserungen in mehreren wichtigen Anwendungen: 2,8-fach niedrigere Latenz bei Chatbot-Service und 6,5-fach höherer Durchsatz bei der Generierung synthetischer Daten. Unser Code ist verfügbar unter https://github.com/hao-ai-lab/vllm-ltr.git.
Die Entwicklung von Expertise für große Sprachmodelle (LLMs) zur Lösung von Aufgaben in spezifischen Bereichen erfordert oft eine spezielle Feinabstimmung mit kalibriertem Verhalten auf die erwarteten stabilen Ausgaben. Um die enormen Kosten zu vermeiden, die durch die manuelle Erstellung von Anweisungsdatensätzen und Schulungsressourcen von bis zu Hunderten von Stunden entstehen, dient die Nutzung von offenem Wissen, einschließlich einer Vielzahl von Low-Rank-Adaptationsmodellen (LoRA) und Anweisungsdatensätzen, als guter Ausgangspunkt. Allerdings konzentrieren sich bestehende Methoden zur Modell- und Datenauswahl auf die Leistungsfähigkeit von allgemeinen Fähigkeiten, während sie die Wissenslücke vernachlässigen, die bei der domänenspezifischen Bereitstellung auftritt. In der vorliegenden Studie schlagen wir vor, diese Lücke zu überbrücken, indem wir einige wenige menschenannotierte Beispiele (d.h. K-Shot) einführen, um die Aufgabenerfahrung von LLMs mit offenem Wissen voranzutreiben. Konkret entwickeln wir eine effiziente und skalierbare Pipeline zur kostengünstigen Erstellung von Aufgabenexperten, bei der K-Shot-Daten zur Auswahl der vielversprechendsten Expertenkandidaten und der aufgabenrelevanten Anweisungen eingreifen. Ein Mixture-of-Expert (MoE)-System wird aufgebaut, um das individuelle, jedoch ergänzende Wissen zwischen mehreren Experten optimal zu nutzen. Wir enthüllen die beiden Schlüssel zum Erfolg eines MoE-Systems, 1) die Einhaltung von K-Shot und 2) das Beharren auf Vielfalt. Im ersten Fall stellen wir sicher, dass Modelle, die tatsächlich Problemlösungsfähigkeiten bei K-Shot besitzen, ausgewählt werden, anstatt blinder Rater. Während der Datenauswahl werden Anweisungen priorisiert, die aufgabenrelevante Kontexte mit K-Shot teilen. Im zweiten Fall betonen wir die Vielfalt der konstituierenden Experten und die Feinabstimmungsanweisungen im gesamten Modell- und Datenauswahlprozess. Umfangreiche experimentelle Ergebnisse bestätigen die Überlegenheit unseres Ansatzes gegenüber bestehenden Methoden zur Nutzung von offenem Wissen in verschiedenen Aufgabenbereichen. Codes und Modelle werden später veröffentlicht.
Die Beschleunigung der Abtastgeschwindigkeit von Diffusionsmodellen bleibt eine bedeutende Herausforderung. Aktuelle Score-Destillationsmethoden destillieren ein umfangreiches Lehrermodell in einen Ein-Schritt-Studentengenerator, der optimiert wird, indem der Unterschied zwischen den beiden Score-Funktionen auf den vom Studentenmodell generierten Proben berechnet wird. Es besteht jedoch ein Problem des Score-Mismatches im frühen Stadium des Destillationsprozesses, da bestehende Methoden hauptsächlich darauf abzielen, das Endpunkt von vorab trainierten Diffusionsmodellen als Lehrermodelle zu verwenden und die Bedeutung der Konvergenztrajektorie zwischen dem Studentengenerator und dem Lehrermodell zu übersehen. Um dieses Problem zu lösen, erweitern wir den Score-Destillationsprozess, indem wir die gesamte Konvergenztrajektorie der Lehrermodelle einführen und Distribution Backtracking Distillation (DisBack) zur Destillation von Studentengeneratoren vorschlagen. DisBack besteht aus zwei Phasen: Degradation Recording und Distribution Backtracking. Degradation Recording ist darauf ausgelegt, die Konvergenztrajektorie der Lehrermodelle zu erhalten, indem der Degradationspfad vom trainierten Lehrermodell zum untrainierten anfänglichen Studentengenerator aufgezeichnet wird. Der Degradationspfad stellt implizit die Zwischenverteilungen der Lehrermodelle dar. Anschließend trainiert Distribution Backtracking einen Studentengenerator, um die Zwischenverteilungen rückgängig zu machen und die Konvergenztrajektorie der Lehrermodelle zu approximieren. Umfangreiche Experimente zeigen, dass DisBack eine schnellere und bessere Konvergenz als die bestehende Destillationsmethode erreicht und eine vergleichbare Generierungsleistung erbringt. Insbesondere ist DisBack einfach zu implementieren und kann auf bestehende Destillationsmethoden verallgemeinert werden, um die Leistung zu steigern. Unser Code ist öffentlich verfügbar unter https://github.com/SYZhang0805/DisBack.
Das exponentielle Wachstum der wissenschaftlichen Literatur erfordert fortschrittliche Tools für eine effektive Wissenserforschung. Wir präsentieren Knowledge Navigator, ein System, das entwickelt wurde, um die explorativen Suchfähigkeiten zu verbessern, indem die abgerufenen Dokumente aus breiten thematischen Abfragen in eine navigierbare, zweistufige Hierarchie von benannten und beschreibenden wissenschaftlichen Themen und Unterkategorien organisiert und strukturiert werden. Diese strukturierte Organisation bietet einen Gesamtüberblick über die Forschungsthemen in einem Bereich und ermöglicht gleichzeitig eine iterative Suche und tiefere Wissensentdeckung innerhalb spezifischer Unterkategorien, indem Benutzern ermöglicht wird, ihren Fokus zu verfeinern und zusätzliche relevante Dokumente abzurufen. Knowledge Navigator kombiniert LLM-Fähigkeiten mit clusterbasierten Methoden, um eine effektive Browsermethode zu ermöglichen. Wir zeigen die Wirksamkeit unseres Ansatzes durch automatische und manuelle Bewertungen anhand von zwei neuen Benchmarks, CLUSTREC-COVID und SCITOC. Unser Code, unsere Anfragen und Benchmarks sind öffentlich verfügbar gemacht worden.
Für Mixture-of-Experts (MoE) Modelle führt eine unausgeglichene Expertenlast zu einem Routing-Zusammenbruch oder erhöhtem Rechenaufwand. Gängige Methoden verwenden eine Hilfsverlustfunktion, um eine ausgewogene Last zu fördern, jedoch führt ein großer Hilfsverlust zu nicht zu vernachlässigenden Interferenzgradienten während des Trainings und beeinträchtigt somit die Modellleistung. Um die Lastenausgeglichenheit zu kontrollieren, ohne unerwünschte Gradienten während des Trainings zu erzeugen, schlagen wir Loss-Free Balancing vor, das durch eine Hilfsverlustfreie Lastenausgleichsstrategie gekennzeichnet ist. Konkret wendet Loss-Free Balancing vor der Top-K-Routing-Entscheidung zunächst eine expertenweises Bias auf die Routing-Scores jedes Experten an. Durch die dynamische Aktualisierung des Bias jedes Experten gemäß seiner aktuellen Last kann Loss-Free Balancing kontinuierlich eine ausgewogene Verteilung der Expertenlast aufrechterhalten. Darüber hinaus hebt Loss-Free Balancing aufgrund der fehlenden Erzeugung von Interferenzgradienten auch die Obergrenze der Modellleistung, die aus dem MoE-Training erzielt wird, an. Wir validieren die Leistung von Loss-Free Balancing an MoE-Modellen mit bis zu 3 Milliarden Parametern, die auf bis zu 200 Milliarden Tokens trainiert wurden. Experimentelle Ergebnisse zeigen, dass Loss-Free Balancing im Vergleich zu traditionellen Strategien zur lastenausgeglichenen Steuerung mit Hilfsverlust sowohl eine bessere Leistung als auch eine bessere Lastenausgeglichenheit erzielt.
Während die Mamba-Architektur eine überlegene Inferenzeffizienz und eine wettbewerbsfähige Leistung bei der Verarbeitung natürlicher Sprache mit kurzen Kontexten zeigt, legen empirische Beweise nahe, dass ihre Fähigkeit, lange Kontexte zu erfassen, im Vergleich zu Transformer-Modellen begrenzt ist. In dieser Studie untersuchen wir die Effizienzprobleme von Mamba-Modellen bei langen Kontexten und schlagen ReMamba vor, das die Fähigkeit von Mamba, lange Kontexte zu erfassen, verbessert. ReMamba integriert selektive Kompressions- und Anpassungstechniken in einem zweistufigen Re-Forward-Prozess, wobei minimale zusätzliche Inferenzkosten anfallen. Experimentelle Ergebnisse auf den LongBench- und L-Eval-Benchmarks zeigen die Wirksamkeit von ReMamba, wobei Verbesserungen von jeweils 3,2 und 1,6 Punkten gegenüber den Ausgangswerten erzielt werden und eine Leistung erzielt wird, die fast auf dem Niveau von Transformer-Modellen gleicher Größe liegt.
Wir untersuchen, wie man die Vorhersagemodelle für das nächste Token verbessern kann, um im Kontext des Imitationslernens auf einem realen Roboter zu agieren, bei dem der Roboter neue Aufgaben ausführt, indem er kontextbezogene Informationen interpretiert, die während der Eingabephase bereitgestellt werden, ohne seine zugrunde liegenden Richtlinienparameter zu aktualisieren. Wir schlagen den In-Context Robot Transformer (ICRT) vor, einen kausalen Transformer, der autoregressive Vorhersagen über sensorische Bewegungsbahnen ohne Verwendung von sprachlichen Daten oder Belohnungsfunktionen durchführt. Diese Formulierung ermöglicht eine flexible und trainingsfreie Ausführung neuer Aufgaben zur Testzeit, die durch Aufforderung des Modells mit sensorischen Bewegungsbahnen der neuen Aufgabe erreicht wird, die aus Bildbeobachtungen, Aktionen und Zustandstupeln bestehen, die durch menschliche Fernsteuerung gesammelt wurden. Experimente mit einem Franka Emika Roboter zeigen, dass der ICRT sich an neue Aufgaben anpassen kann, die durch Aufforderungen spezifiziert sind, selbst in Umgebungskonfigurationen, die sich sowohl von der Aufforderung als auch von den Trainingsdaten unterscheiden. In einer Multitask-Umgebung übertrifft der ICRT signifikant aktuelle State-of-the-Art-Modelle für die Vorhersage des nächsten Tokens in der Robotik bei der Verallgemeinerung auf unbekannte Aufgaben. Code, Kontrollpunkte und Daten sind verfügbar unter https://icrt.dev/
Die Verwendung von Teilen bestehender Modelle zum Wiederaufbau neuer Modelle, allgemein als beispielbasierte Modellierung bezeichnet, ist eine klassische Methodik im Bereich der Computergrafik. Frühere Arbeiten konzentrierten sich hauptsächlich auf die Formzusammensetzung, was sie sehr schwer für die realistische Komposition von 3D-Objekten, die aus Szenen der realen Welt erfasst wurden, nutzbar machte. Dies führte dazu, dass mehrere NeRFs zu einer einzigen 3D-Szene kombiniert wurden, um eine nahtlose Erscheinungsmischung zu erreichen. Allerdings hat die aktuelle Methode SeamlessNeRF Schwierigkeiten, interaktive Bearbeitung und harmonisches Zusammennähen für Szenen aus der realen Welt aufgrund ihrer gradientenbasierten Strategie und gitterbasierten Darstellung zu erreichen. Zu diesem Zweck präsentieren wir eine beispielbasierte Modellierungsmethode, die mehrere Gaußsche Felder in einer punktbasierten Darstellung unter Verwendung von samplegeführter Synthese kombiniert. Insbesondere erstellen wir für die Komposition eine grafische Benutzeroberfläche (GUI), um mehrere Felder in Echtzeit zu segmentieren und zu transformieren, wodurch eine semantisch sinnvolle Komposition von Modellen erreicht wird, die durch 3D-Gaußsche Splatting (3DGS) dargestellt werden. Für die Texturvermischung wird aufgrund der diskreten und unregelmäßigen Natur von 3DGS die direkte Anwendung von Gradientenpropagation wie bei SeamlessNeRF nicht unterstützt. Daher wird eine neuartige samplingbasierte Klonungsmethode vorgeschlagen, um die Vermischung zu harmonisieren und gleichzeitig die ursprüngliche reichhaltige Textur und den Inhalt zu bewahren. Unser Workflow besteht aus drei Schritten: 1) Echtzeitsegmentierung und Transformation eines Gaußschen Modells mithilfe einer maßgeschneiderten GUI, 2) KNN-Analyse zur Identifizierung von Randpunkten im Schnittbereich zwischen den Quell- und Zielmodellen und 3) zweiphasige Optimierung des Zielmodells unter Verwendung von samplingbasierter Klonung und Gradientenbeschränkungen. Umfangreiche experimentelle Ergebnisse bestätigen, dass unser Ansatz in Bezug auf realistische Synthese signifikant besser abschneidet als frühere Arbeiten und seine Praktikabilität demonstriert. Weitere Demos sind unter https://ingra14m.github.io/gs_stitching_website verfügbar.
In den letzten Jahren wurden bedeutende Fortschritte bei der Erstellung fotorealistischer und steuerbarer 3D-Avatare ausschließlich aus Videos echter Menschen erzielt. Eine zentrale verbleibende Herausforderung besteht jedoch in der feinkörnigen und benutzerfreundlichen Bearbeitung von Kleidungsstilen anhand von Textbeschreibungen. Zu diesem Zweck präsentieren wir TEDRA, die erste Methode, die textbasierte Bearbeitungen eines Avatars ermöglicht, wobei die hohe Treue, die Raum-Zeit-Kohärenz sowie die Dynamik des Avatars beibehalten werden und die Steuerung der Skelett-Posen und Ansichten ermöglicht wird. Wir beginnen damit, ein Modell zu trainieren, um eine steuerbare und hochwertige digitale Nachbildung des realen Schauspielers zu erstellen. Anschließend personalisieren wir ein vortrainiertes generatives Diffusionsmodell, indem wir es durch Feinabstimmung an verschiedenen Frames des echten Charakters, die aus verschiedenen Kamerawinkeln aufgenommen wurden, anpassen, um sicherzustellen, dass die digitale Darstellung die Dynamik und Bewegungen der realen Person treu wiedergibt. Dieser zweistufige Prozess bildet die Grundlage für unseren Ansatz zur Bearbeitung dynamischer menschlicher Avatare. Unter Verwendung dieses personalisierten Diffusionsmodells modifizieren wir den dynamischen Avatar basierend auf einer bereitgestellten Textanweisung mithilfe unserer Personalized Normal Aligned Score Distillation Sampling (PNA-SDS) innerhalb eines modellbasierten Leitfadenrahmens. Darüber hinaus schlagen wir eine Strategie zur Zeitschritt-Annealierung vor, um hochwertige Bearbeitungen sicherzustellen. Unsere Ergebnisse zeigen eine klare Verbesserung gegenüber früheren Arbeiten in Bezug auf Funktionalität und visuelle Qualität.