Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Diese Arbeit stellt eine effiziente Methode vor, um Transformer-basierte Large Language Models (LLMs) auf unendlich lange Eingaben mit begrenztem Speicher und Rechenleistung zu skalieren. Ein Schlüsselelement unseres vorgeschlagenen Ansatzes ist eine neue Aufmerksamkeitstechnik namens Infini-Attention. Die Infini-Attention integriert einen komprimierten Speicher in den herkömmlichen Aufmerksamkeitsmechanismus und implementiert sowohl maskierte lokale Aufmerksamkeit als auch langfristige lineare Aufmerksamkeitsmechanismen in einem einzigen Transformer-Block. Wir zeigen die Wirksamkeit unseres Ansatzes anhand von Langkontext-Sprachmodellierungs-Benchmarks, 1M-Sequenzlänge Passkey-Kontextblockabruf und 500K-Länge Buchzusammenfassungsaufgaben mit 1B- und 8B-LLMs. Unser Ansatz führt minimale begrenzte Speicherparameter ein und ermöglicht schnelle Streaming-Inferenz für LLMs.
Große Sprachmodelle (LLMs) haben bemerkenswerte Ergebnisse erzielt, aber ihr zunehmender Ressourcenbedarf ist zu einem Hauptproblem bei der Entwicklung leistungsstarker und zugänglicher übermenschlicher Intelligenz geworden. Dieser Bericht stellt JetMoE-8B vor, ein neues LLM, das mit weniger als 0,1 Millionen US-Dollar trainiert wurde, unter Verwendung von 1,25 Billionen Tokens aus sorgfältig gemischten Open-Source-Korpora und 30.000 H100 GPU-Stunden. Trotz der geringen Kosten zeigt JetMoE-8B eine beeindruckende Leistung, wobei JetMoE-8B das Modell Llama2-7B übertrifft und JetMoE-8B-Chat das Modell Llama2-13B-Chat übertrifft. Diese Ergebnisse legen nahe, dass das Training von LLMs viel kosteneffektiver sein kann als allgemein angenommen. JetMoE-8B basiert auf einer effizienten Architektur des spärlich aktivierten Mixture-of-Experts (SMoE), bestehend aus Aufmerksamkeits- und Feedforward-Experten. Beide Schichten sind spärlich aktiviert, was es JetMoE-8B ermöglicht, über 8B-Parameter zu verfügen, während nur 2B für jedes Eingabetoken aktiviert werden, was die Inferenzberechnung im Vergleich zu Llama2-7B um etwa 70% reduziert. Darüber hinaus ist JetMoE-8B sehr offen und akademikerfreundlich, da nur öffentliche Datensätze und Trainingscode verwendet werden. Alle Trainingsparameter und Datengemische wurden in diesem Bericht detailliert beschrieben, um zukünftige Bemühungen bei der Entwicklung offener Grundlagenmodelle zu erleichtern. Diese Transparenz zielt darauf ab, die Zusammenarbeit und weitere Fortschritte auf dem Gebiet der zugänglichen und effizienten LLMs zu fördern. Die Modellgewichte sind öffentlich unter https://github.com/myshell-ai/JetMoE verfügbar.
Der Nadel-im-Heuhaufen (NIAH) Test, der die Fähigkeit untersucht, ein Stück Information (die "Nadel") aus langen Ablenkungstexten (dem "Heuhaufen") abzurufen, wurde weitgehend übernommen, um Langkontext-Sprachmodelle (LMs) zu bewerten. Allerdings ist dieser einfache, auf Abruf basierende Test nur ein Hinweis auf eine oberflächliche Form des Langkontext-Verständnisses. Um eine umfassendere Bewertung von Langkontext-LMs bereitzustellen, haben wir einen neuen synthetischen Benchmark namens RULER mit flexiblen Konfigurationen für benutzerdefinierte Sequenzlängen und Aufgabenkomplexität erstellt. RULER erweitert den herkömmlichen NIAH Test, um Variationen mit verschiedenen Arten und Mengen von Nadeln abzudecken. Darüber hinaus führt RULER neue Aufgabenkategorien wie Mehrfachsprungverfolgung und Aggregation ein, um Verhaltensweisen jenseits der Suche im Kontext zu testen. Wir bewerten zehn Langkontext-LMs mit 13 repräsentativen Aufgaben in RULER. Trotz nahezu perfekter Genauigkeit im herkömmlichen NIAH Test zeigen alle Modelle deutliche Leistungsabfälle mit zunehmender Kontextlänge. Obwohl diese Modelle alle Kontextgrößen von 32K Tokens oder mehr beanspruchen, können nur vier Modelle (GPT-4, Command-R, Yi-34B und Mixtral) eine zufriedenstellende Leistung bei einer Länge von 32K beibehalten. Unsere Analyse von Yi-34B, das Kontextlängen von 200K unterstützt, zeigt einen großen Verbesserungsspielraum, wenn wir die Eingabelänge und die Aufgabenkomplexität erhöhen. Wir stellen RULER als Open Source zur Verfügung, um eine umfassende Bewertung von Langkontext-LMs anzustoßen.
Wir stellen RealmDreamer vor, eine Technik zur Generierung von allgemeinen 3D-Szenen aus Textbeschreibungen. Unsere Technik optimiert eine 3D-Gaußsche Splatting-Repräsentation, um komplexe Texteingaben anzupassen. Wir initialisieren diese Splats, indem wir die modernsten Text-zu-Bild-Generatoren nutzen, ihre Proben in 3D umwandeln und das Okklusionsvolumen berechnen. Anschließend optimieren wir diese Repräsentation über mehrere Ansichten hinweg als 3D-Inpainting-Aufgabe mit bildbedingten Diffusionsmodellen. Um die korrekte geometrische Struktur zu erlernen, integrieren wir ein Tiefen-Diffusionsmodell, das auf den Proben des Inpainting-Modells basiert und eine reichhaltige geometrische Struktur liefert. Schließlich verfeinern wir das Modell unter Verwendung geschärfter Proben von Bildgeneratoren. Bemerkenswert ist, dass unsere Technik keine Video- oder Multi-View-Daten erfordert und eine Vielzahl hochwertiger 3D-Szenen in verschiedenen Stilen synthetisieren kann, die aus mehreren Objekten bestehen. Ihre Allgemeinheit ermöglicht zusätzlich die 3D-Synthese aus einem einzigen Bild.
Wir analysieren, wie gut vorab trainierte große Sprachmodelle (z. B. Llama2, GPT-4, Claude 3 usw.) lineare und nichtlineare Regression durchführen können, wenn sie Beispiele im Kontext erhalten, ohne zusätzliches Training oder Gradientenaktualisierungen. Unsere Ergebnisse zeigen, dass mehrere große Sprachmodelle (z. B. GPT-4, Claude 3) in der Lage sind, Regressionsaufgaben mit einer Leistung durchzuführen, die mit der traditioneller überwachter Methoden wie Random Forest, Bagging oder Gradient Boosting konkurrieren (oder diese sogar übertreffen). Beispielsweise übertrifft Claude 3 auf dem anspruchsvollen Friedman #2 Regressionsdatensatz viele überwachte Methoden wie AdaBoost, SVM, Random Forest, KNN oder Gradient Boosting. Anschließend untersuchen wir, wie gut die Leistung großer Sprachmodelle mit der Anzahl der Beispiele im Kontext skaliert. Wir greifen auf den Begriff des Bedauerns aus dem Online-Lernen zurück und zeigen empirisch, dass große Sprachmodelle in der Lage sind, ein sub-lineares Bedauern zu erzielen.
Vision-Language-Modelle (VLMs) bestehen in der Regel aus einem Vision-Encoder, z.B. CLIP, und einem Sprachmodell (LM), das die codierten Merkmale interpretiert, um nachgelagerte Aufgaben zu lösen. Trotz bemerkenswerter Fortschritte unterliegen VLMs mehreren Mängeln aufgrund der begrenzten Fähigkeiten der Vision-Encoder, z.B. "Blindheit" gegenüber bestimmten Bildmerkmalen, visuelle Halluzinationen usw. Um diese Probleme anzugehen, untersuchen wir die Erweiterung der visuellen Kodierungsfähigkeiten von VLMs. Wir führen zunächst umfassende Tests mehrerer Vision-Encoder mit unterschiedlichen induktiven Verzerrungen zur Lösung von VLM-Aufgaben durch. Wir stellen fest, dass es keine einzelne Kodierungskonfiguration gibt, die konsistent Spitzenleistungen über verschiedene Aufgaben erzielt, und Encoder mit unterschiedlichen Verzerrungen überraschend ähnlich abschneiden können. Motiviert durch diese Erkenntnisse stellen wir eine Methode namens BRAVE vor, die Merkmale aus mehreren eingefrorenen Encodern zu einer vielseitigeren Repräsentation konsolidiert, die direkt als Eingabe für ein eingefrorenes LM verwendet werden kann. BRAVE erzielt Spitzenleistungen bei einer Vielzahl von Bildunterschriften- und VQA-Tests und reduziert signifikant die zuvor genannten Probleme von VLMs, wobei weniger trainierbare Parameter als bestehende Methoden erforderlich sind und eine komprimiertere Repräsentation vorliegt. Unsere Ergebnisse verdeutlichen das Potenzial der Integration unterschiedlicher visueller Verzerrungen für ein breiteres und kontextualisiertes visuelles Verständnis von VLMs.
Die steigende Nachfrage nach Virtual-Reality-Anwendungen hat die Bedeutung der Erstellung immersiver 3D-Assets hervorgehoben. Wir präsentieren einen Text-zu-3D-360^{circ}-Szenengenerierungspipeline, die die Erstellung umfassender 360^{circ}-Szenen für natürliche Umgebungen in kürzester Zeit ermöglicht. Unser Ansatz nutzt die generative Kraft eines 2D-Diffusionsmodells und eine prompte Selbstverfeinerung, um ein hochwertiges und global kohärentes Panoramabild zu erstellen. Dieses Bild fungiert als vorläufige "flache" (2D) Szenendarstellung. Anschließend wird es in 3D-Gaußsche Funktionen umgewandelt, wobei Splatting-Techniken verwendet werden, um eine Echtzeit-Erkundung zu ermöglichen. Um konsistente 3D-Geometrie zu erzeugen, konstruiert unsere Pipeline eine räumlich kohärente Struktur, indem sie die 2D monokulare Tiefe in eine global optimierte Punktewolke ausrichtet. Diese Punktewolke dient als Ausgangszustand für die Zentroide der 3D-Gaußschen Funktionen. Um unsichtbare Probleme anzugehen, die in Einzelansicht-Eingaben inhärent sind, legen wir semantische und geometrische Einschränkungen sowohl auf synthetisierte als auch auf Eingabe-Kamerabilder als Regularisierungen fest. Diese helfen bei der Optimierung der Gaußschen Funktionen und unterstützen die Rekonstruktion nicht sichtbarer Regionen. Zusammenfassend bietet unsere Methode eine global konsistente 3D-Szene aus einer 360^{circ}-Perspektive, die ein verbessertes immersives Erlebnis im Vergleich zu bestehenden Techniken bietet. Projektwebsite unter: http://dreamscene360.github.io/
Diese Arbeit untersucht, ob Decoder-only-Transformer wie LLaMA, die ursprünglich für große Sprachmodelle (LLMs) entwickelt wurden, an das Gebiet der Computer Vision angepasst werden können. Zunächst "LLaMAfizieren" wir einen Standard-ViT Schritt für Schritt, um ihn mit der Architektur von LLaMA in Einklang zu bringen, und stellen fest, dass die direkte Anwendung einer zufälligen Maske auf die Selbst-Aufmerksamkeit zu einem Aufmerksamkeitskollaps führt, der das Netzwerktraining scheitern lässt. Wir schlagen vor, das Klassentoken mit einer Post-Sequenz-Klassentoken-Technik hinter den Bildtokens neu zu positionieren, um diese Herausforderung zu überwinden und eine kausale Selbst-Aufmerksamkeit zu ermöglichen, die effizient die gesamten Bildinformationen erfasst. Darüber hinaus entwickeln wir eine Soft-Maskenstrategie, die schrittweise eine zufällige Maske auf die Selbst-Aufmerksamkeit zu Beginn des Trainings einführt, um das Optimierungsverhalten zu erleichtern. Das maßgeschneiderte Modell, genannt Bild LLaMA (iLLaMA), ähnelt LLaMA in der Architektur und ermöglicht direktes überwachtes Lernen. Seine kausale Selbst-Aufmerksamkeit steigert die Rechenleistung und lernt komplexe Darstellungen, indem sie die Rangfolge der Aufmerksamkeitskarten erhöht. iLLaMA konkurriert in der Leistung mit seinen Encoder-only-Gegenstücken und erreicht eine ImageNet-Top-1-Genauigkeit von 75,1% mit nur 5,7 Millionen Parametern. Durch Skalierung des Modells auf ~310 Millionen und Vor-Training auf ImageNet-21K wird die Genauigkeit weiter auf 86,0% verbessert. Umfangreiche Experimente zeigen die zuverlässigen Eigenschaften von iLLaMA: Kalibrierung, Form-Textur-Bias, Quantisierungskompatibilität, ADE20K-Segmentierung und CIFAR-Transferlernen. Wir hoffen, dass unsere Studie frische Ansichten zur visuellen Modellgestaltung in der Ära der LLMs inspirieren kann. Vorab trainierte Modelle und Codes sind hier verfügbar.
Bestehende Datensätze zur Audioverarbeitung konzentrieren sich hauptsächlich auf Einzelinteraktionen (d.h. Audio-Beschriftung, Audio-Fragen beantworten), um Audio mit natürlicher Sprache zu beschreiben, was die Verständnis von Audio über interaktiven Dialog einschränkt. Um diese Lücke zu schließen, stellen wir Audio-Dialoge vor: einen Mehrfachdialog-Datensatz mit 163,8k Beispielen für allgemeine Audiosounds und Musik. Neben Dialogen enthält Audio-Dialoge auch Frage-Antwort-Paare, um mehrere Eingabeaudios zu verstehen und zu vergleichen. Audio-Dialoge nutzen einen anregungsbasierten Ansatz und Beschriftungsannotationen aus bestehenden Datensätzen, um Mehrfachdialoge mithilfe eines Großen Sprachmodells (LLM) zu generieren. Wir evaluieren bestehende Audio-erweiterte große Sprachmodelle anhand unseres vorgeschlagenen Datensatzes, um die Komplexität und Anwendbarkeit von Audio-Dialogen zu demonstrieren. Unser Code zur Generierung des Datensatzes wird öffentlich zugänglich gemacht. Detaillierte Anregungen und generierte Dialoge finden Sie auf der Demo-Website https://audiodialogues.github.io/.
Der jüngste Erfolg von vortrainierten Grundlagenmodellen für die Verbindung von Bildern und Sprache ermöglicht die Open-Vocabulary Segmentation (OVS). Trotz der vielversprechenden Leistung führt dieser Ansatz zu hohen Rechenlasten aufgrund von zwei Herausforderungen: 1) großen Modellgrößen des Kernmodells; 2) hohen Kosten während des Feinabstimmungsprozesses. Diese Herausforderungen verhindern, dass diese OVS-Strategie weit verbreitet und kostengünstig in realen Szenarien eingesetzt wird. Obwohl traditionelle Methoden wie Modellkompression und effiziente Feinabstimmung diese Herausforderungen bewältigen können, stützen sie sich oft auf Heuristiken. Das bedeutet, dass ihre Lösungen nicht einfach übertragbar sind und ein erneutes Training auf verschiedenen Modellen erfordern, was mit Kosten verbunden ist. Im Kontext einer effizienten OVS zielen wir darauf ab, eine Leistung zu erzielen, die mit oder sogar besser als frühere OVS-Arbeiten basierend auf großen Modellen für die Verbindung von Bildern und Sprache ist, indem wir kleinere Modelle nutzen, die geringere Trainingskosten verursachen. Die Kernstrategie besteht darin, unsere Effizienz methodisch zu gestalten und somit nahtlos von einem OVS-Framework auf andere übertragbar zu machen, ohne weitere Anpassungen vornehmen zu müssen. Umfassende Experimente an verschiedenen OVS-Benchmarks zeigen unseren überlegenen Kompromiss zwischen Segmentierungsgenauigkeit und Rechenkosten im Vergleich zu früheren Arbeiten. Unser Code ist verfügbar unter https://github.com/Xujxyang/OpenTrans