Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren TinyLlama, ein kompaktes Sprachmodell mit 1,1 Milliarden Parametern, das auf etwa 1 Billion Tokens für ungefähr 3 Epochen vortrainiert wurde. Basierend auf der Architektur und dem Tokenizer von Llama 2 nutzt TinyLlama verschiedene Fortschritte, die von der Open-Source-Community beigetragen wurden (z. B. FlashAttention), und erreicht dadurch eine bessere Recheneffizienz. Trotz seiner relativ geringen Größe zeigt TinyLlama bemerkenswerte Leistungen in einer Reihe von Downstream-Aufgaben. Es übertrifft deutlich bestehende Open-Source-Sprachmodelle vergleichbarer Größe. Unsere Modell-Checkpoints und der Code sind öffentlich auf GitHub unter https://github.com/jzhang38/TinyLlama verfügbar.
Die Einführung von ChatGPT hat zu einem signifikanten Anstieg der Nutzung von Large Language Models (LLMs) für die Bearbeitung nachgelagerter Aufgaben geführt. In diesem Zusammenhang liegt ein zunehmender Fokus auf kosteneffizientem Training und Deployment. Günstiges Training und Deployment von LLMs repräsentieren den zukünftigen Entwicklungstrend. Dieses Papier gibt einen Überblick über die Entwicklung von Trainingsmethoden und Inferenz-Deployment-Technologien für große Sprachmodelle, die mit diesem aufkommenden Trend übereinstimmen. Die Diskussion zum Training umfasst verschiedene Aspekte, darunter Datenvorverarbeitung, Trainingsarchitektur, Pre-Training-Aufgaben, paralleles Training sowie relevante Inhalte im Zusammenhang mit der Feinabstimmung von Modellen. Auf der Inferenzseite behandelt das Papier Themen wie Modellkompression, parallele Berechnung, Speicherplanung und strukturelle Optimierung. Es untersucht auch die Nutzung von LLMs und gibt Einblicke in ihre zukünftige Entwicklung.
Menschen erwerben im Allgemeinen neue Fähigkeiten, ohne die alten zu beeinträchtigen; bei Large Language Models (LLMs), wie beispielsweise von LLaMA zu CodeLLaMA, ist jedoch das Gegenteil der Fall. Zu diesem Zweck schlagen wir eine neue Post-Pretraining-Methode für LLMs mit einer Erweiterung von Transformer-Blöcken vor. Wir optimieren die erweiterten Blöcke ausschließlich mit neuen Korpusdaten und verbessern so effizient und effektiv das Wissen des Modells, ohne katastrophales Vergessen zu verursachen. In dieser Arbeit experimentieren wir mit Korpusdaten aus den Bereichen Code und Mathematik und entwickeln LLaMA Pro-8.3B, ein vielseitiges Basismodell, das von LLaMA2-7B initialisiert wurde und in allgemeinen Aufgaben, Programmierung und Mathematik hervorragende Leistungen erbringt. LLaMA Pro und seine instruktionsfolgende Variante (LLaMA Pro-Instruct) erzielen fortgeschrittene Leistungen in verschiedenen Benchmarks und demonstrieren die Überlegenheit gegenüber bestehenden Open-Modellen der LLaMA-Familie sowie das immense Potenzial als intelligenter Agent in der Bewältigung vielfältiger Aufgaben und im logischen Denken. Unsere Erkenntnisse bieten wertvolle Einblicke in die Integration natürlicher und Programmiersprachen und legen eine solide Grundlage für die Entwicklung fortschrittlicher Sprachagenten, die in verschiedenen Umgebungen effektiv agieren können.
Grundlegende Modelle mit Milliarden von Parametern, die auf großen Datenkorpora trainiert wurden, haben nicht-triviale Fähigkeiten in einer Vielzahl von Domänen gezeigt. Aufgrund ihrer monolithischen Struktur ist es jedoch herausfordernd und kostspielig, sie zu erweitern oder neue Fähigkeiten zu vermitteln. Andererseits werden aufgrund ihrer Anpassungsfähigkeiten mehrere neue Instanzen dieser Modelle für neue Domänen und Aufgaben trainiert. In dieser Arbeit untersuchen wir das Problem der effizienten und praktischen Komposition bestehender Grundlagenmodelle mit spezifischeren Modellen, um neue Fähigkeiten zu ermöglichen. Zu diesem Zweck schlagen wir CALM vor – Composition to Augment Language Models –, das Cross-Attention zwischen Modellen einführt, um deren Repräsentationen zu kombinieren und neue Fähigkeiten zu ermöglichen. Wesentliche Merkmale von CALM sind: (i) Es skaliert LLMs für neue Aufgaben durch die „Wiederverwendung“ bestehender LLMs zusammen mit einigen zusätzlichen Parametern und Daten, (ii) Die bestehenden Modellgewichte bleiben unverändert, wodurch bestehende Fähigkeiten erhalten bleiben, und (iii) Es ist auf verschiedene Domänen und Settings anwendbar. Wir zeigen, dass die Erweiterung von PaLM2-S mit einem kleineren Modell, das auf ressourcenarmen Sprachen trainiert wurde, eine absolute Verbesserung von bis zu 13 % bei Aufgaben wie der Übersetzung ins Englische und arithmetischem Denken für ressourcenarme Sprachen bewirkt. Ebenso sehen wir, wenn PaLM2-S mit einem code-spezifischen Modell erweitert wird, eine relative Verbesserung von 40 % gegenüber dem Basismodell für Code-Generierung und Erklärungstasks – auf Augenhöhe mit vollständig feinabgestimmten Gegenstücken.
Das Lernen durch Nachahmung menschlicher Demonstrationen hat beeindruckende Leistungen in der Robotik gezeigt. Die meisten Ergebnisse konzentrieren sich jedoch auf Manipulationen auf Tischplatten und weisen nicht die Mobilität und Geschicklichkeit auf, die für allgemein nützliche Aufgaben erforderlich sind. In dieser Arbeit entwickeln wir ein System zur Nachahmung mobiler Manipulationsaufgaben, die bimanuell sind und eine Ganzkörpersteuerung erfordern. Wir stellen zunächst Mobile ALOHA vor, ein kostengünstiges Teleoperationssystem für die Datenerfassung, das den gesamten Körper einbezieht. Es erweitert das ALOHA-System um eine mobile Basis und eine Ganzkörper-Teleoperationsschnittstelle. Mit den von Mobile ALOHA gesammelten Daten führen wir dann ein überwachtes Verhaltensklonen durch und stellen fest, dass das gemeinsame Training mit vorhandenen statischen ALOHA-Datensätzen die Leistung bei mobilen Manipulationsaufgaben steigert. Mit 50 Demonstrationen für jede Aufgabe kann das gemeinsame Training die Erfolgsquote um bis zu 90 % erhöhen, wodurch Mobile ALOHA in der Lage ist, komplexe mobile Manipulationsaufgaben autonom zu bewältigen, wie z. B. das Anbraten und Servieren einer Garnele, das Öffnen eines zweitürigen Wandschranks zur Aufbewahrung schwerer Kochtöpfe, das Rufen und Betreten eines Aufzugs sowie das leichte Ausspülen einer gebrauchten Pfanne mit einem Küchenwasserhahn. Projektwebsite: https://mobile-aloha.github.io
Dieses Papier stellt instruct-imagen vor, ein Modell, das heterogene Bildgenerierungsaufgaben bewältigt und sich auf unbekannte Aufgaben verallgemeinert. Wir führen *multi-modale Instruktionen* für die Bildgenerierung ein, eine Aufgabenrepräsentation, die eine Vielzahl von Generierungsabsichten präzise artikuliert. Es verwendet natürliche Sprache, um unterschiedliche Modalitäten (z. B. Text, Kanten, Stil, Subjekt usw.) zu vereinen, sodass zahlreiche Generierungsabsichten in einem einheitlichen Format standardisiert werden können. Anschließend entwickeln wir instruct-imagen, indem wir ein vortrainiertes Text-zu-Bild-Diffusionsmodell mit einem zweistufigen Framework feinabstimmen. Zunächst passen wir das Modell mithilfe des retrieval-augmentierten Trainings an, um die Fähigkeiten des Modells zu verbessern, seine Generierung auf externen multimodalen Kontext zu stützen. Danach feinabstimmen wir das angepasste Modell auf verschiedene Bildgenerierungsaufgaben, die ein Verständnis von Vision und Sprache erfordern (z. B. subjektgesteuerte Generierung usw.), wobei jede Aufgabe mit einer multi-modalen Instruktion gepaart ist, die das Wesen der Aufgabe zusammenfasst. Menschliche Bewertungen auf verschiedenen Bildgenerierungsdatensätzen zeigen, dass instruct-imagen frühere aufgabenspezifische Modelle im Bereich der Domäne erreicht oder übertrifft und vielversprechende Generalisierungsfähigkeiten für unbekannte und komplexere Aufgaben aufweist.
In diesem Artikel stellen wir LLaVA-phi (LLaVA-Phi) vor, einen effizienten multimodalen Assistenten, der die Leistungsfähigkeit des kürzlich weiterentwickelten kleinen Sprachmodells Phi-2 nutzt, um multimodale Dialoge zu ermöglichen. LLaVA-Phi markiert einen bemerkenswerten Fortschritt im Bereich kompakter multimodaler Modelle. Es zeigt, dass selbst kleinere Sprachmodelle mit nur 2,7 Milliarden Parametern effektiv an komplexen Dialogen teilnehmen können, die sowohl textuelle als auch visuelle Elemente integrieren, vorausgesetzt, sie werden mit hochwertigen Korpora trainiert. Unser Modell liefert beachtliche Leistungen auf öffentlich verfügbaren Benchmarks, die visuelles Verständnis, logisches Denken und wissensbasierte Wahrnehmung umfassen. Neben seiner bemerkenswerten Leistung in multimodalen Dialogaufgaben eröffnet unser Modell neue Anwendungsmöglichkeiten in zeitkritischen Umgebungen und Systemen, die Echtzeitinteraktion erfordern, wie beispielsweise verkörperte Agenten. Es unterstreicht das Potenzial kleinerer Sprachmodelle, ein hohes Maß an Verständnis und Interaktion zu erreichen, während gleichzeitig eine größere Ressourceneffizienz gewährleistet wird. Das Projekt ist verfügbar unter {https://github.com/zhuyiche/llava-phi}.
3D-bewusste Generative Adversarial Networks (GANs) haben bemerkenswerte Fortschritte beim Lernen der Generierung von multiview-konsistenten Bildern und 3D-Geometrien von Szenen aus Sammlungen von 2D-Bildern mittels neuronaler Volumenrendering gezeigt. Dennoch haben die erheblichen Speicher- und Rechenkosten der dichten Abtastung beim Volumenrendering 3D-GANs dazu gezwungen, patch-basiertes Training zu verwenden oder Low-Resolution-Rendering mit nachgelagerter 2D-Superauflösung einzusetzen, was die Multiview-Konsistenz und die Qualität der aufgelösten Geometrie beeinträchtigt. Folglich konnten 3D-GANs die reichhaltige 3D-Geometrie, die in 2D-Bildern vorhanden ist, noch nicht vollständig auflösen. In dieser Arbeit schlagen wir Techniken vor, um das neuronale Volumenrendering auf die viel höhere Auflösung nativer 2D-Bilder zu skalieren und dadurch fein abgestufte 3D-Geometrie mit beispiellosem Detailreichtum aufzulösen. Unser Ansatz verwendet lernbasierte Sampler zur Beschleunigung des neuronalen Renderings für das 3D-GAN-Training unter Verwendung von bis zu 5-mal weniger Tiefenproben. Dies ermöglicht es uns, explizit „jeden Pixel“ des hochauflösenden Bildes während des Trainings und der Inferenz zu rendern, ohne eine nachgelagerte 2D-Superauflösung. Zusammen mit unserer Strategie zum Erlernen hochwertiger Oberflächengeometrie synthetisiert unsere Methode hochauflösende 3D-Geometrie und streng sichtkonsistente Bilder, während die Bildqualität auf dem Niveau von Baselines bleibt, die auf nachgelagerter Superauflösung basieren. Wir demonstrieren state-of-the-art 3D-geometrische Qualität auf FFHQ und AFHQ und setzen damit einen neuen Standard für das unüberwachte Lernen von 3D-Formen in 3D-GANs.
State-of-the-art-Modelle auf zeitgenössischen 3D-Wahrnehmungsbenchmarks wie ScanNet verarbeiten und beschriften bereitgestellte 3D-Punktwolken aus Datensätzen, die durch Nachbearbeitung von erfassten multiview RGB-D-Bildern gewonnen werden. Sie werden typischerweise in-domain trainiert, verzichten auf groß angelegtes 2D-Pre-Training und übertreffen Alternativen, die die gerichteten RGB-D-Multiview-Bilder anstelle der 3D-Punktwolken verarbeiten. Die Leistungslücke zwischen Methoden, die gerichtete Bilder gegenüber nachbearbeiteten 3D-Punktwolken verwenden, hat die Ansicht gefördert, dass 2D- und 3D-Wahrnehmung unterschiedliche Modellarchitekturen erfordern. In diesem Papier stellen wir diese Ansicht in Frage und schlagen ODIN (Omni-Dimensional INstance Segmentation) vor, ein Modell, das sowohl 2D-RGB-Bilder als auch 3D-Punktwolken segmentieren und beschriften kann, indem es eine Transformer-Architektur verwendet, die zwischen 2D-Within-View- und 3D-Cross-View-Informationsfusion wechselt. Unser Modell unterscheidet 2D- und 3D-Feature-Operationen durch die Positionskodierungen der beteiligten Tokens, die Pixelkoordinaten für 2D-Patch-Tokens und 3D-Koordinaten für 3D-Feature-Tokens erfassen. ODIN erreicht state-of-the-art-Leistung auf den 3D-Instanzsegmentierungsbenchmarks ScanNet200, Matterport3D und AI2THOR sowie wettbewerbsfähige Leistung auf ScanNet, S3DIS und COCO. Es übertrifft alle bisherigen Arbeiten mit großem Abstand, wenn die erfasste 3D-Punktwolke anstelle der aus einem 3D-Mesh abgetasteten Punktwolke verwendet wird. Wenn es als 3D-Wahrnehmungsengine in einer instruierbaren Embodied-Agent-Architektur eingesetzt wird, setzt es einen neuen State-of-the-art auf dem TEACh-Action-from-Dialogue-Benchmark. Unser Code und unsere Checkpoints finden sich auf der Projektwebsite: https://odin-seg.github.io.
Das Erlernen von 3D-Modellen aller Tiere auf der Erde erfordert eine massive Skalierung bestehender Lösungen. Mit diesem ultimativen Ziel vor Augen entwickeln wir 3D-Fauna, einen Ansatz, der ein pan-kategoriales, verformbares 3D-Tiermodell für mehr als 100 Tierarten gemeinsam erlernt. Ein entscheidender Engpass bei der Modellierung von Tieren ist die begrenzte Verfügbarkeit von Trainingsdaten, den wir überwinden, indem wir einfach aus 2D-Internetbildern lernen. Wir zeigen, dass bisherige kategorie-spezifische Ansätze scheitern, wenn sie auf seltene Arten mit begrenzten Trainingsbildern verallgemeinert werden sollen. Diese Herausforderung adressieren wir durch die Einführung der Semantic Bank of Skinned Models (SBSM), die automatisch eine kleine Menge von Basis-Tierformen entdeckt, indem sie geometrische induktive Prioritäten mit semantischem Wissen kombiniert, das implizit von einem vorgefertigten, selbstüberwachten Merkmalsextraktor erfasst wird. Um ein solches Modell zu trainieren, stellen wir auch einen neuen groß angelegten Datensatz mit verschiedenen Tierarten bereit. Zum Zeitpunkt der Inferenz rekonstruiert unser Modell aus einem einzelnen Bild eines beliebigen Vierbeiners in Sekundenschnelle ein artikuliertes 3D-Mesh in einem Feed-Forward-Verfahren.
Das Aufkommen von Large Language Models (LLMs) wie ChatGPT und LLaMA stößt bei domänenspezifischen Aufgaben an Grenzen, da diese Modelle oft an Tiefe und Genauigkeit in spezialisierten Bereichen mangeln und eine Abnahme der allgemeinen Fähigkeiten zeigen, insbesondere bei der Analysefähigkeit in kleineren Modellen, wenn sie feinabgestimmt werden. Um diese Lücken zu schließen, führen wir ICE-GRT ein, das Reinforcement Learning from Human Feedback (RLHF) auf der Grundlage von Proximal Policy Optimization (PPO) nutzt und bemerkenswerte Fähigkeiten in domänenspezifischen Szenarien zeigt, ohne die Leistung bei allgemeinen Aufgaben zu beeinträchtigen. Unsere Untersuchung von ICE-GRT hebt sein Verständnis und seine Fähigkeit zur logischen Schlussfolgerung hervor, nicht nur robuste Antworten zu generieren, sondern auch detaillierte Analysen der Gründe hinter der Antwort zu liefern. Diese Fähigkeit markiert einen bedeutenden Fortschritt über den Rahmen von Supervised Fine-Tuning-Modellen hinaus. Der Erfolg von ICE-GRT hängt von mehreren entscheidenden Faktoren ab, darunter angemessene Daten, Skalierung der Belohnungsgröße, KL-Kontrolle, Vorteilsnormalisierung usw. Das ICE-GRT-Modell zeigt state-of-the-art-Leistung bei domänenspezifischen Aufgaben und über 12 allgemeinen Sprachaufgaben im Vergleich zu LLMs gleicher und sogar größerer Größe, was die Wirksamkeit unseres Ansatzes unterstreicht. Wir bieten eine umfassende Analyse von ICE-GRT, die die bedeutenden Fortschritte hervorhebt, die es im Bereich der LLM bringt.
Diffusionsmodelle stellen eine neue Klasse von generativen Modellen dar und haben die Bildgenerierung mit beispielloser Qualität und Vielfalt deutlich vorangetrieben. Bisherige Diffusionsmodelle versuchen hauptsächlich, ein Eingabebild aus einem beschädigten Bild unter Verwendung von pixel- oder feature-basierten Einschränkungen entlang der räumlichen Achsen zu rekonstruieren. Eine solche punktbasierte Rekonstruktion kann jedoch dazu führen, dass jeder vorhergesagte Pixel/Feature seinen umgebenden Kontext nicht vollständig bewahrt, was die diffusionsbasierte Bildsynthese beeinträchtigt. Als mächtige Quelle für automatische Überwachungssignale wurde Kontext bereits umfassend für das Lernen von Repräsentationen untersucht. Inspiriert davon schlagen wir erstmals ConPreDiff vor, um die diffusionsbasierte Bildsynthese durch Kontextvorhersage zu verbessern. Wir verstärken explizit jeden Punkt, um seinen umgebenden Kontext (d.h. mehrstufige Features/Tokens/Pixel) mit einem Kontext-Decoder am Ende der Diffusions-Entrauschungsblöcke während der Trainingsphase vorherzusagen, und entfernen den Decoder für die Inferenz. Auf diese Weise kann jeder Punkt sich selbst besser rekonstruieren, indem er seine semantischen Verbindungen mit dem umgebenden Kontext bewahrt. Dieses neue Paradigma von ConPreDiff kann auf beliebige diskrete und kontinuierliche Diffusions-Backbones verallgemeinert werden, ohne zusätzliche Parameter im Sampling-Prozess einzuführen. Umfangreiche Experimente wurden für die unbedingte Bildgenerierung, Text-zu-Bild-Generierung und Bildinpainting-Aufgaben durchgeführt. Unser ConPreDiff übertrifft durchweg frühere Methoden und erreicht neue State-of-the-Art-Ergebnisse bei der Text-zu-Bild-Generierung auf MS-COCO mit einem Zero-Shot-FID-Score von 6,21.
Die präzise Wahrnehmung der geometrischen und semantischen Eigenschaften realer 3D-Objekte ist entscheidend für die Weiterentwicklung von Augmented Reality und robotischen Anwendungen. Zu diesem Zweck präsentieren wir (), das Vision-Language-Embeddings von Foundation-Modellen in 3D Gaussian Splatting (GS) integriert. Der wesentliche Beitrag dieser Arbeit ist eine effiziente Methode zur Rekonstruktion und Darstellung von 3D-Vision-Language-Modellen. Dies wird erreicht, indem Feature-Maps, die aus bildbasierten Foundation-Modellen generiert werden, in diejenigen destilliert werden, die aus unserem 3D-Modell gerendert werden. Um hochwertiges Rendering und schnelles Training zu gewährleisten, führen wir eine neuartige Szenendarstellung ein, die die Stärken von GS und Multi-Resolution Hash Encodings (MHE) kombiniert. Unser effektives Trainingsverfahren führt zudem einen Pixel-Alignment-Loss ein, der den gerenderten Feature-Abstand semantisch gleicher Entitäten nahe hält und dabei die pixelgenauen semantischen Grenzen berücksichtigt. Unsere Ergebnisse zeigen eine bemerkenswerte Multi-View-Semantikkonsistenz, die vielfältige nachgelagerte Aufgaben erleichtert und state-of-the-art Methoden bei der open-vocabulary sprachbasierten Objekterkennung um 10,2 Prozent übertrifft, obwohl wir 851-mal schneller in der Inferenz sind. Diese Forschung erkundet die Schnittstelle von Vision, Sprache und 3D-Szenendarstellung und ebnet den Weg für ein verbessertes Szenenverständnis in unkontrollierten realen Umgebungen. Wir planen, den Code nach Annahme des Papers zu veröffentlichen.
Visuelles Denken wird derzeit von end-to-end neuronalen Netzen dominiert, die auf Milliarden von Modellparametern und Trainingsbeispielen skaliert sind. Allerdings haben selbst die größten Modelle Schwierigkeiten mit kompositionellem Denken, Generalisierung, feinkörnigem räumlichem und zeitlichem Denken sowie Zählen. Visuelles Denken mit großen Sprachmodellen (LLMs) als Steuerungseinheiten kann diese Einschränkungen prinzipiell überwinden, indem die Aufgabe zerlegt und Teilaufgaben durch die Orchestrierung einer Reihe von (visuellen) Werkzeugen gelöst werden. Kürzlich erzielten diese Modelle hervorragende Leistungen bei Aufgaben wie kompositionellem visuellem Frage-Antworten, visueller Verankerung und zeitlichem Denken in Videos. Dennoch sind diese Modelle in ihrer aktuellen Form stark auf die menschliche Gestaltung von In-Context-Beispielen im Prompt angewiesen, die oft datensatz- und aufgabenspezifisch sind und erhebliche Arbeit von hochqualifizierten Programmierern erfordern. In dieser Arbeit präsentieren wir ein Framework, das diese Probleme durch die Einführung räumlich und zeitlich abstrakter Routinen sowie durch die Nutzung einer kleinen Anzahl von gelabelten Beispielen zur automatischen Generierung von In-Context-Beispielen mildert, wodurch die Notwendigkeit menschlich erstellter In-Context-Beispiele entfällt. Bei einer Reihe von visuellen Denkaufgaben zeigen wir, dass unser Framework zu konsistenten Leistungssteigerungen führt, die LLM-basierte Steuerung robuster macht und den Bedarf an menschlicher Gestaltung von In-Context-Beispielen beseitigt.