Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs), die auf allgemeinen Korpora trainiert wurden, zeigten bemerkenswerte Ergebnisse bei natürlichsprachlichen Verarbeitungsaufgaben (NLP). Frühere Forschungsergebnisse haben jedoch gezeigt, dass LLMs, die mit auf einen bestimmten Bereich fokussierten Korpora trainiert wurden, besser bei spezialisierten Aufgaben abschneiden. Inspiriert von diesem entscheidenden Einblick haben wir INDUS entwickelt, eine umfassende Suite von LLMs, die für die Bereiche Erdwissenschaften, Biologie, Physik, Heliophysik, Planetenwissenschaften und Astrophysik maßgeschneidert sind und mit kuratierten wissenschaftlichen Korpora aus verschiedenen Datenquellen trainiert wurden. Die Modellsuite umfasst: (1) ein Encoder-Modell, das mit domänenspezifischem Vokabular und Korpora trainiert wurde, um Aufgaben des natürlichen Sprachverstehens zu bewältigen, (2) ein auf kontrastivem Lernen basierendes allgemeines Texteinbettungsmodell, das mit einer vielfältigen Datensatzsammlung aus verschiedenen Quellen trainiert wurde, um Informationsabrufaufgaben zu bewältigen, und (3) kleinere Versionen dieser Modelle, die mithilfe von Wissensvermittlungstechniken erstellt wurden, um Anwendungen anzugehen, die Latenzzeiten oder Ressourcenbeschränkungen haben. Darüber hinaus haben wir drei neue wissenschaftliche Benchmark-Datensätze erstellt, nämlich CLIMATE-CHANGE-NER (Entitätenerkennung), NASA-QA (extraktive QA) und NASA-IR (IR), um die Forschung in diesen multidisziplinären Bereichen zu beschleunigen. Schließlich zeigen wir, dass unsere Modelle sowohl allgemeine Encoder (RoBERTa) als auch vorhandene domänenspezifische Encoder (SciBERT) bei diesen neuen Aufgaben sowie bestehenden Benchmark-Aufgaben in den interessierenden Bereichen übertreffen.
Der hohe Speicherverbrauch war ein wesentlicher Engpass bei der Bereitstellung von hochdurchsatzfähigen großen Sprachmodellen in realen Anwendungen. Neben der großen Anzahl von Parametern verbraucht der Schlüssel-Wert (KV)-Cache für den Aufmerksamkeitsmechanismus in der Transformer-Architektur eine erhebliche Menge an Speicher, insbesondere wenn die Anzahl der Schichten bei tiefen Sprachmodellen groß ist. In diesem Artikel schlagen wir eine neuartige Methode vor, die nur die KV-Werte einer kleinen Anzahl von Schichten berechnet und zwischenspeichert, wodurch der Speicherverbrauch erheblich reduziert und die Inferenzdurchsatz verbessert wird. Unsere Experimente mit großen Sprachmodellen zeigen, dass unsere Methode eine bis zu 26-mal höhere Durchsatzrate als Standard-Transformer erreicht und eine wettbewerbsfähige Leistung bei der Sprachmodellierung und bei nachgelagerten Aufgaben erzielt. Darüber hinaus ist unsere Methode orthogonal zu bestehenden Transformer-Speicherspartechniken, sodass es einfach ist, sie mit unserem Modell zu integrieren und so eine weitere Verbesserung der Inferenzeffizienz zu erzielen. Unser Code ist verfügbar unter https://github.com/whyNLP/LCKV.
Das Verständnis, wie sich die Leistung von Sprachmodellen mit der Skalierung verändert, ist entscheidend für Benchmarking und Algorithmusentwicklung. Skalierungsgesetze sind ein Ansatz, um dieses Verständnis aufzubauen, aber die Notwendigkeit, Modelle über viele verschiedene Skalen hinweg zu trainieren, hat ihren Einsatz begrenzt. Wir schlagen einen alternativen, beobachtenden Ansatz vor, der das Modelltraining umgeht und stattdessen Skalierungsgesetze aus etwa 80 öffentlich verfügbaren Modellen erstellt. Das Erstellen eines einzigen Skalierungsgesetzes aus mehreren Modellfamilien ist aufgrund großer Variationen in ihren Trainingseffizienzen und -fähigkeiten herausfordernd. Wir zeigen jedoch, dass diese Variationen mit einem einfachen, verallgemeinerten Skalierungsgesetz übereinstimmen, bei dem die Leistung von Sprachmodellen eine Funktion eines niederdimensionalen Fähigkeitsraums ist und Modellfamilien sich nur in ihrer Effizienz bei der Umwandlung von Trainingsberechnungen in Fähigkeiten unterscheiden. Mit diesem Ansatz zeigen wir die überraschende Vorhersagbarkeit komplexer Skalierungsphänomene: Wir zeigen, dass mehrere emergente Phänomene ein gleichmäßiges, sigmoidales Verhalten aufweisen und von kleinen Modellen vorhersehbar sind; wir zeigen, dass die Agentenleistung von Modellen wie GPT-4 präzise von einfacheren nicht-agentischen Benchmarks vorhergesagt werden kann; und wir zeigen, wie man den Einfluss von post-training Interventionen wie Chain-of-Thought und Selbstkonsistenz vorhersagen kann, während sich die Fähigkeiten von Sprachmodellen weiter verbessern.
Frühere Studien zum Verständnis von 3D-Szenen haben hauptsächlich spezialisierte Modelle für spezifische Aufgaben entwickelt oder erforderten eine aufgabenspezifische Feinabstimmung. In dieser Studie schlagen wir Grounded 3D-LLM vor, das das Potenzial von 3D Large Multi-Modal Models (3D LMMs) erforscht, um verschiedene 3D-Vision-Aufgaben innerhalb eines vereinheitlichten generativen Rahmens zu konsolidieren. Das Modell verwendet Szenenreferenz-Token als spezielle Substantivphrasen, um auf 3D-Szenen zu verweisen, was die Handhabung von Sequenzen ermöglicht, die 3D- und Textdaten miteinander verflechten. Es bietet einen natürlichen Ansatz, um 3D-Vision-Aufgaben in Sprachformate unter Verwendung von aufgaben-spezifischen Anweisungsvorlagen zu übersetzen. Um die Verwendung von Referenz-Token in nachfolgenden Sprachmodellierungen zu erleichtern, haben wir umfangreiche, an Szenen orientierte Sprachdatensätze kuratiert, die eine feinere Szenen-Text-Korrespondenz auf Phrasenebene bieten, indem vorhandene Objektbezeichnungen bootgestrapt werden. Anschließend haben wir Contrastive LAnguage-Scene Pre-training (CLASP) eingeführt, um diese Daten effektiv zu nutzen und somit 3D-Vision mit Sprachmodellen zu integrieren. Unsere umfassende Bewertung umfasst offene Aufgaben wie dichte Bildunterschriften und 3D-Fragen und Antworten, neben geschlossenen Aufgaben wie Objekterkennung und Sprachverankerung. Experimente über mehrere 3D-Benchmarks hinweg zeigen die führende Leistung und die breite Anwendbarkeit von Grounded 3D-LLM. Der Code und die Datensätze werden auf der Projektseite veröffentlicht: https://groundedscenellm.github.io/grounded_3d-llm.github.io.
Große Sprachmodelle (LLMs) haben aufgrund ihrer breiten Anwendungsmöglichkeiten in der natürlichen Sprachverarbeitung (NLP) erhebliche Aufmerksamkeit erlangt. Das Training von LLMs für Sprachen außer Englisch stellt jedoch aufgrund der Schwierigkeiten bei der Beschaffung von großen Korpora und der erforderlichen Rechenressourcen bedeutende Herausforderungen dar. In diesem Papier schlagen wir ChatFlow vor, ein auf Cross-Language-Transfer basierendes LLM, um diesen Herausforderungen zu begegnen und große chinesische Sprachmodelle kostengünstig zu trainieren. Wir verwenden eine Mischung aus chinesischen, englischen und parallelen Korpora, um das LLaMA2-Modell kontinuierlich zu trainieren, mit dem Ziel, cross-sprachliche Repräsentationen auszurichten und den Wissenstransfer speziell auf das chinesische Sprachmodell zu erleichtern. Darüber hinaus verwenden wir einen dynamischen Datensampler, um das Modell schrittweise von unüberwachtem Pre-Training zu überwachtem Feintuning zu überführen. Experimentelle Ergebnisse zeigen, dass unser Ansatz die Konvergenz des Modells beschleunigt und eine überlegene Leistung erzielt. Wir evaluieren ChatFlow anhand beliebter chinesischer und englischer Benchmarks, wobei die Ergebnisse darauf hindeuten, dass es andere chinesische Modelle übertrifft, die auf LLaMA-2-7B nachtrainiert wurden.