Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir setzen die Untersuchung der Leistungsfähigkeit kleinerer Transformer-basierter Sprachmodelle fort, die mit TinyStories begonnen wurde – einem Modell mit 10 Millionen Parametern, das kohärentes Englisch erzeugen kann – und der darauf aufbauenden Arbeit zu phi-1, einem Modell mit 1,3 Milliarden Parametern, dessen Python-Codierleistung nahe am Stand der Technik liegt. Letztere Arbeit schlug vor, bestehende Large Language Models (LLMs) zur Erzeugung von „Lehrbuchqualität“-Daten zu nutzen, um den Lernprozess im Vergleich zu traditionellen Webdaten zu verbessern. Wir folgen dem Ansatz „Textbooks Are All You Need“ und konzentrieren uns diesmal auf gesunden Menschenverstand in natürlicher Sprache. Dabei entwickeln wir ein neues Modell mit 1,3 Milliarden Parametern namens phi-1.5, dessen Leistung bei natürlichen Sprachaufgaben mit Modellen vergleichbar ist, die fünfmal größer sind, und das die meisten nicht führenden LLMs bei komplexeren Denkaufgaben wie Grundschulmathematik und einfacher Codierung übertrifft. Allgemein zeigt phi-1.5 viele Merkmale deutlich größerer LLMs, sowohl positive – wie die Fähigkeit, „Schritt für Schritt zu denken“ oder rudimentäres In-Context-Lernen durchzuführen – als auch negative, einschließlich Halluzinationen und dem Potenzial für toxische und voreingenommene Generierungen. Ermutigenderweise sehen wir jedoch Verbesserungen in diesem Bereich dank des Fehlens von Webdaten. Wir stellen phi-1.5 als Open Source zur Verfügung, um die weitere Forschung zu diesen dringenden Themen zu fördern.
Während Multimodale Große Sprachmodelle (MM-LLMs) in letzter Zeit bedeutende Fortschritte gemacht haben, leiden sie meist unter der Einschränkung, nur multimodales Verständnis auf der Eingabeseite zu ermöglichen, ohne die Fähigkeit, Inhalte in mehreren Modalitäten zu erzeugen. Da wir Menschen die Welt stets durch verschiedene Modalitäten wahrnehmen und mit anderen kommunizieren, wird die Entwicklung von any-to-any MM-LLMs, die in der Lage sind, Inhalte in beliebigen Modalitäten zu akzeptieren und zu liefern, entscheidend für KI auf menschlichem Niveau. Um diese Lücke zu schließen, präsentieren wir ein end-to-end allgemeines any-to-any MM-LLM-System, NExT-GPT. Wir verbinden ein LLM mit multimodalen Adaptern und verschiedenen Diffusionsdekodern, wodurch NExT-GPT in der Lage ist, Eingaben wahrzunehmen und Ausgaben in beliebigen Kombinationen von Text, Bildern, Videos und Audio zu erzeugen. Durch die Nutzung bereits gut trainierter, hochleistungsfähiger Encoder und Decoder wird NExT-GPT mit nur einer geringen Anzahl von Parametern (1%) bestimmter Projektionsschichten feinabgestimmt, was nicht nur kostengünstiges Training ermöglicht, sondern auch eine bequeme Erweiterung auf weitere potenzielle Modalitäten erleichtert. Darüber hinaus führen wir ein Modality-Switching Instruction Tuning (MosIT) ein und kuratieren manuell einen hochwertigen Datensatz für MosIT, auf dessen Grundlage NExT-GPT mit komplexem cross-modalem semantischem Verständnis und Inhaltsgenerierung ausgestattet wird. Insgesamt zeigt unsere Forschung die vielversprechende Möglichkeit auf, einen KI-Agenten zu entwickeln, der universelle Modalitäten modellieren kann, und ebnet den Weg für menschenähnlichere KI-Forschung in der Community.
Wir stellen MADLAD-400 vor, ein manuell geprüftes, allgemeines monolinguales Datenset mit 3T Tokens, das auf CommonCrawl basiert und 419 Sprachen umfasst. Wir diskutieren die durch Selbstprüfung von MADLAD-400 aufgedeckten Einschränkungen sowie die Rolle der Datenprüfung im Prozess der Datenset-Erstellung. Anschließend trainieren und veröffentlichen wir ein multilinguales maschinelles Übersetzungsmodell mit 10,7 Milliarden Parametern auf 250 Milliarden Tokens, das über 450 Sprachen abdeckt und öffentlich verfügbare Daten nutzt. Wir stellen fest, dass es mit deutlich größeren Modellen konkurrieren kann und berichten die Ergebnisse in verschiedenen Domänen. Zusätzlich trainieren wir ein Sprachmodell mit 8 Milliarden Parametern und bewerten die Ergebnisse im Few-Shot-Übersetzen. Wir stellen die Basismodelle der Forschungsgemeinschaft zur Verfügung.
In dieser Arbeit verwenden wir große Sprachmodelle (LLMs), um die Forschung zum P-versus-NP-Problem, einem der wichtigsten offenen Probleme in der theoretischen Informatik und Mathematik, zu erweitern und zu beschleunigen. Insbesondere schlagen wir das sokratische Denken vor, einen allgemeinen Rahmen, der tiefgehendes Denken mit LLMs für komplexe Problemlösungen fördert. Das sokratische Denken ermutigt LLMs dazu, Probleme rekursiv zu entdecken, zu lösen und zu integrieren, während es gleichzeitig Selbstbewertung und Verfeinerung erleichtert. Unsere Pilotstudie zum P-versus-NP-Problem zeigt, dass GPT-4 erfolgreich ein Beweisschema erstellt und sich in 97 Dialogschritten an strengem Denken beteiligt, wobei es zu dem Schluss kommt, dass „P ≠ NP“ ist, was mit (Xu und Zhou, 2023) übereinstimmt. Die Untersuchung deckt neue Erkenntnisse im umfangreichen Lösungsraum von LLMs auf und wirft Licht auf den Einsatz von LLMs in der Wissenschaft.
Wir analysieren eine Familie von großen Sprachmodellen auf eine so leichtgewichtige Weise, dass dies auf einer einzelnen GPU durchgeführt werden kann. Konkret konzentrieren wir uns auf die OPT-Modellfamilie, die von 125 Millionen bis zu 66 Milliarden Parametern reicht, und stützen uns dabei ausschließlich darauf, ob ein FFN-Neuron aktiviert ist oder nicht. Zunächst stellen wir fest, dass der frühe Teil des Netzwerks spärlich besetzt ist und viele diskrete Merkmale repräsentiert. Hier sind viele Neuronen (in einigen Schichten des 66-Milliarden-Modells mehr als 70 %) „tot“, d. h. sie werden bei einer großen Sammlung von diversen Daten nie aktiviert. Gleichzeitig sind viele der aktiven Neuronen für diskrete Merkmale reserviert und fungieren als Token- und N-Gramm-Detektoren. Interessanterweise fördern ihre entsprechenden FFN-Aktualisierungen nicht nur, wie zu erwarten wäre, die nächsten Token-Kandidaten, sondern konzentrieren sich auch explizit darauf, die Informationen über die sie auslösenden Token, d. h. die aktuellen Eingaben, zu entfernen. Nach unserem besten Wissen ist dies das erste Beispiel für Mechanismen, die spezialisiert darauf sind, Informationen aus dem Residualstrom zu entfernen (anstatt sie hinzuzufügen). Mit zunehmender Skalierung werden die Modelle in dem Sinne spärlicher, dass sie mehr tote Neuronen und Token-Detektoren aufweisen. Schließlich gibt es einige Neuronen, die positionsabhängig sind: Ihre Aktivierung hängt weitgehend (oder ausschließlich) von der Position und weniger (oder gar nicht) von den Textdaten ab. Wir stellen fest, dass kleinere Modelle Gruppen von Neuronen haben, die als Positionsbereichsindikatoren fungieren, während größere Modelle auf eine weniger explizite Weise arbeiten.
Große Mengen an Textdaten haben in den letzten Jahren maßgeblich zur Entwicklung von großen Sprachmodellen (LLMs) beigetragen. Diese Daten werden typischerweise durch das Scraping des Internets erworben, was zu Vorverarbeitungsdatensätzen führt, die aus verrauschtem Webtext bestehen. Bislang basierten Bemühungen, diese Datensätze auf eine qualitativ hochwertigere Teilmenge zu reduzieren, auf handgefertigten Heuristiken, die als regelbasierte Filter kodiert wurden. In dieser Arbeit nehmen wir eine breitere Perspektive ein und untersuchen skalierbare Schätzungen der Datenqualität, die systematisch zur Messung der Qualität von Vorverarbeitungsdaten verwendet werden können. Wir führen einen umfangreichen Vergleich des einfachen Datenqualitätsschätzers Perplexität sowie anspruchsvollerer und rechenintensiver Schätzungen der Fehler-L2-Norm und der Memorisierung durch. Diese Metriken werden verwendet, um Vorverarbeitungskorpora zu bewerten und zu reduzieren, und wir vergleichen anschließend LLMs, die auf diesen reduzierten Datensätzen trainiert wurden. Überraschenderweise stellen wir fest, dass die einfache Technik der Perplexität unsere rechenintensiveren Bewertungsmethoden übertrifft. Wir verbessern unsere Baseline ohne Reduktion, während wir mit nur 30 % des ursprünglichen Trainingsdatensatzes trainieren. Unsere Arbeit legt die Grundlage für unerforschte Strategien zur automatischen Kuratierung hochwertiger Korpora und deutet darauf hin, dass der Großteil der Vorverarbeitungsdaten entfernt werden kann, ohne die Leistung zu beeinträchtigen.
Transformer haben sich zum dominierenden Modell im Deep Learning entwickelt, doch die Gründe für ihre überlegene Leistungsfähigkeit sind nur unzureichend verstanden. Hier stellen wir die Hypothese auf, dass die starke Leistung von Transformern auf einer architektonischen Verzerrung zugunsten von Mesa-Optimierung beruht, einem gelernten Prozess, der innerhalb des Vorwärtsdurchlaufs eines Modells abläuft und aus den folgenden zwei Schritten besteht: (i) die Konstruktion eines internen Lernziels und (ii) dessen entsprechende Lösung durch Optimierung. Um diese Hypothese zu testen, reverse-engineeren wir eine Reihe von autoregressiven Transformern, die auf einfachen Sequenzmodellierungsaufgaben trainiert wurden, und decken zugrunde liegende gradientenbasierte Mesa-Optimierungsalgorithmen auf, die die Generierung von Vorhersagen antreiben. Darüber hinaus zeigen wir, dass der gelernte Optimierungsalgorithmus im Vorwärtsdurchlauf sofort zur Lösung von überwachten Few-Shot-Aufgaben umfunktioniert werden kann, was darauf hindeutet, dass Mesa-Optimierung die In-Context-Lernfähigkeiten großer Sprachmodelle unterstreichen könnte. Schließlich schlagen wir eine neuartige Self-Attention-Schicht, die Mesa-Schicht, vor, die Optimierungsprobleme, die im Kontext spezifiziert sind, explizit und effizient löst. Wir stellen fest, dass diese Schicht zu verbesserten Leistungen in synthetischen und vorläufigen Sprachmodellierungsexperimenten führen kann, was unsere Hypothese untermauert, dass Mesa-Optimierung eine wichtige Operation ist, die in den Gewichten trainierter Transformer verborgen ist.
Große Sprachmodelle (LLMs) haben ihre außergewöhnlichen Fähigkeiten bei der Bewältigung sprachbezogener Aufgaben unter Beweis gestellt. Ihre Bereitstellung stellt jedoch aufgrund des erheblichen Speicher- und Speicherplatzbedarfs erhebliche Herausforderungen dar. Als Reaktion auf dieses Problem hat sich die Gewichtsquantisierung, insbesondere die 3- und 4-Bit-Gewichtsquantisierung, als eine der vielversprechendsten Lösungen herausgestellt. Mit abnehmender Bitanzahl weitet sich das Quantisierungsgitter, was die Bedeutung von Auf- und Abrundung unterstreicht. Während frühere Studien gezeigt haben, dass die Feinabstimmung von Auf- und Abrundung durch die Hinzufügung von Störungen die Genauigkeit in einigen Szenarien verbessern kann, wird unsere Studie durch die präzise und begrenzte Grenze dieser Störungen motiviert, bei der nur der Schwellenwert für die Änderung des Rundungswerts von Bedeutung ist. Folglich schlagen wir einen prägnanten und äußerst effektiven Ansatz zur Optimierung der Gewichtsrundung vor. Unsere Methode, genannt SignRound, beinhaltet eine leichtgewichtige blockweise Feinabstimmung unter Verwendung des Gradientenabstiegs mit Vorzeichen, wodurch wir hervorragende Ergebnisse in weniger als 400 Schritten erzielen können. SignRound übertrifft die etablierte Baseline der Rundung zum nächsten Wert (RTN) und kann sich beeindruckend gegen neuere Methoden behaupten, ohne zusätzlichen Inferenzaufwand zu verursachen. Der Quellcode wird demnächst unter https://github.com/intel/neural-compressor öffentlich verfügbar sein.
Audio-Sprachmodelle lernen gemeinsam multimodale Text- und Audio-Repräsentationen, die Zero-Shot-Inferenz ermöglichen. Die Modelle stützen sich auf Encoder, um leistungsstarke Repräsentationen der Eingabe zu erstellen und sich auf verschiedene Aufgaben wie Geräusche, Musik und Sprache zu verallgemeinern. Obwohl die Modelle bemerkenswerte Leistungen erzielt haben, besteht weiterhin eine Leistungslücke zu aufgabenspezifischen Modellen. In diesem Artikel schlagen wir ein Contrastive Language-Audio Pretraining-Modell vor, das mit einer vielfältigen Sammlung von 4,6 Millionen Audio-Text-Paaren unter Verwendung von zwei innovativen Encodern für Zero-Shot-Inferenz vortrainiert wird. Um Audio-Repräsentationen zu lernen, haben wir einen Audio-Encoder auf 22 Audio-Aufgaben trainiert, anstatt auf die Standard-Schulung zur Klassifizierung von Schallereignissen. Um Sprachrepräsentationen zu lernen, haben wir ein autoregressives, nur auf Decodern basierendes Modell trainiert, anstatt der Standard-Encoder-Modelle. Anschließend werden die Audio- und Sprachrepräsentationen mithilfe von Contrastive Learning in einen gemeinsamen multimodalen Raum gebracht. Wir haben unsere Encoder verwendet, um die nachgelagerte Leistung deutlich zu verbessern. Wir haben die Generalisierung unserer Repräsentationen umfassend auf 26 nachgelagerten Aufgaben evaluiert, der größten Anzahl in der Literatur. Unser Modell erzielt in mehreren Aufgaben state-of-the-art-Ergebnisse und ebnet den Weg für allgemeine Audio-Repräsentationen.
Das Einbetten von polygonalen Netz-Assets in fotorealistische Neural Radiance Fields (NeRF)-Volumen, sodass sie gerendert und ihre Dynamik in physikalisch konsistenter Weise mit dem NeRF simuliert werden können, ist aus der Systemperspektive der Integration von NeRF in die traditionelle Grafikpipeline noch wenig erforscht. Dieses Papier entwirft eine bidirektionale Kopplung zwischen Netz und NeRF während des Renderns und der Simulation. Zunächst überprüfen wir die Lichttransportgleichungen für sowohl Netz als auch NeRF und destillieren sie in einen effizienten Algorithmus zur Aktualisierung von Radianz und Durchsatz entlang eines geworfenen Strahls mit einer beliebigen Anzahl von Abprallern. Um die Diskrepanz zwischen dem linearen Farbraum, den der Pfadverfolger annimmt, und dem sRGB-Farbraum, den standardmäßige NeRF verwenden, zu lösen, trainieren wir NeRF mit High Dynamic Range (HDR)-Bildern. Wir präsentieren auch eine Strategie zur Schätzung von Lichtquellen und zum Werfen von Schatten auf dem NeRF. Schließlich betrachten wir, wie die hybride Oberflächen-Volumen-Formulierung effizient mit einem leistungsstarken Physiksimulator integriert werden kann, der Stoff, starre und weiche Körper unterstützt. Das vollständige Rendering- und Simulationssystem kann auf einer GPU mit interaktiven Raten ausgeführt werden. Wir zeigen, dass ein hybrides Systemansatz Alternativen in Bezug auf visuelle Realismus bei der Netz-Einfügung übertrifft, da er realistischen Lichttransport von volumetrischen NeRF-Medien auf Oberflächen ermöglicht, was das Aussehen von reflektierenden/brechenden Oberflächen und die Beleuchtung diffuser Oberflächen beeinflusst, die durch die dynamische Szene informiert werden.
Lernparadigmen für große Sprachmodelle (LLMs) lassen sich derzeit grob in In-Context-Lernen (ICL) und vollständiges Fine-Tuning einteilen. Jeder dieser Ansätze bringt spezifische Vor- und Nachteile mit sich, die sich aus verfügbaren Daten, Modellgröße, Rechenkosten, Benutzerfreundlichkeit und der finalen Qualität ergeben, wobei keine der beiden Lösungen in allen Bereichen gleichermaßen gut abschneidet. In diesem Artikel beschreiben wir zunächst die ICL- und Fine-Tuning-Paradigmen so, dass ihre natürlichen Zusammenhänge deutlich werden. Basierend auf diesen Zusammenhängen schlagen wir ein neues Lernparadigma namens FIAT vor, das die Stärken beider Ansätze vereint. FIAT ermöglicht prompt-gesteuerte Anweisungen und Chain-of-Thought-Denkprozesse mit den größten Modellen, während es gleichzeitig ähnliche Methoden verwendet, um parameter-effizientes Tuning an einem moderat großen LLM durchzuführen. Wir evaluieren die Wirksamkeit von FIAT anhand verschiedener multilingualer Aufgaben und stellen fest, dass FIAT sowohl ICL als auch Fine-Tuning bei Trainingsbeispielen im Bereich von 100 bis 10.000 übertrifft. Wir hoffen, dass FIAT einen praktischen Weg bietet, das volle Potenzial von LLMs auszuschöpfen, ohne eine schwierige Wahl zwischen den Lernparadigmen treffen zu müssen.