Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Sprachmodelle (LMs) sind leistungsstarke Werkzeuge für die natürliche Sprachverarbeitung, aber sie haben oft Schwierigkeiten, kohärenten und flüssigen Text zu erzeugen, wenn sie klein sind. Modelle mit etwa 125 Millionen Parametern wie GPT-Neo (klein) oder GPT-2 (klein) können selten über einige Worte hinaus kohärenten und konsistenten englischen Text erzeugen, selbst nach umfangreichem Training. Dies wirft die Frage auf, ob die Fähigkeit, kohärenten englischen Text zu produzieren, erst bei größeren Modellen (mit Hunderten von Millionen Parametern oder mehr) und komplexen Architekturen (mit vielen Schichten globaler Aufmerksamkeit) entsteht. In dieser Arbeit stellen wir TinyStories vor, einen synthetischen Datensatz von Kurzgeschichten, die nur Wörter enthalten, die typischerweise von 3- bis 4-jährigen Kindern verstanden werden, erzeugt von GPT-3.5 und GPT-4. Wir zeigen, dass TinyStories verwendet werden kann, um LMs zu trainieren und zu evaluieren, die viel kleiner sind als die state-of-the-art Modelle (unter 10 Millionen Gesamtparametern) oder viel einfachere Architekturen haben (mit nur einem Transformer-Block), dennoch aber flüssige und konsistente Geschichten mit mehreren Absätzen erzeugen können, die vielfältig sind und nahezu perfekte Grammatik aufweisen, und die Fähigkeit zum logischen Denken demonstrieren. Wir führen auch ein neues Paradigma für die Bewertung von Sprachmodellen ein: Wir schlagen ein Framework vor, das GPT-4 verwendet, um den von diesen Modellen erzeugten Inhalt zu bewerten, als wären es Geschichten, die von Schülern geschrieben und von einem (menschlichen) Lehrer benotet wurden. Dieses neue Paradigma überwindet die Schwächen standardmäßiger Benchmarks, die oft sehr strukturierte Ausgaben des Modells erfordern, und bietet zudem eine mehrdimensionale Bewertung des Modells, die Punkte für verschiedene Fähigkeiten wie Grammatik, Kreativität und Konsistenz liefert. Wir hoffen, dass TinyStories die Entwicklung, Analyse und Erforschung von LMs erleichtern kann, insbesondere für ressourcenarme oder spezialisierte Domänen, und Einblicke in die Entstehung von Sprachfähigkeiten in LMs bietet.
Wir präsentieren SoundStorm, ein Modell für effiziente, nicht-autoregressive Audioerzeugung. SoundStorm erhält als Eingabe die semantischen Tokens von AudioLM und nutzt bidirektionale Aufmerksamkeit sowie parallelisiertes Decoding basierend auf Konfidenzwerten, um die Tokens eines neuronalen Audiocodecs zu generieren. Im Vergleich zum autoregressiven Ansatz von AudioLM erzeugt unser Modell Audio von gleicher Qualität und mit höherer Konsistenz in Stimme und akustischen Bedingungen, während es zwei Größenordnungen schneller ist. SoundStorm generiert 30 Sekunden Audio in 0,5 Sekunden auf einem TPU-v4. Wir demonstrieren die Fähigkeit unseres Modells, die Audiogenerierung auf längere Sequenzen zu skalieren, indem wir hochwertige, natürliche Dialogsegmente synthetisieren, basierend auf einem Transkript, das mit Sprecherwechseln annotiert ist, und einem kurzen Prompt mit den Stimmen der Sprecher.
Aktuelle Forschungen deuten darauf hin, dass es deutliche Unterschiede in der Sprache des Dark Web im Vergleich zum Surface Web gibt. Da Studien zum Dark Web häufig eine Textanalyse der Domäne erfordern, könnten spezifische Sprachmodelle für das Dark Web wertvolle Einblicke für Forscher bieten. In dieser Arbeit stellen wir DarkBERT vor, ein Sprachmodell, das auf Daten des Dark Web vortrainiert wurde. Wir beschreiben die Schritte, die unternommen wurden, um die Textdaten zu filtern und zusammenzustellen, die zur Trainierung von DarkBERT verwendet wurden, um der extremen lexikalischen und strukturellen Vielfalt des Dark Web entgegenzuwirken, die eine angemessene Repräsentation der Domäne beeinträchtigen könnte. Wir evaluieren DarkBERT und sein Standard-Pendant sowie andere weit verbreitete Sprachmodelle, um die Vorteile eines domänenspezifischen Modells für das Dark Web in verschiedenen Anwendungsfällen zu validieren. Unsere Auswertungen zeigen, dass DarkBERT aktuelle Sprachmodelle übertrifft und als wertvolle Ressource für zukünftige Forschungen zum Dark Web dienen kann.
Kürzliche Fortschritte in der künstlichen Intelligenz (KI) haben Meilensteine in „großen Herausforderungen“ erreicht, die von Go bis hin zur Proteinfaltung reichen. Die Fähigkeit, medizinisches Wissen abzurufen, darüber zu schlussfolgern und medizinische Fragen auf einem mit Ärzten vergleichbaren Niveau zu beantworten, wurde lange als eine solche große Herausforderung angesehen. Große Sprachmodelle (Large Language Models, LLMs) haben erhebliche Fortschritte bei der Beantwortung medizinischer Fragen vorangetrieben; Med-PaLM war das erste Modell, das eine „Bestanden“-Schwelle bei Fragen im Stil des US Medical Licensing Examination (USMLE) mit einer Punktzahl von 67,2 % auf dem MedQA-Datensatz überschritt. Allerdings deuteten diese und andere frühere Arbeiten auf erheblichen Verbesserungsbedarf hin, insbesondere wenn die Antworten der Modelle mit denen von Klinikern verglichen wurden. Hier stellen wir Med-PaLM 2 vor, das diese Lücken durch eine Kombination aus Verbesserungen des Basismodells (PaLM 2), Feinabstimmung im medizinischen Bereich und Prompting-Strategien, einschließlich eines neuartigen Ensemble-Verfeinerungsansatzes, schließt. Med-PaLM 2 erreichte bis zu 86,5 % auf dem MedQA-Datensatz, verbesserte sich gegenüber Med-PaLM um über 19 % und setzte damit einen neuen Maßstab. Wir beobachteten auch Leistungen, die den Stand der Technik auf den Datensätzen MedMCQA, PubMedQA und MMLU klinischer Themen erreichten oder übertrafen. Wir führten detaillierte menschliche Bewertungen von Langformfragen entlang mehrerer für klinische Anwendungen relevanter Achsen durch. Bei der paarweisen vergleichenden Bewertung von 1066 medizinischen Verbraucherfragen bevorzugten Ärzte die Antworten von Med-PaLM 2 gegenüber denen von Ärzten auf acht von neun Achsen, die die klinische Nützlichkeit betreffen (p < 0,001). Wir beobachteten auch signifikante Verbesserungen gegenüber Med-PaLM auf jeder Bewertungsachse (p < 0,001) auf neu eingeführten Datensätzen mit 240 Langform-„Adversarial“-Fragen, die die Grenzen von LLMs untersuchen sollen. Obwohl weitere Studien notwendig sind, um die Wirksamkeit dieser Modelle in realen Anwendungen zu validieren, unterstreichen diese Ergebnisse den raschen Fortschritt hin zu einer leistungsfähigen, auf Arztniveau liegenden Beantwortung medizinischer Fragen.
Große Sprachmodelle (LLMs), die auf umfangreichen Quellcode-Daten vortrainiert wurden, haben bedeutende Fortschritte in der Code-Intelligenz erzielt. Allerdings weisen bestehende Code-LLMs zwei Hauptbeschränkungen in Bezug auf Architektur und Vortrainingsaufgaben auf. Erstens verwenden sie oft eine spezifische Architektur (nur Encoder oder nur Decoder) oder stützen sich auf ein einheitliches Encoder-Decoder-Netzwerk für verschiedene Downstream-Aufgaben. Das erstgenannte Paradigma ist durch mangelnde Flexibilität in der Anwendung eingeschränkt, während im letzteren Fall das Modell als ein einziges System für alle Aufgaben behandelt wird, was zu suboptimaler Leistung bei einer Teilmenge der Aufgaben führt. Zweitens setzen sie oft eine begrenzte Anzahl von Vortrainingszielen ein, die für einige Downstream-Aufgaben möglicherweise nicht relevant sind und somit zu erheblichen Leistungseinbußen führen. Um diese Einschränkungen zu überwinden, schlagen wir „CodeT5+“ vor, eine Familie von Encoder-Decoder-LLMs für Code, bei der Komponentenmodule flexibel kombiniert werden können, um eine Vielzahl von Downstream-Code-Aufgaben zu bewältigen. Diese Flexibilität wird durch unsere vorgeschlagene Mischung von Vortrainingszielen ermöglicht, um die Diskrepanz zwischen Vortraining und Feinabstimmung zu verringern. Diese Ziele umfassen Span-Denoising, kontrastives Lernen, Text-Code-Matching und kausale LM-Vortrainingsaufgaben auf sowohl unimodalen als auch bimodalen mehrsprachigen Code-Korpora. Darüber hinaus schlagen wir vor, CodeT5+ mit eingefrorenen, gebrauchsfertigen LLMs zu initialisieren, ohne von Grund auf zu trainieren, um unsere Modelle effizient zu skalieren, und untersuchen Instruction-Tuning, um sie mit natürlichen Sprachanweisungen in Einklang zu bringen. Wir evaluieren CodeT5+ umfassend auf über 20 Code-bezogenen Benchmarks in verschiedenen Settings, einschließlich Zero-Shot, Feinabstimmung und Instruction-Tuning. Wir beobachten state-of-the-art (SoTA) Modellleistungen bei verschiedenen Code-bezogenen Aufgaben, wie Code-Generierung und -Vervollständigung, mathematische Programmierung und Text-zu-Code-Retrieval-Aufgaben. Insbesondere erzielt unser instruction-getuntes CodeT5+ 16B neue SoTA-Ergebnisse bei der HumanEval-Code-Generierungsaufgabe im Vergleich zu anderen offenen Code-LLMs.
Große Sprachmodelle (LLMs) wie GPT-3 und GPT-4 sind leistungsstark, doch ihre Gewichte sind oft öffentlich nicht verfügbar, und ihre enormen Größen machen es schwierig, die Modelle mit gängiger Hardware zu optimieren. Infolgedessen kann die effektive Anpassung dieser Modelle mit groß angelegten überwachten Daten eine Herausforderung darstellen. Als Alternative kann In-Context Learning (ICL) aufgrund von Kontextlängenbegrenzungen nur eine geringe Anzahl von überwachten Beispielen verwenden. In diesem Artikel schlagen wir Super In-Context Learning (SuperICL) vor, das es schwarzen Kästchen von LLMs ermöglicht, mit lokal feinabgestimmten kleineren Modellen zusammenzuarbeiten, was zu einer überlegenen Leistung bei überwachten Aufgaben führt. Unsere Experimente zeigen, dass SuperICL die Leistung über den Stand der Technik feinabgestimmter Modelle hinaus verbessern kann, während es gleichzeitig das Instabilitätsproblem von In-Context Learning angeht. Darüber hinaus kann SuperICL die Fähigkeiten kleinerer Modelle, wie Mehrsprachigkeit und Interpretierbarkeit, erweitern.
Textgesteuerte menschliche Bewegungsgenerierung hat aufgrund ihrer weitreichenden Anwendungen in den Bereichen Animation und Robotik großes Interesse geweckt. Kürzlich hat die Anwendung von Diffusionsmodellen für die Bewegungsgenerierung Verbesserungen in der Qualität der erzeugten Bewegungen ermöglicht. Bestehende Ansätze sind jedoch durch ihre Abhängigkeit von relativ kleinen Bewegungsaufnahmedaten begrenzt, was zu schlechter Leistung bei vielfältigeren, realitätsnahen Eingabeaufforderungen führt. In diesem Artikel stellen wir Make-An-Animation vor, ein textbedingtes Modell zur Generierung menschlicher Bewegungen, das vielfältigere Posen und Eingabeaufforderungen aus groß angelegten Bild-Text-Datensätzen lernt und dadurch eine signifikante Verbesserung der Leistung gegenüber früheren Arbeiten ermöglicht. Make-An-Animation wird in zwei Stufen trainiert. Zunächst trainieren wir auf einem kuratierten, groß angelegten Datensatz von (Text, statische Pseudo-Pose)-Paaren, die aus Bild-Text-Datensätzen extrahiert wurden. Anschließend feintunen wir auf Bewegungsaufnahmedaten und fügen zusätzliche Schichten hinzu, um die zeitliche Dimension zu modellieren. Im Gegensatz zu früheren Diffusionsmodellen für die Bewegungsgenerierung verwendet Make-An-Animation eine U-Net-Architektur, die ähnlich zu aktuellen Text-zu-Video-Generierungsmodellen ist. Menschliche Bewertungen der Bewegungsrealität und der Übereinstimmung mit dem Eingabetext zeigen, dass unser Modell Spitzenleistungen in der Text-zu-Bewegungs-Generierung erreicht.
Diffusionsmodelle haben im Bereich der Bildgenerierung aufgrund ihrer außergewöhnlichen Leistung erhebliche Aufmerksamkeit erlangt. Ihr Erfolg wurde kürzlich auf die Textgenerierung ausgeweitet, indem alle Token innerhalb einer Sequenz gleichzeitig generiert werden. Natürliche Sprache weist jedoch im Vergleich zu Bildern eine weitaus ausgeprägtere sequenzielle Abhängigkeit auf, und die Mehrheit der bestehenden Sprachmodelle wird unter Verwendung eines links-nach-rechts autoregressiven Ansatzes trainiert. Um der inhärenten sequenziellen Eigenschaft natürlicher Sprache Rechnung zu tragen, führen wir Auto-Regressive Diffusion (AR-Diffusion) ein. AR-Diffusion stellt sicher, dass die Generierung von Token auf der rechten Seite von den bereits generierten Token auf der linken Seite abhängt, ein Mechanismus, der durch den Einsatz einer dynamischen Anzahl von Denoising-Schritten erreicht wird, die je nach Token-Position variieren. Dies führt dazu, dass Token auf der linken Seite weniger Denoising-Schritte durchlaufen als die auf der rechten Seite, wodurch sie früher generiert werden und anschließend die Generierung der Token auf der rechten Seite beeinflussen können. In einer Reihe von Experimenten zu verschiedenen Textgenerierungsaufgaben, einschließlich Textzusammenfassung, maschineller Übersetzung und Common-Sense-Generierung, hat AR-Diffusion deutlich die Überlegenheit gegenüber bestehenden Diffusionssprachmodellen gezeigt und kann bis zu 100-mal bis 600-mal schneller sein, wenn vergleichbare Ergebnisse erzielt werden. Unser Code wird öffentlich zugänglich gemacht.
Wir präsentieren Symbol-Tuning – das Feinabstimmen von Sprachmodellen auf In-Kontext-Eingabe-Label-Paare, bei denen natürliche Sprachlabels (z. B. „positive/negative Stimmung“) durch beliebige Symbole (z. B. „foo/bar“) ersetzt werden. Symbol-Tuning nutzt die Intuition, dass ein Modell, wenn es keine Anweisungen oder natürlichen Sprachlabels verwenden kann, um eine Aufgabe zu lösen, stattdessen die Eingabe-Label-Zuordnungen erlernen muss. Wir experimentieren mit Symbol-Tuning an Flan-PaLM-Modellen mit bis zu 540 Milliarden Parametern und beobachten Vorteile in verschiedenen Szenarien. Erstens verbessert Symbol-Tuning die Leistung bei unbekannten In-Kontext-Lernaufgaben und ist wesentlich robuster gegenüber unzureichend spezifizierten Eingabeaufforderungen, wie solchen ohne Anweisungen oder ohne natürliche Sprachlabels. Zweitens sind symbol-abgestimmte Modelle deutlich stärker bei algorithmischen Denkaufgaben, mit bis zu 18,2 % besserer Leistung beim List-Functions-Benchmark und bis zu 15,3 % besserer Leistung beim Simple-Turing-Concepts-Benchmark. Schließlich zeigen symbol-abgestimmte Modelle große Verbesserungen im Umgang mit umgekehrten Labels, die im Kontext präsentiert werden, was bedeutet, dass sie besser in der Lage sind, In-Kontext-Informationen zu nutzen, um vorheriges semantisches Wissen zu überschreiben.
Ein konversationelles Empfehlungssystem (Conversational Recommender System, CRS) bietet Nutzern eine erhöhte Transparenz und Kontrolle, indem es ihnen ermöglicht, mit dem System über einen Echtzeit-Mehrrunden-Dialog zu interagieren. Kürzlich haben große Sprachmodelle (Large Language Models, LLMs) eine beispiellose Fähigkeit gezeigt, natürlich zu konversieren und Weltwissen sowie gesunden Menschenverstand in das Sprachverständnis einzubeziehen, wodurch das Potenzial dieses Paradigmas freigesetzt wird. Die effektive Nutzung von LLMs in einem CRS bringt jedoch neue technische Herausforderungen mit sich, darunter das korrekte Verstehen und Steuern komplexer Konversationen sowie das Abrufen von Informationen aus externen Quellen. Diese Probleme werden durch einen großen, sich entwickelnden Artikelkorpus und einen Mangel an Konversationsdaten für das Training verschärft. In diesem Artikel bieten wir einen Fahrplan für den Aufbau eines end-to-end großskaligen CRS unter Verwendung von LLMs. Insbesondere schlagen wir neue Implementierungen für das Verständnis von Nutzerpräferenzen, flexibles Dialogmanagement und erklärbare Empfehlungen als Teil einer integrierten Architektur vor, die von LLMs angetrieben wird. Für eine verbesserte Personalisierung beschreiben wir, wie ein LLM interpretierbare Nutzerprofile in natürlicher Sprache verarbeiten und sie zur Modulation des Sitzungskontexts verwenden kann. Um die Einschränkungen durch fehlende Konversationsdaten in Abwesenheit eines bestehenden produktiven CRS zu überwinden, schlagen wir Techniken für den Aufbau eines steuerbaren LLM-basierten Nutzersimulators vor, um synthetische Konversationen zu generieren. Als Proof of Concept stellen wir RecLLM vor, ein großskaliges CRS für YouTube-Videos, das auf LaMDA basiert, und demonstrieren seine Flüssigkeit und vielfältige Funktionalität anhand einiger illustrativer Beispielkonversationen.
In-Context-Learning, bei dem vortrainierte Sprachmodelle lernen, Aufgaben anhand von Aufgabenbeispielen und Anweisungen in ihrem Kontext auszuführen, hat in der NLP-Community viel Aufmerksamkeit erregt. Allerdings wird die Fähigkeit des In-Context-Learnings nicht vollständig ausgeschöpft, da Sprachmodelle nicht explizit darauf trainiert werden, im Kontext zu lernen. Zu diesem Zweck schlagen wir PICL (Pre-training for In-Context Learning) vor, ein Framework, das die In-Context-Learning-Fähigkeit von Sprachmodellen verbessert, indem das Modell anhand einer großen Sammlung von „intrinsischen Aufgaben“ im allgemeinen Klartextkorpus mit dem einfachen Sprachmodellierungsziel vortrainiert wird. PICL ermutigt das Modell, Aufgaben durch die Bedingung auf den Kontext abzuleiten und auszuführen, während gleichzeitig die Aufgabenverallgemeinerung der vortrainierten Modelle beibehalten wird. Wir bewerten die In-Context-Learning-Leistung des mit PICL trainierten Modells anhand von sieben weit verbreiteten Textklassifizierungsdatensätzen und dem Super-NaturalInstructions-Benchmark, der über 100 NLP-Aufgaben enthält, die als Textgenerierung formuliert sind. Unsere Experimente zeigen, dass PICL effektiver und aufgabenverallgemeinerbarer ist als eine Reihe von Baselines und größere Sprachmodelle mit fast dem Vierfachen an Parametern übertrifft. Der Code ist öffentlich verfügbar unter https://github.com/thu-coai/PICL.
Eine vollständig automatisierte Pipeline zur Objektrekonstruktion ist entscheidend für die Erstellung digitaler Inhalte. Während das Gebiet der 3D-Rekonstruktion tiefgreifende Entwicklungen erlebt hat, stützt sich die Entfernung des Hintergrunds, um ein sauberes Objektmodell zu erhalten, immer noch auf verschiedene Formen manueller Arbeit, wie die Kennzeichnung von Begrenzungsrahmen, Maskenanmerkungen und Netzmanipulationen. In diesem Artikel schlagen wir ein neuartiges Framework namens AutoRecon für die automatisierte Entdeckung und Rekonstruktion eines Objekts aus Multi-View-Bildern vor. Wir zeigen, dass Vordergrundobjekte robust lokalisiert und aus SfM-Punktwolken segmentiert werden können, indem selbstüberwachte 2D-Vision-Transformer-Features genutzt werden. Anschließend rekonstruieren wir zerlegte neuronale Szenendarstellungen mit dichter Überwachung, die durch die zerlegten Punktwolken bereitgestellt wird, was zu einer präzisen Objektrekonstruktion und -segmentierung führt. Experimente auf den Datensätzen DTU, BlendedMVS und CO3D-V2 demonstrieren die Wirksamkeit und Robustheit von AutoRecon.
Das Erlangen von menscheninterpretierbaren Erklärungen für große, allgemeine Sprachmodelle ist ein dringendes Ziel für die KI-Sicherheit. Ebenso wichtig ist jedoch, dass unsere Interpretationsmethoden den kausalen Dynamiken zugrunde liegenden Modellverhaltens treu bleiben und robust auf unbekannte Eingaben verallgemeinern können. Distributed Alignment Search (DAS) ist eine leistungsstarke Gradientenabstiegsmethode, die auf einer Theorie der kausalen Abstraktion basiert und perfekte Übereinstimmungen zwischen interpretierbaren symbolischen Algorithmen und kleinen, für spezifische Aufgaben feinabgestimmten Deep-Learning-Modellen aufdeckte. In diesem Artikel skalieren wir DAS erheblich, indem wir die verbleibenden Brute-Force-Suchschritte durch gelernte Parameter ersetzen – ein Ansatz, den wir DAS nennen. Dies ermöglicht es uns, effizient nach interpretierbarer kausaler Struktur in großen Sprachmodellen zu suchen, während sie Anweisungen befolgen. Wir wenden DAS auf das Alpaca-Modell (7B Parameter) an, das von Haus aus ein einfaches numerisches Problem löst. Mit DAS entdecken wir, dass Alpaca dies durch die Implementierung eines kausalen Modells mit zwei interpretierbaren booleschen Variablen erreicht. Darüber hinaus stellen wir fest, dass die Ausrichtung der neuronalen Repräsentationen mit diesen Variablen robust gegenüber Änderungen in Eingaben und Anweisungen ist. Diese Erkenntnisse markieren einen ersten Schritt hin zu einem tiefen Verständnis der inneren Funktionsweise unserer größten und am weitesten verbreiteten Sprachmodelle.
Natürliche Sprachschnittstellen benötigen oft überwachte Daten, um Benutzeranfragen in Programme, Datenbankabfragen oder andere strukturierte Intent-Darstellungen zu übersetzen. Während der Datenerfassung kann es schwierig sein, die gesamte Bandbreite der Benutzerbedürfnisse vorherzusehen und zu formalisieren – zum Beispiel könnte in einem System, das für einfache Anfragen entwickelt wurde (wie „finde meine Termine für morgen“ oder „verschiebe mein Meeting mit meinem Vorgesetzten auf 12 Uhr“), Benutzer auch komplexere Anfragen äußern (wie „tausche alle meine Anrufe am Montag und Dienstag“). Wir stellen einen Ansatz vor, um ein einfaches Sprach-zu-Code-Modell durch einen Prozess der hierarchischen Zerlegung natürlicher Sprache zu befähigen, komplexe Äußerungen zu verarbeiten. Unser Ansatz verwendet ein vortrainiertes Sprachmodell, um eine komplexe Äußerung in eine Sequenz kleinerer natürlicher Sprachschritte zu zerlegen, und interpretiert dann jeden Schritt mithilfe des Sprach-zu-Code-Modells. Um unseren Ansatz zu testen, sammeln und veröffentlichen wir DeCU – einen neuen NL-zu-Programm-Benchmark zur Bewertung der Zerlegung komplexer Äußerungen. Experimente zeigen, dass der vorgeschlagene Ansatz die Interpretation komplexer Äußerungen mit nahezu keinen komplexen Trainingsdaten ermöglicht und dabei Standard-Few-Shot-Prompting-Ansätze übertrifft.
Kontrastives Lernen hat sich als effizientes Framework zur Erstellung multimodaler Repräsentationen etabliert. CLIP, eine wegweisende Arbeit in diesem Bereich, erzielte beeindruckende Ergebnisse durch das Training auf gepaarten Bild-Text-Daten unter Verwendung des kontrastiven Verlusts. Aktuelle Arbeiten behaupten Verbesserungen gegenüber CLIP durch die Verwendung zusätzlicher nicht-kontrastiver Verlustfunktionen, die vom selbstüberwachten Lernen inspiriert sind. Es ist jedoch manchmal schwierig, den Beitrag dieser zusätzlichen Verlustfunktionen von anderen Implementierungsdetails, wie z. B. Datenaugmentierung oder Regularisierungstechniken, die zum Training des Modells verwendet werden, zu trennen. Um Licht in diese Angelegenheit zu bringen, schlagen, implementieren und evaluieren wir in dieser Arbeit zunächst mehrere Baseline-Modelle, die durch die Kombination von kontrastivem Lernen mit aktuellen Fortschritten im selbstüberwachten Lernen entstehen. Insbesondere verwenden wir die Verlustfunktionen, die sich beim visuellen selbstüberwachten Lernen als erfolgreich erwiesen haben, um Bild- und Textmodalitäten auszurichten. Wir stellen fest, dass diese Baseline-Modelle eine einfache Implementierung von CLIP übertreffen. Wenn jedoch ein stärkeres Trainingsrezept verwendet wird, verschwindet dieser Vorteil. Tatsächlich stellen wir fest, dass eine einfache CLIP-Baseline ebenfalls erheblich verbessert werden kann, mit einer relativen Verbesserung von bis zu 25 % bei nachgelagerten Zero-Shot-Aufgaben, durch die Verwendung bekannter Trainingsmethoden, die in anderen Teilbereichen populär sind. Darüber hinaus entdecken wir, dass es ausreicht, Bild- und Textaugmentierungen anzuwenden, um den größten Teil der Verbesserungen zu erzielen, die in früheren Arbeiten erreicht wurden. Mit unserem verbesserten Trainingsrezept für CLIP erzielen wir state-of-the-art Leistungen auf vier Standarddatensätzen und übertreffen konsistent frühere Arbeiten (bis zu +4 % auf dem größten Datensatz), während wir deutlich einfacher sind.
Jüngste Fortschritte in multimodalen Vorverfahrensmethoden haben vielversprechende Wirksamkeit beim Lernen von 3D-Repräsentationen durch die Ausrichtung von Merkmalen über die 3D-Modalität, ihre 2D-Gegenstückmodalität und die entsprechende Sprachmodalität gezeigt. Die Methoden, die von bestehenden multimodalen Vorverfahrensrahmen zur Sammlung multimodaler Daten für 3D-Anwendungen verwendet werden, mangeln jedoch an Skalierbarkeit und Umfassendheit, was das volle Potenzial des multimodalen Lernens möglicherweise einschränkt. Der Hauptengpass liegt in der Skalierbarkeit und Umfassendheit der Sprachmodalität. Um diesen Engpass zu beheben, stellen wir ULIP-2 vor, einen multimodalen Vorverfahrensrahmen, der modernste multimodale Large Language Models (LLMs) nutzt, die auf umfangreichem Wissen vortrainiert wurden, um automatisch ganzheitliche Sprachgegenstücke für 3D-Objekte zu generieren. Wir führen Experimente mit zwei groß angelegten Datensätzen, Objaverse und ShapeNet55, durch und veröffentlichen unsere generierten Dreimodalen-Tripel-Datensätze (3D-Punktwolke - Bild - Sprache), benannt „ULIP-Objaverse-Triplets“ und „ULIP-ShapeNet-Triplets“. ULIP-2 benötigt lediglich die 3D-Daten selbst und eliminiert den Bedarf an manuellen Annotationsbemühungen, was seine Skalierbarkeit demonstriert; und ULIP-2 erzielt bemerkenswerte Verbesserungen bei der nachgelagerten Zero-Shot-Klassifikation auf ModelNet40 (74 % Top1-Genauigkeit). Darüber hinaus setzt ULIP-2 einen neuen Rekord auf dem realen ScanObjectNN-Benchmark (91,5 % Gesamtgenauigkeit) bei der Nutzung von nur 1,4 Millionen Parametern (~10x weniger als der aktuelle SOTA), was einen Durchbruch im skalierbaren multimodalen 3D-Repräsentationslernen ohne menschliche Annotationen darstellt. Der Code und die Datensätze sind unter https://github.com/salesforce/ULIP verfügbar.
Große Sprachmodelle (LLMs) haben bedeutende Fortschritte in der natürlichen Sprachverarbeitung erzielt, stehen jedoch vor Herausforderungen in Bezug auf Rechenaufwand und Ineffizienz, insbesondere bei domänenspezifischen Aufgaben, wenn sie an Größe zunehmen. Kleine Sprachmodelle (SLMs) hingegen kämpfen oft mit diesen Aufgaben aufgrund begrenzter Kapazität und Trainingsdaten. In diesem Artikel stellen wir Dr. LLaMA vor, eine Methode zur Verbesserung von SLMs durch generative Datenanreicherung unter Verwendung von LLMs, mit Fokus auf medizinische Frage-Antwort-Aufgaben und den PubMedQA-Datensatz. Unsere Ergebnisse zeigen, dass LLMs bestehende Frage-Antwort-Paare effektiv verfeinern und diversifizieren, was zu einer verbesserten Leistung eines viel kleineren Modells auf domänenspezifischen Frage-Antwort-Datensätzen nach dem Feinabstimmen führt. Diese Studie beleuchtet die Herausforderungen bei der Verwendung von LLMs für domänenspezifische Frage-Antwort-Systeme und schlägt potenzielle Forschungsrichtungen vor, um diese Einschränkungen zu überwinden, mit dem Ziel, effizientere und leistungsfähigere Modelle für spezialisierte Anwendungen zu schaffen. Wir haben unseren Code auch für interessierte Forscher verfügbar gemacht.
Masked Language Models (MLMs) haben sich als effektiv für das Zweitdurchgang-Rescoring in Automatic Speech Recognition (ASR)-Systemen erwiesen. In dieser Arbeit schlagen wir den Masked Audio Text Encoder (MATE) vor, ein multimodales Masked Language Model für das Rescoring, das akustische Repräsentationen in den Eingaberaum des MLM integriert. Wir verwenden kontrastives Lernen, um die Modalitäten effektiv durch das Erlernen gemeinsamer Repräsentationen auszurichten. Wir zeigen, dass die Verwendung eines multimodalen Rescorers vorteilhaft für die Domänengeneralisierung des ASR-Systems ist, wenn keine Daten aus der Zieldomäne verfügbar sind. MATE reduziert die Wortfehlerrate (WER) um 4 %–16 % bei In-Domain-Datensätzen und um 3 %–7 % bei Out-of-Domain-Datensätzen im Vergleich zur textbasierten Baseline. Zusätzlich erreicht MATE bei einer sehr begrenzten Menge an Trainingsdaten (0,8 Stunden) eine WER-Reduktion von 8 %–23 % gegenüber der Baseline des ersten Durchgangs.
Aktuelle Studien haben gezeigt, dass Dual-Encoder-Modelle, die mit der Satzebenen-Übersetzungsrangfolgeaufgabe trainiert werden, effektive Methoden für die cross-linguale Satzembedding darstellen. Unsere Forschung zeigt jedoch, dass die Token-Ebenen-Ausrichtung in multilingualen Szenarien ebenfalls von entscheidender Bedeutung ist, was bisher nicht vollständig untersucht wurde. Basierend auf unseren Erkenntnissen schlagen wir ein Dual-Alignment-Pre-Training (DAP)-Framework für cross-linguale Satzembedding vor, das sowohl die Satzebenen- als auch die Token-Ebenen-Ausrichtung integriert. Um dies zu erreichen, führen wir eine neuartige Repräsentationsübersetzungslernaufgabe (Representation Translation Learning, RTL) ein, bei der das Modell lernt, die kontextualisierte Token-Repräsentation einer Seite zu verwenden, um ihr Übersetzungsgegenstück zu rekonstruieren. Dieses Rekonstruktionsziel ermutigt das Modell, Übersetzungsinformationen in die Token-Repräsentation einzubetten. Im Vergleich zu anderen Token-Ebenen-Ausrichtungsmethoden wie dem Translation Language Modeling ist RTL besser für Dual-Encoder-Architekturen geeignet und recheneffizient. Umfangreiche Experimente auf drei Satzebenen-cross-lingualen Benchmarks zeigen, dass unser Ansatz die Satzembedding signifikant verbessern kann. Unser Code ist unter https://github.com/ChillingDream/DAP verfügbar.
Trotz ihres beispiellosen Erfolgs machen selbst die größten Sprachmodelle Fehler. Ähnlich wie Menschen durch Feedback lernen und sich verbessern, wurde in früheren Arbeiten vorgeschlagen, Sprachmodelle mit natürlichem Sprachfeedback zu versorgen, um sie bei der Korrektur ihrer Ausgaben zu unterstützen. Da menschlich generierte Kritiken teuer zu beschaffen sind, haben Forscher gelernte Kritikgeneratoren als Ersatz für menschliche Kritiker entwickelt, in der Annahme, dass nachgelagerte Modelle trainiert werden können, um das generierte Feedback zu nutzen. Dieser Ansatz ist jedoch nicht auf Black-Box-Modelle oder Modelle mit eingeschränktem Zugriff wie ChatGPT anwendbar, da diese nicht feinabgestimmt werden können. Darüber hinaus ist die Feinabstimmung im Zeitalter großer allgemeiner Sprachagenten weder rechen- noch speicherplatzeffizient, da sie zu mehreren Kopien des Netzwerks führt. In dieser Arbeit stellen wir RL4F (Reinforcement Learning for Feedback) vor, ein Multi-Agenten-Kollaborationsframework, in dem der Kritikgenerator darauf trainiert wird, die Endaufgabenleistung von GPT-3, einem festen Modell, das mehr als 200-mal größer ist, zu maximieren. RL4F erzeugt Kritiken, die GPT-3 dabei helfen, seine Ausgaben zu überarbeiten. Wir untersuchen drei Datensätze für Aktionsplanung, Zusammenfassung und Alphabetisierung und zeigen Verbesserungen (~5 % im Durchschnitt) in mehreren Textähnlichkeitsmetriken gegenüber starken Baselines in allen drei Aufgaben.
Dieses Papier präsentiert einen neuartigen Ansatz zur Unterscheidung von ChatGPT-generierten und menschlich verfassten Texten mithilfe von Sprachmodellen. Zu diesem Zweck haben wir zunächst einen vorverarbeiteten Datensatz namens OpenGPTText gesammelt und veröffentlicht, der umformulierte Inhalte enthält, die mit ChatGPT generiert wurden. Anschließend haben wir zwei verschiedene Modelle für die Textklassifizierung entworfen, implementiert und trainiert, wobei wir den Robustly Optimized BERT Pretraining Approach (RoBERTa) und den Text-to-Text Transfer Transformer (T5) verwendet haben. Unsere Modelle erzielten bemerkenswerte Ergebnisse mit einer Genauigkeit von über 97 % auf dem Testdatensatz, wie durch verschiedene Metriken bewertet wurde. Darüber hinaus führten wir eine Interpretierbarkeitsstudie durch, um die Fähigkeit unseres Modells zu demonstrieren, Schlüsselmerkmale zwischen menschlich verfassten und ChatGPT-generierten Texten zu extrahieren und zu unterscheiden. Unsere Erkenntnisse liefern wichtige Einblicke in die effektive Nutzung von Sprachmodellen zur Erkennung generierter Texte.