Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Text-to-Image-Modell-Personalisierung zielt darauf ab, ein benutzerdefiniertes Konzept in das Modell einzuführen, um dessen Synthese in verschiedenen Kontexten zu ermöglichen. Aktuelle Methoden konzentrieren sich jedoch hauptsächlich auf den Fall, bei dem ein einzelnes Konzept aus mehreren Bildern mit Variationen in Hintergründen und Posen gelernt wird, und stoßen auf Schwierigkeiten, wenn sie auf ein anderes Szenario angewendet werden. In dieser Arbeit führen wir die Aufgabe der textuellen Szenenzerlegung ein: Gegeben ein einzelnes Bild einer Szene, das mehrere Konzepte enthalten kann, streben wir an, für jedes Konzept einen separaten Text-Token zu extrahieren, um eine feinkörnige Kontrolle über die generierten Szenen zu ermöglichen. Zu diesem Zweck schlagen wir vor, das Eingabebild mit Masken zu erweitern, die das Vorhandensein von Zielkonzepten anzeigen. Diese Masken können vom Benutzer bereitgestellt oder automatisch von einem vortrainierten Segmentierungsmodell generiert werden. Anschließend präsentieren wir einen neuartigen zweiphasigen Anpassungsprozess, der eine Reihe dedizierter textueller Einbettungen (Handles) sowie die Modellgewichte optimiert, um ein empfindliches Gleichgewicht zwischen der präzisen Erfassung der Konzepte und der Vermeidung von Überanpassung zu erreichen. Wir verwenden einen maskierten Diffusionsverlust, um Handles zu ermöglichen, ihre zugewiesenen Konzepte zu generieren, ergänzt durch einen neuartigen Verlust auf Cross-Attention-Maps, um Verflechtungen zu verhindern. Zudem führen wir Union-Sampling ein, eine Trainingsstrategie, die darauf abzielt, die Fähigkeit zur Kombination mehrerer Konzepte in generierten Bildern zu verbessern. Wir verwenden mehrere automatische Metriken, um unsere Methode quantitativ mit verschiedenen Baselines zu vergleichen, und bestätigen die Ergebnisse weiterhin durch eine Benutzerstudie. Schließlich präsentieren wir mehrere Anwendungen unserer Methode. Die Projektseite ist verfügbar unter: https://omriavrahami.com/break-a-scene/
Die Transformer-Architektur hat in zahlreichen Forschungsbereichen beeindruckende Leistungen gezeigt und ist zum Rückgrat vieler neuronaler Netzwerkmodelle geworden. Allerdings ist das Verständnis darüber, wie sie funktioniert, noch begrenzt. Insbesondere bleibt es ein Rätsel, wie sich die Repräsentation durch die Gradienten-Trainingsdynamik bei einem einfachen prädiktiven Verlust entwickelt. In diesem Artikel analysieren wir die SGD-Trainingsdynamik eines 1-Schicht-Transformers, bestehend aus einer Self-Attention-Schicht und einer Decoder-Schicht, für die Aufgabe der Vorhersage des nächsten Tokens auf mathematisch rigorose Weise. Wir öffnen die Blackbox des dynamischen Prozesses, wie die Self-Attention-Schicht Eingabe-Tokens kombiniert, und enthüllen die Natur des zugrunde liegenden induktiven Bias. Genauer gesagt beweisen wir unter den Annahmen (a) keine Positionskodierung, (b) lange Eingabesequenzen und (c) dass die Decoder-Schicht schneller lernt als die Self-Attention-Schicht, dass Self-Attention als ein diskriminierender Scan-Algorithmus agiert: Ausgehend von gleichmäßiger Aufmerksamkeit konzentriert sie sich schrittweise stärker auf bestimmte Schlüssel-Tokens für ein spezifisches, vorherzusagendes nächstes Token und schenkt weniger Aufmerksamkeit gemeinsamen Schlüssel-Tokens, die über verschiedene nächste Tokens hinweg auftreten. Unter den unterschiedlichen Tokens reduziert sie die Aufmerksamkeitsgewichte progressiv in der Reihenfolge von niedriger zu hoher Kookkurrenz zwischen dem Schlüssel- und dem Query-Token im Trainingsdatensatz. Interessanterweise führt dieser Prozess nicht zu einem Winner-Takes-All-Ergebnis, sondern verlangsamt sich aufgrund eines Phasenübergangs, der durch die Lernraten der beiden Schichten kontrollierbar ist, und hinterlässt (fast) feste Token-Kombinationen. Wir bestätigen diese \emph{Scan-and-Snap}-Dynamik anhand von synthetischen und realen Daten (WikiText).
Aktuelle Forschung zeigt das Potenzial, die Problemlösungsfähigkeit großer Sprachmodelle (LLMs) durch den Einsatz externer Werkzeuge zu verbessern. Bisherige Arbeiten in diesem Bereich hängen jedoch von der Verfügbarkeit bestehender Werkzeuge ab. In dieser Arbeit machen wir einen ersten Schritt, um diese Abhängigkeit zu beseitigen, indem wir ein geschlossenes Framework, genannt LLMs As Tool Makers (LATM), vorschlagen, bei dem LLMs ihre eigenen wiederverwendbaren Werkzeuge zur Problemlösung erstellen. Unser Ansatz besteht aus zwei Schlüsselphasen: 1) Werkzeugherstellung: Ein LLM fungiert als Werkzeughersteller, der Werkzeuge für gegebene Aufgaben erstellt, wobei ein Werkzeug als Python-Hilfsfunktion implementiert wird. 2) Werkzeugnutzung: Ein LLM fungiert als Werkzeugnutzer, der das vom Werkzeughersteller erstellte Werkzeug zur Problemlösung anwendet. Der Werkzeugnutzer kann dasselbe oder ein anderes LLM als der Werkzeughersteller sein. Die Werkzeugherstellung ermöglicht es einem LLM, kontinuierlich Werkzeuge zu generieren, die auf verschiedene Anfragen angewendet werden können, sodass zukünftige Anfragen die entsprechenden APIs aufrufen können, wenn dies für die Lösung der Aufgaben vorteilhaft ist. Darüber hinaus bietet die Arbeitsteilung unter LLMs in den Phasen der Werkzeugherstellung und -nutzung die Möglichkeit, Kosteneffizienz zu erreichen, ohne die Qualität der generierten Werkzeuge und Problemlösungen zu beeinträchtigen. Beispielsweise können wir, da die Werkzeugherstellung anspruchsvollere Fähigkeiten erfordert als die Werkzeugnutzung, ein leistungsstarkes, aber ressourcenintensives Modell als Werkzeughersteller und ein leichtgewichtiges, kosteneffizientes Modell als Werkzeugnutzer einsetzen. Wir validieren die Wirksamkeit unseres Ansatzes anhand einer Vielzahl komplexer Denkaufgaben, einschließlich Big-Bench-Aufgaben. Mit GPT-4 als Werkzeughersteller und GPT-3.5 als Werkzeugnutzer kann LATM eine Leistung erzielen, die der Verwendung von GPT-4 sowohl für die Werkzeugherstellung als auch für die Werkzeugnutzung entspricht, während die Inferenzkosten erheblich reduziert werden.
In diesem Artikel stellen wir ControlVideo vor, eine neuartige Methode für die textgesteuerte Videobearbeitung. Durch die Nutzung der Fähigkeiten von Text-zu-Bild-Diffusionsmodellen und ControlNet zielt ControlVideo darauf ab, die Detailtreue und zeitliche Konsistenz von Videos zu verbessern, die mit einem gegebenen Text übereinstimmen, während die Struktur des Quellvideos erhalten bleibt. Dies wird durch die Einbindung zusätzlicher Bedingungen wie Kantenkarten sowie durch das Feinabstimmen der Schlüsselbild- und zeitlichen Aufmerksamkeit auf das Quellvideo-Text-Paar mit sorgfältig gestalteten Strategien erreicht. Eine detaillierte Untersuchung des Designs von ControlVideo wird durchgeführt, um zukünftige Forschungen zur Einmalabstimmung von Videodiffusionsmodellen zu informieren. Quantitativ übertrifft ControlVideo eine Reihe von wettbewerbsfähigen Baselines in Bezug auf Treue und Konsistenz, während es dennoch mit dem Textprompt übereinstimmt. Zudem liefert es Videos mit hoher visueller Realität und Detailtreue in Bezug auf den Quellinhalt, was die Flexibilität bei der Nutzung von Steuerungen mit unterschiedlichem Grad an Quellvideoinformationen sowie das Potenzial für multiple Steuerungskombinationen demonstriert. Die Projektseite ist verfügbar unter https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.
Sowohl Minskys „Gesellschaft des Geistes“ als auch Schmidhubers „Lernen zu denken“ inspirieren vielfältige Gesellschaften großer multimodaler neuronaler Netze (NNs), die Probleme lösen, indem sie sich in einem „Mindstorm“ gegenseitig befragen. Aktuelle Implementierungen solcher NN-basierten Gesellschaften des Geistes bestehen aus großen Sprachmodellen (LLMs) und anderen NN-basierten Experten, die über eine natürliche Sprachschnittstelle kommunizieren. Dadurch überwinden sie die Grenzen einzelner LLMs und verbessern das multimodale Zero-Shot-Reasoning. In diesen auf natürlicher Sprache basierenden Gesellschaften des Geistes (NLSOMs) können neue Agenten – die alle über dieselbe universelle symbolische Sprache kommunizieren – modular hinzugefügt werden. Um die Leistungsfähigkeit von NLSOMs zu demonstrieren, bauen wir mehrere davon auf (mit bis zu 129 Mitgliedern) und nutzen Mindstorms in ihnen, um praktische KI-Aufgaben zu lösen: visuelle Fragebeantwortung, Bildbeschriftung, Text-zu-Bild-Synthese, 3D-Generierung, egozentrische Suche, verkörperte KI und allgemeine sprachbasierte Aufgabenlösung. Wir betrachten dies als Ausgangspunkt für viel größere NLSOMs mit Milliarden von Agenten – von denen einige Menschen sein könnten. Mit dem Entstehen großer Gesellschaften heterogener Geister sind viele neue Forschungsfragen plötzlich von zentraler Bedeutung für die Zukunft der künstlichen Intelligenz. Wie sollte die soziale Struktur eines NLSOM aussehen? Welche (Nach-)Vorteile hätte eine monarchische gegenüber einer demokratischen Struktur? Wie können Prinzipien der NN-Ökonomie genutzt werden, um den Gesamtertrag eines verstärkungslernenden NLSOM zu maximieren? In dieser Arbeit identifizieren, diskutieren und versuchen wir, einige dieser Fragen zu beantworten.
Soziale Ausrichtung in KI-Systemen zielt darauf ab, sicherzustellen, dass diese Modelle gemäß etablierter gesellschaftlicher Werte agieren. Im Gegensatz zu Menschen, die durch soziale Interaktionen einen Konsens über Werturteile erzielen, sind aktuelle Sprachmodelle (LMs) jedoch darauf trainiert, ihr Trainingskorpus isoliert und starr zu replizieren. Dies führt zu einer unzureichenden Generalisierung in unbekannten Szenarien und einer Anfälligkeit für adversariale Angriffe. Diese Arbeit stellt ein neuartiges Trainingsparadigma vor, das es LMs ermöglicht, aus simulierten sozialen Interaktionen zu lernen. Im Vergleich zu bestehenden Methoden ist unser Ansatz deutlich skalierbarer und effizienter und zeigt eine überlegene Leistung in Ausrichtungs-Benchmarks und menschlichen Bewertungen. Dieser Paradigmenwechsel im Training von LMs bringt uns einen Schritt näher an die Entwicklung von KI-Systemen, die gesellschaftliche Normen und Werte robust und präzise widerspiegeln können.
Das Lernen aus menschlichem Feedback hat sich als wirksam erwiesen, um Text-zu-Bild-Modelle zu verbessern. Diese Techniken lernen zunächst eine Belohnungsfunktion, die erfasst, was Menschen bei der Aufgabe wichtig ist, und verbessern dann die Modelle basierend auf der gelernten Belohnungsfunktion. Obwohl relativ einfache Ansätze (z. B. Ablehnungsstichproben basierend auf Belohnungswerten) untersucht wurden, bleibt die Feinabstimmung von Text-zu-Bild-Modellen mit der Belohnungsfunktion eine Herausforderung. In dieser Arbeit schlagen wir vor, Online-Verstärkungslernen (Reinforcement Learning, RL) zur Feinabstimmung von Text-zu-Bild-Modellen zu verwenden. Wir konzentrieren uns auf Diffusionsmodelle, definieren die Feinabstimmungsaufgabe als ein RL-Problem und aktualisieren die vortrainierten Text-zu-Bild-Diffusionsmodelle mithilfe von Policy-Gradient-Methoden, um das durch Feedback trainierte Belohnungssignal zu maximieren. Unser Ansatz, genannt DPOK, integriert Policy-Optimierung mit KL-Regularisierung. Wir führen eine Analyse der KL-Regularisierung sowohl für RL-Feinabstimmung als auch für überwachte Feinabstimmung durch. In unseren Experimenten zeigen wir, dass DPOK im Allgemeinen der überwachten Feinabstimmung sowohl in Bezug auf die Bild-Text-Ausrichtung als auch auf die Bildqualität überlegen ist.
Da Dialogagenten in ihrer Leistung zunehmend menschenähnlicher werden, ist es unerlässlich, effektive Wege zu entwickeln, um ihr Verhalten auf hoher Ebene zu beschreiben, ohne in die Falle des Anthropomorphismus zu tappen. In diesem Artikel stellen wir das Konzept des Rollenspiels in den Vordergrund. Indem wir das Verhalten von Dialogagenten als Rollenspiel betrachten, können wir auf vertraute folkpsychologische Begriffe zurückgreifen, ohne den Sprachmodellen menschliche Eigenschaften zuzuschreiben, die sie tatsächlich nicht besitzen. Auf diese Weise werden zwei wichtige Fälle des Verhaltens von Dialogagenten behandelt, nämlich (scheinbare) Täuschung und (scheinbares) Selbstbewusstsein.
Wir präsentieren PandaGPT, einen Ansatz, um große Sprachmodelle mit visuellen und auditiven Anweisungsfolge-Fähigkeiten auszustatten. Unsere Pilotexperimente zeigen, dass PandaGPT komplexe Aufgaben wie die Erstellung detaillierter Bildbeschreibungen, das Schreiben von Geschichten, die durch Videos inspiriert sind, und das Beantworten von Fragen zu Audiodateien bewältigen kann. Interessanterweise kann PandaGPT multimodale Eingaben gleichzeitig verarbeiten und deren Semantik natürlich kombinieren. Beispielsweise kann PandaGPT verbinden, wie Objekte in einem Bild/Video aussehen und wie sie in einem Audio klingen. Um dies zu erreichen, kombiniert PandaGPT die multimodalen Encoder von ImageBind und die großen Sprachmodelle von Vicuna. Bemerkenswert ist, dass für das Training von PandaGPT nur ausgerichtete Bild-Text-Paare benötigt werden. Dank der starken Fähigkeit von ImageBind, Daten aus verschiedenen Modalitäten in denselben Raum einzubetten, zeigt PandaGPT emergente, d.h. Zero-Shot, cross-modale Verhaltensweisen für Daten außer Bild und Text (z.B. Video, Audio, Tiefe, Thermik und IMU). Wir hoffen, dass PandaGPT als erster Schritt hin zur Entwicklung einer AGI dient, die Eingaben in verschiedenen Modalitäten ganzheitlich wahrnehmen und verstehen kann, so wie wir Menschen es tun. Unsere Projektseite finden Sie unter https://panda-gpt.github.io/.
Entscheidungsagenten, die auf großen Sprachmodellen (Large Language Models, LLMs) basieren, haben die Fähigkeit gezeigt, sich über mehrere Aufgaben hinweg zu verallgemeinern. Ihre Leistung hängt jedoch von massiven Datenmengen und Rechenleistung ab. Wir argumentieren, dass diese Ineffizienz auf das Vergessensphänomen zurückzuführen ist, bei dem ein Modell seine Verhaltensweisen während des Trainings in den Parametern speichert. Infolgedessen kann das Training an einer neuen Aufgabe die Leistung des Modells bei vorherigen Aufgaben beeinträchtigen. Im Gegensatz zum impliziten Speichermechanismus von LLMs nutzt das menschliche Gehirn einen verteilten Speicher, der dabei hilft, mehrere Fähigkeiten effizient zu verwalten und zu organisieren, wodurch das Vergessensphänomen gemildert wird. Inspiriert davon schlagen wir ein internes Arbeitsgedächtnismodul vor, um Informationen für verschiedene nachgelagerte Aufgaben zu speichern, zu kombinieren und abzurufen. Evaluierungsergebnisse zeigen, dass die vorgeschlagene Methode die Trainings effizienz und Generalisierung sowohl in Atari-Spielen als auch in Meta-World-Objekthandhabungsaufgaben verbessert. Darüber hinaus demonstrieren wir, dass das Feinabstimmen des Gedächtnisses die Anpassungsfähigkeit der vorgeschlagenen Architektur weiter steigert.
Wir stellen Three Towers (3T) vor, eine flexible Methode zur Verbesserung des kontrastiven Lernens von Vision-Sprache-Modellen durch die Einbindung vortrainierter Bildklassifikatoren. Während kontrastive Modelle üblicherweise von Grund auf trainiert werden, hat LiT (Zhai et al., 2022) kürzlich gezeigt, dass die Verwendung vortrainierter Klassifikator-Einbettungen Leistungssteigerungen bringt. Allerdings ersetzt LiT den Bildturm direkt durch die eingefrorenen Einbettungen, wodurch potenzielle Vorteile des kontrastiven Trainings des Bildturms ausgeschlossen werden. Mit 3T schlagen wir eine flexiblere Strategie vor, die es dem Bildturm ermöglicht, sowohl von vortrainierten Einbettungen als auch vom kontrastiven Training zu profitieren. Um dies zu erreichen, führen wir einen dritten Turm ein, der die eingefrorenen vortrainierten Einbettungen enthält, und fördern die Ausrichtung zwischen diesem dritten Turm und den Haupt-Bild-Text-Türmen. Empirisch verbessert 3T durchgängig die Leistung gegenüber LiT und der CLIP-artigen Baseline, die von Grund auf trainiert wird, bei Retrieval-Aufgaben. Bei der Klassifikation übertrifft 3T zuverlässig die von-Grund-auf-Baseline, und während es im Vergleich zu LiT bei JFT-vortrainierten Modellen schlechter abschneidet, übertrifft es LiT bei ImageNet-21k und Places365 Vortraining.
Autoregressive Sprachmodelle werden trainiert, indem die Kreuzentropie der Modellverteilung Q relativ zur Datenverteilung P minimiert wird – das heißt, die Vorwärts-Kreuzentropie wird minimiert, was der Maximum-Likelihood-Schätzung (MLE) entspricht. Wir haben beobachtet, dass auf diese Weise trainierte Modelle „übergeneralisieren“ können, in dem Sinne, dass sie nicht menschenähnlichen Text erzeugen. Darüber hinaus glauben wir, dass die umgekehrte Kreuzentropie, also die Kreuzentropie von P relativ zu Q, besser widerspiegelt, wie ein Mensch den von einem Modell generierten Text bewerten würde. Daher schlagen wir das Lernen mit MixCE vor, einem Ziel, das die Vorwärts- und die umgekehrte Kreuzentropie mischt. Wir bewerten Modelle, die mit diesem Ziel auf synthetischen Datenszenarien (bei denen P bekannt ist) und realen Daten trainiert wurden, und zeigen, dass die resultierenden Modelle besseren generierten Text liefern, ohne komplexe Dekodierungsstrategien zu benötigen. Unser Code und unsere Modelle sind öffentlich verfügbar unter https://github.com/bloomberg/mixce-acl2023.
Große Sprachmodelle (LLMs) transformieren die Gesellschaft und dringen in vielfältige Anwendungen ein. Infolgedessen werden LLMs häufig mit uns und anderen Akteuren interagieren. Es ist daher von großem gesellschaftlichem Wert zu verstehen, wie sich LLMs in interaktiven sozialen Kontexten verhalten. Hier schlagen wir vor, die Verhaltensspieltheorie zu nutzen, um das Kooperations- und Koordinationsverhalten von LLMs zu untersuchen. Dazu lassen wir verschiedene LLMs (GPT-3, GPT-3.5 und GPT-4) endlich wiederholte Spiele gegeneinander und mit anderen, menschenähnlichen Strategien spielen. Unsere Ergebnisse zeigen, dass LLMs in solchen Aufgaben generell gut abschneiden und auch persistente Verhaltenssignaturen aufdecken. In einer großen Anzahl von Zwei-Spieler-Zwei-Strategien-Spielen stellen wir fest, dass LLMs besonders gut in Spielen abschneiden, in denen die Verfolgung des eigenen Eigeninteresses vorteilhaft ist, wie beispielsweise in der Familie des iterierten Gefangenendilemmas. In Spielen, die Koordination erfordern, verhalten sie sich jedoch suboptimal. Daher konzentrieren wir uns weiterhin auf zwei Spiele aus diesen unterschiedlichen Familien. Im kanonischen iterierten Gefangenendilemma stellen wir fest, dass GPT-4 besonders unnachgiebig handelt und immer defektiert, nachdem ein anderer Akteur nur einmal defektiert hat. Im Kampf der Geschlechter zeigt sich, dass GPT-4 das Verhalten der einfachen Konvention, zwischen den Optionen zu wechseln, nicht erreichen kann. Wir bestätigen, dass diese Verhaltenssignaturen über Robustheitsprüfungen hinweg stabil sind. Schließlich zeigen wir, wie das Verhalten von GPT-4 durch die Bereitstellung weiterer Informationen über den anderen Spieler sowie durch die Aufforderung, die Aktionen des anderen Spielers vor einer Entscheidung vorherzusagen, modifiziert werden kann. Diese Ergebnisse bereichern unser Verständnis des sozialen Verhaltens von LLMs und ebnen den Weg für eine Verhaltensspieltheorie für Maschinen.
Transformer zeigen beeindruckende Generalisierungsfähigkeiten bei Aufgaben mit einer festen Kontextlänge. Allerdings gelingt es ihnen nicht, auf Sequenzen beliebiger Länge zu verallgemeinern, selbst bei scheinbar einfachen Aufgaben wie dem Duplizieren einer Zeichenkette. Darüber hinaus ist das Training auf längeren Sequenzen aufgrund der quadratischen Rechenkomplexität des globalen Aufmerksamkeitsmechanismus ineffizient. In dieser Arbeit zeigen wir, dass dieses Versagen mit Positionskodierungen zusammenhängt, die für längere Sequenzen außerhalb der Verteilung liegen (selbst bei relativen Kodierungen), und stellen eine neuartige Familie von Positionskodierungen vor, die dieses Problem überwinden können. Konkret simuliert unser randomisiertes Positionskodierungsschema die Positionen längerer Sequenzen und wählt zufällig eine geordnete Teilmenge aus, die der Länge der Sequenz entspricht. Unsere umfangreiche empirische Auswertung von 6000 Modellen über 15 algorithmische Denkaufgaben hinweg zeigt, dass unsere Methode es Transformern ermöglicht, auf Sequenzen ungesehener Länge zu verallgemeinern (wodurch die Testgenauigkeit im Durchschnitt um 12,0 % steigt).
Token-Embeddings, eine Abbildung von diskreten lexikalischen Symbolen auf kontinuierliche Vektoren, bilden das Herzstück jedes Sprachmodells (LM). Allerdings können die Bedeutungen lexikalischer Symbole auch durch ihre strukturelle Rolle in einem langen Kontext bestimmt und sogar neu definiert werden. In diesem Artikel stellen wir die Frage: Ist es möglich, dass ein Sprachmodell leistungsfähig ist, ohne feste Token-Embeddings zu verwenden? Ein solches Sprachmodell müsste sich vollständig auf das gemeinsame Auftreten und die Wiederholung von Tokens im Kontext verlassen, anstatt auf die a priori Identität eines Tokens. Um dies zu beantworten, untersuchen wir lexinvariante Sprachmodelle, die gegenüber lexikalischen Symbolen invariant sind und daher in der Praxis keine festen Token-Embeddings benötigen. Zunächst beweisen wir, dass wir ein lexinvariantes LM konstruieren können, das mit einer gleichmäßigen Rate, die polynomiell in Bezug auf die Kontextlänge ist und einen konstanten Faktor aufweist, der sublinear in der Vokabulargröße ist, gegen das wahre Sprachmodell konvergiert. Zweitens bauen wir ein lexinvariantes LM, indem wir Tokens einfach mit zufälligen Gauß-Vektoren kodieren, sodass jeder Token innerhalb jeder Sequenz dieselbe Darstellung erhält, aber über verschiedene Sequenzen hinweg unterschiedliche Darstellungen. Empirisch zeigen wir, dass es tatsächlich eine Perplexität erreichen kann, die mit der eines Standard-Sprachmodells vergleichbar ist, vorausgesetzt, der Kontext ist ausreichend lang. Wir untersuchen weiterhin zwei Eigenschaften lexinvarianter Sprachmodelle: Erstens implementiert es bei einem aus einer Substitutionschiffre des Englischen generierten Text implizit eine Bayes’sche Entschlüsselung im Kontext und leitet die Abbildung auf die zugrunde liegenden realen Tokens mit hoher Genauigkeit ab. Zweitens weist es im Durchschnitt eine 4-fach bessere Genauigkeit bei synthetischen Aufgaben zur Schlussfolgerung im Kontext auf. Schließlich diskutieren wir die Regularisierung standardmäßiger Sprachmodelle hin zur Lexinvarianz und potenzielle praktische Anwendungen.
Große Sprachmodelle (LLMs) wie GPT-3 haben sich als universelle Sprachmodelle etabliert, die in der Lage sind, viele Aufgaben der natürlichen Sprachgenerierung oder -verarbeitung zu bewältigen. Im Bereich der maschinellen Übersetzung (MT) haben mehrere Arbeiten Few-Shot-Prompting-Mechanismen untersucht, um bessere Übersetzungen aus LLMs zu erzielen. Es gab jedoch relativ wenig Forschung dazu, wie sich solche Übersetzungen qualitativ von den Übersetzungen unterscheiden, die von standardmäßigen neuronalen maschinellen Übersetzungsmodellen (NMT) erzeugt werden. In dieser Arbeit untersuchen wir diese Unterschiede im Hinblick auf die Wörtlichkeit der Übersetzungen, die von den beiden Systemen produziert werden. Unter Verwendung von Wörtlichkeitsmaßen, die Wortausrichtung und Monotonie beinhalten, stellen wir fest, dass Übersetzungen aus dem Englischen (E-X) von GPTs tendenziell weniger wörtlich sind, während sie ähnliche oder bessere Werte bei den MT-Qualitätsmetriken aufweisen. Wir zeigen, dass dieser Befund auch in menschlichen Bewertungen bestätigt wird. Anschließend demonstrieren wir, dass diese Unterschiede besonders ausgeprägt sind, wenn Sätze mit idiomatischen Ausdrücken übersetzt werden.
Wir präsentieren Backpacks: eine neue neuronale Architektur, die starke Modellierungsleistung mit einer Schnittstelle für Interpretierbarkeit und Kontrolle verbindet. Backpacks lernen mehrere nicht-kontextuelle Sinnvektoren für jedes Wort in einem Vokabular und repräsentieren ein Wort in einer Sequenz als eine kontextabhängige, nicht-negative lineare Kombination von Sinnvektoren in dieser Sequenz. Wir stellen fest, dass sich die Sinnvektoren nach dem Training spezialisieren, wobei jeder einen anderen Aspekt eines Wortes kodiert. Wir können einen Sinnvektor interpretieren, indem wir seine (nicht-kontextuelle, lineare) Projektion auf den Ausgaberaum untersuchen, und in diese interpretierbaren Anknüpfungspunkte eingreifen, um das Verhalten des Modells auf vorhersehbare Weise zu ändern. Wir trainieren ein 170-Millionen-Parameter-Backpack-Sprachmodell auf OpenWebText, das den Verlust eines GPT-2-small-Transformers (124 Millionen Parameter) erreicht. Bei lexikalischen Ähnlichkeitsbewertungen stellen wir fest, dass die Sinnvektoren von Backpacks sogar die Wortembeddings eines 6-Milliarden-Parameter-Transformer-LMs übertreffen. Schließlich präsentieren wir einfache Algorithmen, die in Sinnvektoren eingreifen, um kontrollierte Textgenerierung und Entvoreingenommenheit durchzuführen. Zum Beispiel können wir das Sinnvokabular bearbeiten, um stärker auf ein Thema hinzutenden, oder eine Quelle von Geschlechterverzerrung auf einen Sinnvektor lokalisieren und diesen Sinn global unterdrücken.
In-Context-Learning, eine Fähigkeit, die es einem Modell ermöglicht, aus Eingabebeispielen „on-the-fly“ zu lernen, ohne Gewichtsaktualisierungen zu erfordern, ist ein wesentliches Merkmal großer Sprachmodelle. In dieser Arbeit folgen wir dem in (Garg et al., 2022) vorgeschlagenen Ansatz, um die Allgemeingültigkeit und Grenzen des In-Context-Learnings aus der Perspektive der einfachen, aber grundlegenden Aufgabe der linearen Regression besser zu verstehen. Die zentrale Frage, die wir beantworten möchten, lautet: Sind Transformer besser geeignet als einige natürliche und einfachere Architekturen, um In-Context-Learning unter variierenden Verteilungsverschiebungen durchzuführen? Um Transformer zu vergleichen, schlagen wir vor, eine einfache Architektur basierend auf set-basierten Multi-Layer Perceptrons (MLPs) zu verwenden. Wir stellen fest, dass sowohl Transformer als auch set-basierte MLPs In-Context-Learning bei In-Distribution-Evaluierungen zeigen, wobei Transformer die Leistung der Methode der kleinsten Quadrate (OLS) genauer nachahmen. Transformer zeigen auch eine bessere Widerstandsfähigkeit gegenüber milden Verteilungsverschiebungen, bei denen set-basierte MLPs scheitern. Bei starken Verteilungsverschiebungen nimmt jedoch die Fähigkeit zum In-Context-Learning bei beiden Modellen ab.
Es wird allgemein angenommen, dass die leistungsstärksten Sprachmodelle (LMs) auf einer Kombination aus enormem Umfang, Instruktionsdaten und menschlichem Feedback beruhen, um spezialisierte Aufgaben – wie Zusammenfassung und Paraphrasierung – ohne Aufsicht auszuführen. In diesem Artikel schlagen wir vor, dass Sprachmodelle lernen können, Sätze zusammenzufassen und zu paraphrasieren, ohne diese drei Faktoren. Wir stellen Impossible Distillation vor, ein Framework, das einen aufgaben-spezifischen Datensatz direkt aus einem Standard-LM destilliert, selbst wenn es für das LM selbst unmöglich ist, die Aufgabe zuverlässig zu lösen. Indem wir ein Schülermodell auf dem generierten Datensatz trainieren und seine Fähigkeiten durch Selbst-Destillation verstärken, erzeugt unsere Methode ein hochwertiges Modell und einen Datensatz aus einem qualitativ minderwertigen Lehrermodell, ohne den Bedarf an Umfang oder Aufsicht. Mit Impossible Distillation können wir ein Modell destillieren, das eine Größenordnung kleiner ist (mit nur 770M Parametern) und das 175B Parameter große GPT-3 sowohl in Qualität als auch Steuerbarkeit übertrifft, wie durch automatische und menschliche Bewertungen bestätigt wird. Darüber hinaus erhalten wir als nützliches Nebenprodukt unseres Ansatzes DIMSUM+, einen hochwertigen Datensatz mit 3,4M Satzzusammenfassungen und Paraphrasen. Unsere Analysen zeigen, dass dieser Datensatz, als rein LM-generiertes Korpus, vielfältiger und effektiver für die Generalisierung auf unbekannte Domänen ist als alle von Menschen erstellten Datensätze – einschließlich Gigaword mit 4M Proben.
Jüngste Fortschritte in der Text-zu-Bild-Generierung haben bedeutende Fortschritte in der Null-Shot-3D-Formgenerierung ermöglicht. Dies wird durch Score-Distillation erreicht, eine Methodik, die vortrainierte Text-zu-Bild-Diffusionsmodelle verwendet, um die Parameter einer 3D-Neuronalen Repräsentation, z.B. eines Neural Radiance Field (NeRF), zu optimieren. Obwohl vielversprechende Ergebnisse gezeigt werden, sind bestehende Methoden oft nicht in der Lage, die Geometrie komplexer Formen wie menschlicher Körper zu bewahren. Um diese Herausforderung zu bewältigen, stellen wir ZeroAvatar vor, eine Methode, die das explizite 3D-Menschkörper-Prior in den Optimierungsprozess einführt. Konkret schätzen und verfeinern wir zunächst die Parameter eines parametrischen Menschkörpers aus einem einzelnen Bild. Während der Optimierung verwenden wir den posierten parametrischen Körper als zusätzliche geometrische Beschränkung, um sowohl das Diffusionsmodell als auch das zugrunde liegende Dichtefeld zu regularisieren. Schließlich schlagen wir einen UV-geführten Textur-Regularisierungsterm vor, um die Vervollständigung der Textur auf unsichtbaren Körperteilen weiter zu leiten. Wir zeigen, dass ZeroAvatar die Robustheit und 3D-Konsistenz der optimierungsbasierten Bild-zu-3D-Avatar-Generierung signifikant verbessert und bestehende Null-Shot-Bild-zu-3D-Methoden übertrifft.
In der aktuellen Forschung sind große Sprachmodelle (LLMs) in der Lage, Denkaufgaben zu bewältigen, indem sie Gedankenketten durch spezifische Prompts generieren. Dennoch besteht eine erhebliche Diskrepanz zwischen ihrer Fähigkeit, komplexe Denkprobleme zu lösen, und der des Menschen. Derzeit konzentrieren sich die meisten Ansätze auf Gedankenketten (COT) und den Einsatz von Werkzeugen, ohne die Übernahme und Anwendung menschlicher kognitiver Rahmenbedingungen zu berücksichtigen. Es ist bekannt, dass Menschen bei der Bewältigung komplexer Denkherausforderungen typischerweise verschiedene kognitive Fähigkeiten einsetzen und die Interaktion mit allen Aspekten von Werkzeugen, Wissen und externen Umgebungsinformationen benötigen, um anspruchsvolle Aufgaben zu bewältigen. Dieses Papier stellt ein neuartiges intelligentes Framework vor, das als OlaGPT bezeichnet wird. OlaGPT hat ein kognitives Architekturframework sorgfältig untersucht und schlägt vor, bestimmte Aspekte der menschlichen Kognition zu simulieren. Das Framework beinhaltet die Annäherung an verschiedene kognitive Module, einschließlich Aufmerksamkeit, Gedächtnis, Denken, Lernen sowie entsprechende Planungs- und Entscheidungsmechanismen. Inspiriert vom aktiven Lernmechanismus des Menschen wird eine Lerneinheit vorgeschlagen, die frühere Fehler und Expertenmeinungen aufzeichnet und dynamisch darauf verweist, um die Fähigkeit zur Lösung ähnlicher Probleme zu stärken. Das Papier skizziert auch gängige effektive Denkrahmen für die menschliche Problemlösung und entwirft entsprechend Chain-of-Thought (COT)-Vorlagen. Ein umfassender Entscheidungsmechanismus wird ebenfalls vorgeschlagen, um die Modellgenauigkeit zu maximieren. Die Wirksamkeit von OlaGPT wurde auf mehreren Denkdatensätzen streng bewertet, und die experimentellen Ergebnisse zeigen, dass OlaGPT die aktuellen Benchmarks übertrifft und seine überlegene Leistung unter Beweis stellt. Unsere Implementierung von OlaGPT ist auf GitHub verfügbar: https://github.com/oladata-team/OlaGPT.