Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Sprachmodelle wie GPT-3.5 und ChatGPT zeigen bemerkenswerte Fähigkeiten, vielfältige menschliche Anweisungen zu befolgen und eine breite Palette von Aufgaben zu erledigen. Allerdings stellen wir fest, dass heutige Sprachmodelle bei der Untersuchung mit einer Reihe von grundlegenden Tabellenverständnisaufgaben in vielen tabellenbezogenen Aufgaben noch suboptimal sind. Dies liegt wahrscheinlich daran, dass sie überwiegend auf eindimensionalen natürlichen Sprachtexten vortrainiert werden, während relationale Tabellen zweidimensionale Objekte sind. In dieser Arbeit schlagen wir ein neues „Table-Tuning“-Paradigma vor, bei dem wir Sprachmodelle wie GPT-3.5 und ChatGPT weiter trainieren bzw. feinabstimmen, indem wir vielfältige Tabellenaufgaben, die aus realen Tabellen synthetisiert wurden, als Trainingsdaten verwenden. Ziel ist es, die Fähigkeit der Sprachmodelle, Tabellen zu verstehen und Tabellenaufgaben durchzuführen, zu verbessern. Wir zeigen, dass unsere daraus resultierenden Table-GPT-Modelle (1) bessere Tabellenverständnisfähigkeiten aufweisen, indem sie durchweg bessere Leistungen als das Standard-GPT-3.5 und ChatGPT bei einer breiten Palette von Tabellenaufgaben, einschließlich bisher unbekannter Aufgaben, erzielen, und (2) eine starke Generalisierbarkeit besitzen, indem sie in der Lage sind, auf vielfältige menschliche Anweisungen zu reagieren, um neue Tabellenaufgaben in einer Weise ähnlich wie GPT-3.5 und ChatGPT durchzuführen.
Dieses Paper stellt PaLI-3 vor, ein kleineres, schnelleres und leistungsstärkeres Vision-Language-Modell (VLM), das sich positiv gegenüber ähnlichen Modellen, die 10-mal größer sind, behauptet. Um diese starke Leistung zu erreichen, vergleichen wir Vision Transformer (ViT)-Modelle, die mit Klassifikationszielen vortrainiert wurden, mit solchen, die kontrastiv (SigLIP) vortrainiert wurden. Wir stellen fest, dass SigLIP-basiertes PaLI, obwohl es bei Standard-Benchmarks für Bildklassifikation leicht unterdurchschnittlich abschneidet, überlegene Leistung über verschiedene multimodale Benchmarks hinweg zeigt, insbesondere bei der Lokalisierung und dem visuell-situierten Textverständnis. Wir skalieren den SigLIP-Bildencoder auf bis zu 2 Milliarden Parameter und erreichen einen neuen State-of-the-Art bei der mehrsprachigen cross-modalen Retrieval. Wir hoffen, dass PaLI-3 mit nur 5 Milliarden Parametern die Forschung zu grundlegenden Komponenten komplexer VLMs neu belebt und eine neue Generation von hochskalierten Modellen antreiben könnte.
Quantisierung ist eine unverzichtbare Technik für den Einsatz von Large Language Models (LLMs) und hat kürzlich auch Einzug in das LoRA-Fine-Tuning gefunden. In dieser Arbeit konzentrieren wir uns auf das Szenario, in dem Quantisierung und LoRA-Fine-Tuning gemeinsam auf ein vortrainiertes Modell angewendet werden. In solchen Fällen ist es üblich, eine konsistente Leistungslücke bei Downstream-Aufgaben zwischen dem vollständigen Fine-Tuning und dem Ansatz der Quantisierung plus LoRA-Fine-Tuning zu beobachten. Als Antwort darauf schlagen wir LoftQ (LoRA-Fine-Tuning-aware Quantization) vor, ein neuartiges Quantisierungsframework, das gleichzeitig ein LLM quantisiert und eine geeignete Low-Rank-Initialisierung für das LoRA-Fine-Tuning findet. Eine solche Initialisierung mildert die Diskrepanz zwischen dem quantisierten und dem vollpräzisen Modell und verbessert die Generalisierung bei Downstream-Aufgaben erheblich. Wir evaluieren unsere Methode anhand von Aufgaben zum natürlichen Sprachverständnis, zur Fragebeantwortung, zur Zusammenfassung und zur natürlichen Sprachgenerierung. Experimente zeigen, dass unsere Methode äußerst effektiv ist und bestehende Quantisierungsmethoden übertrifft, insbesondere in den anspruchsvollen 2-Bit- und 2/4-Bit-Mixed-Precision-Regimen. Wir werden unseren Code veröffentlichen.
Große Sprachmodelle (LLMs) haben eine zunehmende Fähigkeit gezeigt, ein übergeordnetes Ziel in einer aktiven Computerumgebung (z. B. MiniWoB++) zu planen und auszuführen. Um eine Aufgabe zu erfüllen, erfordern aktuelle Arbeiten oft, dass ein Modell aus Beispielabläufen der Aufgabe lernt, entweder durch überwachtes Lernen oder durch Few-/Many-Shot-Prompting. Ohne diese Beispielabläufe bleibt es eine Herausforderung, wie ein Agent autonom lernen und seine Kontrolle über einen Computer verbessern kann, was die Fähigkeit eines Agents einschränkt, eine neue Aufgabe auszuführen. Wir nähern uns diesem Problem mit einem Zero-Shot-Agenten, der keine vorgegebenen Expertenabläufe benötigt. Unser Agent plant ausführbare Aktionen in einer teilweise beobachteten Umgebung und schreitet iterativ bei einer Aufgabe voran, indem er seine Fehler durch Selbstreflexion und strukturiertes Gedankenmanagement identifiziert und daraus lernt. Bei den einfachen Aufgaben von MiniWoB++ zeigen wir, dass unser Zero-Shot-Agent oft die aktuellen State-of-the-Art-Modelle übertrifft, mit effizienterer Argumentation. Bei komplexeren Aufgaben schneidet unser reflektierender Agent genauso gut ab wie die bisher besten Modelle, obwohl frühere Arbeiten den Vorteil hatten, auf Expertenabläufe oder zusätzliche Bildschirminformationen zugreifen zu können.
Bei der Anwendung auf Frage-Antwort-Aufgaben und andere Textgenerierungsaufgaben können Sprachmodelle (LMs) entweder generativ (durch das Stichprobenziehen von Antworten aus ihrer Ausgabeverteilung) oder diskriminativ (durch die Verwendung zur Bewertung oder Rangfolge einer Reihe von Kandidatenausgaben) abgefragt werden. Diese Verfahren führen manchmal zu sehr unterschiedlichen Vorhersagen. Wie können wir gegenseitig inkompatible Bewertungsverfahren in Einklang bringen, um kohärente LM-Vorhersagen zu erhalten? Wir stellen ein neues, trainingsfreies, spieltheoretisches Verfahren zur Sprachmodell-Dekodierung vor. Unser Ansatz formuliert die Sprachmodell-Dekodierung als ein regularisiertes, unvollständig informiertes sequenzielles Signalgebungsspiel – das wir als CONSENSUS GAME bezeichnen –, in dem ein GENERATOR versucht, einen abstrakten Korrektheitsparameter mithilfe von natürlichen Sprachsätzen an einen DISKRIMINATOR zu kommunizieren. Wir entwickeln rechnerische Verfahren zur Ermittlung von Näherungsgleichgewichten dieses Spiels, was zu einem Dekodierungsalgorithmus führt, den wir EQUILIBRIUM-RANKING nennen. Angewendet auf eine Vielzahl von Aufgaben (einschließlich Leseverständnis, gesunder Menschenverstand, mathematische Problemlösung und Dialog) verbessert EQUILIBRIUM-RANKING die Leistung im Vergleich zu bestehenden LM-Dekodierungsverfahren konsequent und manchmal erheblich – auf mehreren Benchmarks beobachten wir, dass die Anwendung von EQUILIBRIUM-RANKING auf LLaMA-7B die viel größeren Modelle LLaMA-65B und PaLM-540B übertrifft. Diese Ergebnisse unterstreichen das Potenzial spieltheoretischer Werkzeuge zur Bewältigung grundlegender Herausforderungen in Bezug auf Wahrhaftigkeit und Konsistenz bei LMs.
Große Sprachmodelle (LLMs) haben bemerkenswerte Leistungen in einer Vielzahl von Aufgaben der natürlichen Sprachverarbeitung (NLP) gezeigt, die oft mit den besten aufgabenspezifischen Modellen gleichziehen oder diese sogar übertreffen. Diese Studie zielt darauf ab, die finanziellen Denkfähigkeiten von LLMs zu bewerten. Wir nutzen Prüfungsfragen aus dem Chartered Financial Analyst (CFA) Programm, um eine umfassende Bewertung von ChatGPT und GPT-4 in der Finanzanalyse durchzuführen, wobei Zero-Shot (ZS), Chain-of-Thought (CoT) und Few-Shot (FS) Szenarien berücksichtigt werden. Wir präsentieren eine detaillierte Analyse der Leistungen und Grenzen der Modelle und schätzen ein, ob sie eine Chance hätten, die CFA-Prüfungen zu bestehen. Schließlich skizzieren wir Einblicke in potenzielle Strategien und Verbesserungen, um die Anwendbarkeit von LLMs in der Finanzwelt zu steigern. In dieser Perspektive hoffen wir, dass diese Arbeit den Weg für zukünftige Studien ebnet, um die finanziellen Denkfähigkeiten von LLMs durch rigorose Bewertung weiter zu verbessern.
Große Sprachmodelle (LLMs) sind bereits recht gut darin, einfachere Programmieraufgaben wie die in den HumanEval- oder MBPP-Benchmarks zu lösen. Die Lösung komplexerer und wettbewerbsorientierter Programmieraufgaben stellt für diese Modelle jedoch nach wie vor eine große Herausforderung dar – möglicherweise aufgrund ihrer Tendenz, Lösungen als monolithische Codeblöcke zu generieren, anstatt sie in logische Teilaufgaben und Submodule zu zerlegen. Erfahrene Programmierer hingegen schreiben instinktiv modularisierten Code mit Abstraktionen, um komplexe Aufgaben zu lösen, und verwenden dabei oft zuvor entwickelte Module wieder. Um diese Lücke zu schließen, schlagen wir CodeChain vor, ein neuartiges Inferenz-Framework, das die Generierung modularisierten Codes durch eine Kette von Selbstrevisionen fördert, wobei jede Revision durch einige repräsentative Submodule geleitet wird, die in vorherigen Iterationen generiert wurden. Konkret weist CodeChain das LLM zunächst an, modularisierten Code durch Chain-of-Thought-Prompting zu generieren. Anschließend wendet es eine Kette von Selbstrevisionen an, indem es die beiden Schritte iteriert: 1) Extraktion und Clustering der generierten Submodule und Auswahl der Cluster-Repräsentanten als die generischeren und wiederverwendbaren Implementierungen, und 2) Erweiterung des ursprünglichen Chain-of-Thought-Prompts um diese ausgewählten Modul-Implementierungen und Anweisung des LLMs, neue modularisierte Lösungen zu regenerieren. Wir stellen fest, dass CodeChain durch die natürliche Ermutigung des LLMs, die zuvor entwickelten und verifizierten Submodule wiederzuverwenden, sowohl die Modularität als auch die Korrektheit der generierten Lösungen erheblich steigern kann, was relative Pass@1-Verbesserungen von 35 % bei APPS und 76 % bei CodeContests erzielt. Es erweist sich sowohl bei OpenAI-LLMs als auch bei Open-Source-LLMs wie WizardCoder als effektiv. Wir führen außerdem umfassende Ablationsstudien mit verschiedenen Prompting-Methoden, Clusteranzahlen, Modellgrößen, Programmqualitäten usw. durch, um nützliche Erkenntnisse zu liefern, die den Erfolg von CodeChain untermauern.
Sprache und Text sind zwei wesentliche Formen menschlicher Kommunikation. Die Forschungsgemeinschaft beschäftigt sich seit vielen Jahren damit, Sprache in Text oder umgekehrt abzubilden. Im Bereich der Sprachmodellierung wurde jedoch bisher nur wenig Aufwand betrieben, um beide gemeinsam zu modellieren. Vor diesem Hintergrund untersuchen wir die gemeinsame Sprachmodellierung für Spracheinheiten und Text. Konkret vergleichen wir verschiedene Sprach-Tokenizer, um kontinuierliche Sprachsignale in diskrete Einheiten umzuwandeln, und verwenden unterschiedliche Methoden, um gemischte Sprach-Text-Daten zu erstellen. Wir führen automatische Metriken ein, um zu bewerten, wie gut das gemeinsame Sprachmodell Sprache und Text integriert. Außerdem feintunen wir das Sprachmodell für nachgelagerte Aufgaben des gesprochenen Sprachverständnisses (Spoken Language Understanding, SLU) mit verschiedenen Modalitäten (Sprache oder Text) und testen seine Leistung, um das Erlernen gemeinsamer Repräsentationen zu bewerten. Unsere Ergebnisse zeigen, dass durch das Mischen von Spracheinheiten und Text mit unseren vorgeschlagenen Mischtechniken das gemeinsame Sprachmodell im Vergleich zu einem reinen Sprach-Baseline bei SLU-Aufgaben verbessert wird und eine Null-Shot-Übertragbarkeit zwischen den Modalitäten aufweist.