Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Da große Sprachmodelle (LLMs) ihre leistungsstarken Fähigkeiten in zahlreichen Domänen und Aufgaben, einschließlich Kontextverständnis, Codegenerierung, Sprachgenerierung, Datenstorytelling usw., unter Beweis gestellt haben, könnten viele Datenanalysten Bedenken haben, ob ihre Jobs durch KI ersetzt werden. Dieses kontroverse Thema hat in der Öffentlichkeit viel Aufmerksamkeit erregt. Dennoch befinden wir uns noch in einer Phase divergierender Meinungen ohne definitive Schlussfolgerung. Motiviert durch diese Situation stellen wir in dieser Arbeit die Forschungsfrage „Ist GPT-4 ein guter Datenanalyst?“ und zielen darauf ab, sie durch direkte Vergleichsstudien zu beantworten. Im Detail betrachten wir GPT-4 als einen Datenanalysten, der End-to-End-Datenanalysen mit Datenbanken aus einer Vielzahl von Domänen durchführt. Wir schlagen ein Framework vor, um die Probleme zu bewältigen, indem wir sorgfältig gestaltete Prompts für GPT-4 entwerfen, um Experimente durchzuführen. Zudem entwickeln wir mehrere aufgabenbezogene Bewertungsmetriken, um die Leistung mehrerer professioneller menschlicher Datenanalysten und GPT-4 systematisch zu vergleichen. Die experimentellen Ergebnisse zeigen, dass GPT-4 eine vergleichbare Leistung wie Menschen erzielen kann. Wir bieten auch vertiefte Diskussionen unserer Ergebnisse, um weitere Studien zu beleuchten, bevor wir zu dem Schluss kommen, dass GPT-4 Datenanalysten ersetzen kann.
Mit dem kürzlichen Einsatz von LLMs in praktischen Anwendungen ist es entscheidend, Methoden zu haben, die effektiv faktische Inkonsistenzen erkennen können, um die Verbreitung von Fehlinformationen zu reduzieren und das Vertrauen in die Modellausgaben zu verbessern. Bei Tests auf bestehenden Benchmarks zur faktischen Konsistenz stellen wir fest, dass einige große Sprachmodelle (LLMs) auf Klassifizierungs-Benchmarks zur Erkennung von faktischen Inkonsistenzen wettbewerbsfähig im Vergleich zu traditionellen Nicht-LLM-Methoden abschneiden. Eine genauere Analyse zeigt jedoch, dass die meisten LLMs bei komplexeren Formulierungen der Aufgabe versagen und Probleme mit bestehenden Evaluierungs-Benchmarks aufdecken, was die Evaluierungsgenauigkeit beeinträchtigt. Um dies zu beheben, schlagen wir ein neues Protokoll zur Erstellung von Inkonsistenz-Erkennungs-Benchmarks vor und setzen es in einem 10-Domänen-Benchmark namens SummEdits um. Dieser neue Benchmark ist 20-mal kosteneffizienter pro Stichprobe als bisherige Benchmarks und hoch reproduzierbar, da wir die Übereinstimmung zwischen den Annotatoren auf etwa 0,9 schätzen. Die meisten LLMs schneiden bei SummEdits schlecht ab, mit einer Leistung nahe dem Zufall. Das beste Modell, GPT-4, liegt immer noch 8\% unter der geschätzten menschlichen Leistung, was die Lücken in der Fähigkeit von LLMs aufzeigt, über Fakten zu schlussfolgern und Inkonsistenzen zu erkennen, wenn sie auftreten.
Open-World-Survival-Spiele stellen aufgrund ihrer Anforderungen an Multitasking, tiefgehende Exploration und Zielpriorisierung erhebliche Herausforderungen für KI-Algorithmen dar. Obwohl Reinforcement Learning (RL) beliebt ist, um Spiele zu lösen, begrenzt seine hohe Probenkomplexität seine Effektivität in komplexen Open-World-Spielen wie Crafter oder Minecraft. Wir schlagen einen neuartigen Ansatz, SPRING, vor, der das ursprüngliche wissenschaftliche Papier des Spiels liest und das gelernte Wissen nutzt, um das Spiel durch ein großes Sprachmodell (LLM) zu verstehen und zu spielen. Mit dem LaTeX-Quelltext als Spielkontext und einer Beschreibung der aktuellen Beobachtung des Agenten angeregt, verwendet unser SPRING-Framework einen gerichteten azyklischen Graphen (DAG) mit spielbezogenen Fragen als Knoten und Abhängigkeiten als Kanten. Wir identifizieren die optimale Aktion in der Umgebung, indem wir den DAG durchlaufen und die LLM-Antworten für jeden Knoten in topologischer Reihenfolge berechnen, wobei die Antwort des LLMs auf den letzten Knoten direkt in Umgebungsaktionen übersetzt wird. In unseren Experimenten untersuchen wir die Qualität des in Kontext induzierten „Schlussfolgerns“ unter verschiedenen Formen von Prompts in der Umgebung des Open-World-Spiels Crafter. Unsere Experimente legen nahe, dass LLMs, wenn sie mit einer konsistenten Gedankenkette angeregt werden, ein großes Potenzial haben, anspruchsvolle High-Level-Trajektorien zu vervollständigen. Quantitativ übertrifft SPRING mit GPT-4 alle state-of-the-art RL-Baselines, die für 1M Schritte trainiert wurden, ohne jegliches Training. Schließlich zeigen wir das Potenzial von Spielen als Testumgebung für LLMs.
Während Neuronale Maschinelle Übersetzung (NMT) den führenden Ansatz in der Maschinellen Übersetzung (MT) darstellt, erfordern die Ausgaben von NMT-Modellen weiterhin eine Übersetzungsnachbearbeitung, um Fehler zu korrigieren und die Qualität zu verbessern, insbesondere in kritischen Anwendungsfällen. In dieser Arbeit formalisieren wir die Aufgabe der Übersetzungsnachbearbeitung mit Großen Sprachmodellen (LLMs) und untersuchen den Einsatz von GPT-4 zur automatischen Nachbearbeitung von NMT-Ausgaben über mehrere Sprachpaare hinweg. Unsere Ergebnisse zeigen, dass GPT-4 für die Übersetzungsnachbearbeitung geeignet ist und sinnvolle Änderungen vornimmt, selbst wenn die Zielsprache nicht Englisch ist. Bemerkenswerterweise erreichen wir mit GPT-4-basierter Nachbearbeitung Spitzenleistungen bei den Sprachpaaren WMT-22 Englisch-Chinesisch, Englisch-Deutsch, Chinesisch-Englisch und Deutsch-Englisch, gemessen an den aktuellsten MT-Qualitätsmetriken.
Strategien wie das Chain-of-Thought-Prompting verbessern die Leistung von großen Sprachmodellen (LLMs) bei komplexen Denkaufgaben, indem Eingabebeispiele in Zwischenschritte zerlegt werden. Es bleibt jedoch unklar, wie solche Methoden auf lange Eingabedokumente angewendet werden können, bei denen sowohl die Zerlegung als auch die Ausgabe jedes Zwischenschritts nicht trivial zu ermitteln sind. In dieser Arbeit schlagen wir PEARL vor, ein Prompting-Framework zur Verbesserung des Denkens über lange Dokumente, das aus drei Phasen besteht: Aktionsgewinnung, Planformulierung und Planausführung. Genauer gesagt zerlegt PEARL eine Frage zu einem langen Dokument in eine Abfolge von Aktionen (z. B. ZUSAMMENFASSEN, EREIGNIS_FINDEN, BEZIEHUNG_FINDEN) und führt diese dann über das Dokument aus, um die Antwort zu erhalten. Jede Phase von PEARL wird durch Zero-Shot- oder Few-Shot-Prompting von LLMs (in unserer Arbeit GPT-4) mit minimalem menschlichen Eingaben implementiert. Wir evaluieren PEARL auf einer anspruchsvollen Teilmenge des QuALITY-Datensatzes, der Fragen enthält, die komplexes Denken über lange narrative Texte erfordern. PEARL übertrifft Zero-Shot- und Chain-of-Thought-Prompting auf diesem Datensatz, und Ablationsexperimente zeigen, dass jede Phase von PEARL entscheidend für seine Leistung ist. Insgesamt ist PEARL ein erster Schritt, um LLMs für das Denken über lange Dokumente zu nutzen.