Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Kürzlich hat die Verwendung eines leistungsstarken proprietären Large Language Model (LLM) (z. B. GPT-4) als Bewerter für langformatige Antworten zum De-facto-Standard entwickelt. Für Praktiker mit groß angelegten Bewertungsaufgaben und spezifischen Kriterien (z. B. Lesbarkeit für Kinder) ist die Verwendung proprietärer LLMs als Bewerter jedoch aufgrund der Closed-Source-Natur, unkontrollierten Versionierung und prohibitiv hohen Kosten unzuverlässig. In dieser Arbeit stellen wir Prometheus vor, ein vollständig Open-Source-LLM, das in Bezug auf die Bewertungsfähigkeiten von GPT-4 gleichwertig ist, wenn die entsprechenden Referenzmaterialien (Referenzantwort, Bewertungsraster) bereitgestellt werden. Zunächst erstellen wir die Feedback Collection, einen neuen Datensatz, der aus 1.000 detaillierten Bewertungsrastern, 20.000 Anweisungen und 100.000 Antworten sowie Sprachfeedback besteht, die von GPT-4 generiert wurden. Mit der Feedback Collection trainieren wir Prometheus, ein 13B-Bewerter-LLM, das jeden gegebenen langformatigen Text basierend auf einem vom Benutzer bereitgestellten benutzerdefinierten Bewertungsraster bewerten kann. Experimentelle Ergebnisse zeigen, dass Prometheus bei der Bewertung mit 45 benutzerdefinierten Bewertungsrastern eine Pearson-Korrelation von 0,897 mit menschlichen Bewertern erreicht, was mit GPT-4 (0,882) vergleichbar ist und ChatGPT (0,392) deutlich übertrifft. Darüber hinaus zeigt die Messung der Korrelation mit GPT-4 mit 1.222 benutzerdefinierten Bewertungsrastern über vier Benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask Eval) ähnliche Trends und unterstreicht die Fähigkeiten von Prometheus als Bewerter-LLM. Schließlich erreicht Prometheus die höchste Genauigkeit bei zwei menschlichen Präferenz-Benchmarks (HHH Alignment & MT Bench Human Judgment) im Vergleich zu Open-Source-Belohnungsmodellen, die explizit auf menschlichen Präferenzdatensätzen trainiert wurden, und hebt sein Potenzial als universelles Belohnungsmodell hervor. Wir stellen unseren Code, Datensatz und das Modell unter https://github.com/kaistAI/Prometheus Open Source zur Verfügung.
Plan-and-Write ist ein gängiger hierarchischer Ansatz bei der Generierung von langen narrativen Texten, bei dem zunächst ein Plan erstellt wird, um das narrative Schreiben zu steuern. In Anlehnung an diesen Ansatz verlassen sich mehrere Studien darauf, große Sprachmodelle einfach für die Planung zu verwenden, was oft zu suboptimalen Ergebnissen führt. In diesem Artikel schlagen wir ein neues Framework namens Evaluation-guided Iterative Plan Extraction für die Generierung von langen narrativen Texten (EIPE-text) vor, das Pläne aus einem Korpus von Erzählungen extrahiert und die extrahierten Pläne nutzt, um einen besseren Planer zu konstruieren. EIPE-text besteht aus drei Phasen: Planextraktion, Lernen und Inferenz. In der Planextraktionsphase werden Pläne iterativ aus dem narrativen Korpus extrahiert und verbessert, um einen Plankorpus zu erstellen. Wir schlagen einen auf Frage-Antwort (QA) basierenden Bewertungsmechanismus vor, um die Pläne automatisch zu bewerten und detaillierte Anweisungen zur Planverfeinerung zu generieren, die die iterative Verbesserung leiten. In der Lernphase bauen wir einen besseren Planer, indem wir ihn mit dem Plankorpus feinabstimmen oder durch In-Context-Lernen mit Beispielen aus dem Plankorpus trainieren. Schließlich nutzen wir einen hierarchischen Ansatz, um lange narrative Texte zu generieren. Wir bewerten die Wirksamkeit von EIPE-text in den Bereichen Romane und Geschichtenerzählung. Sowohl GPT-4-basierte Bewertungen als auch menschliche Bewertungen zeigen, dass unsere Methode kohärentere und relevantere lange narrative Texte generieren kann. Unser Code wird in Zukunft veröffentlicht.
Wir untersuchen die Verwendung von Sprache als perzeptive Repräsentation für die Vision-und-Sprache-Navigation. Unser Ansatz nutzt Standard-Visionsysteme (für Bildbeschreibung und Objekterkennung), um den egozentrischen Panoramablick eines Agenten in jedem Zeitschritt in natürliche Sprachbeschreibungen umzuwandeln. Anschließend feintunen wir ein vortrainiertes Sprachmodell, um basierend auf der aktuellen Ansicht und der Trajektorienhistorie eine Aktion auszuwählen, die die Navigationsanweisungen bestmöglich erfüllt. Im Gegensatz zum Standardaufbau, bei dem ein vortrainiertes Sprachmodell direkt mit kontinuierlichen visuellen Merkmalen aus vortrainierten Visionsmodellen arbeitet, verwendet unser Ansatz stattdessen (diskrete) Sprache als perzeptive Repräsentation. Wir untersuchen zwei Anwendungsfälle unseres sprachbasierten Navigationsansatzes (LangNav) auf dem R2R-Vision-und-Sprache-Navigationsbenchmark: die Generierung synthetischer Trajektorien aus einem geprompten großen Sprachmodell (GPT-4), mit denen ein kleineres Sprachmodell feingetunt wird; und Sim-to-Real-Transfer, bei dem wir eine in einer simulierten Umgebung (ALFRED) gelernte Policy auf eine reale Umgebung (R2R) übertragen. Unser Ansatz verbessert starke Baselines, die auf visuellen Merkmalen beruhen, in Szenarien, in denen nur wenige Gold-Trajektorien (10-100) verfügbar sind, und demonstriert das Potenzial der Verwendung von Sprache als perzeptive Repräsentation für Navigationsaufgaben.