Tägliche Papers

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

Prometheus: Induzierung fein granulärer Evaluationsfähigkeiten in Sprachmodellen
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models

Oct 12, 2023

Seungone Kim, Jamin Shin, Yejin Cho, Joel Jang, Shayne Longpre, Hwaran Lee, Sangdoo Yun, Seongjin Shin, Sungdong Kim, James Thorne, Minjoon Seo

554

Kürzlich hat die Verwendung eines leistungsstarken proprietären Large Language Model (LLM) (z. B. GPT-4) als Bewerter für langformatige Antworten zum De-facto-Standard entwickelt. Für Praktiker mit groß angelegten Bewertungsaufgaben und spezifischen Kriterien (z. B. Lesbarkeit für Kinder) ist die Verwendung proprietärer LLMs als Bewerter jedoch aufgrund der Closed-Source-Natur, unkontrollierten Versionierung und prohibitiv hohen Kosten unzuverlässig. In dieser Arbeit stellen wir Prometheus vor, ein vollständig Open-Source-LLM, das in Bezug auf die Bewertungsfähigkeiten von GPT-4 gleichwertig ist, wenn die entsprechenden Referenzmaterialien (Referenzantwort, Bewertungsraster) bereitgestellt werden. Zunächst erstellen wir die Feedback Collection, einen neuen Datensatz, der aus 1.000 detaillierten Bewertungsrastern, 20.000 Anweisungen und 100.000 Antworten sowie Sprachfeedback besteht, die von GPT-4 generiert wurden. Mit der Feedback Collection trainieren wir Prometheus, ein 13B-Bewerter-LLM, das jeden gegebenen langformatigen Text basierend auf einem vom Benutzer bereitgestellten benutzerdefinierten Bewertungsraster bewerten kann. Experimentelle Ergebnisse zeigen, dass Prometheus bei der Bewertung mit 45 benutzerdefinierten Bewertungsrastern eine Pearson-Korrelation von 0,897 mit menschlichen Bewertern erreicht, was mit GPT-4 (0,882) vergleichbar ist und ChatGPT (0,392) deutlich übertrifft. Darüber hinaus zeigt die Messung der Korrelation mit GPT-4 mit 1.222 benutzerdefinierten Bewertungsrastern über vier Benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask Eval) ähnliche Trends und unterstreicht die Fähigkeiten von Prometheus als Bewerter-LLM. Schließlich erreicht Prometheus die höchste Genauigkeit bei zwei menschlichen Präferenz-Benchmarks (HHH Alignment & MT Bench Human Judgment) im Vergleich zu Open-Source-Belohnungsmodellen, die explizit auf menschlichen Präferenzdatensätzen trainiert wurden, und hebt sein Potenzial als universelles Belohnungsmodell hervor. Wir stellen unseren Code, Datensatz und das Modell unter https://github.com/kaistAI/Prometheus Open Source zur Verfügung.

EIPE-Text: Evaluierungsgestützte iterative Planextraktion für die Generierung langer narrativer Texte
EIPE-text: Evaluation-Guided Iterative Plan Extraction for Long-Form Narrative Text Generation

Oct 12, 2023

Wang You, Wenshan Wu, Yaobo Liang, Shaoguang Mao, Chenfei Wu, Maosong Cao, Yuzhe Cai, Yiduo Guo, Yan Xia, Furu Wei, Nan Duan

Plan-and-Write ist ein gängiger hierarchischer Ansatz bei der Generierung von langen narrativen Texten, bei dem zunächst ein Plan erstellt wird, um das narrative Schreiben zu steuern. In Anlehnung an diesen Ansatz verlassen sich mehrere Studien darauf, große Sprachmodelle einfach für die Planung zu verwenden, was oft zu suboptimalen Ergebnissen führt. In diesem Artikel schlagen wir ein neues Framework namens Evaluation-guided Iterative Plan Extraction für die Generierung von langen narrativen Texten (EIPE-text) vor, das Pläne aus einem Korpus von Erzählungen extrahiert und die extrahierten Pläne nutzt, um einen besseren Planer zu konstruieren. EIPE-text besteht aus drei Phasen: Planextraktion, Lernen und Inferenz. In der Planextraktionsphase werden Pläne iterativ aus dem narrativen Korpus extrahiert und verbessert, um einen Plankorpus zu erstellen. Wir schlagen einen auf Frage-Antwort (QA) basierenden Bewertungsmechanismus vor, um die Pläne automatisch zu bewerten und detaillierte Anweisungen zur Planverfeinerung zu generieren, die die iterative Verbesserung leiten. In der Lernphase bauen wir einen besseren Planer, indem wir ihn mit dem Plankorpus feinabstimmen oder durch In-Context-Lernen mit Beispielen aus dem Plankorpus trainieren. Schließlich nutzen wir einen hierarchischen Ansatz, um lange narrative Texte zu generieren. Wir bewerten die Wirksamkeit von EIPE-text in den Bereichen Romane und Geschichtenerzählung. Sowohl GPT-4-basierte Bewertungen als auch menschliche Bewertungen zeigen, dass unsere Methode kohärentere und relevantere lange narrative Texte generieren kann. Unser Code wird in Zukunft veröffentlicht.

LangNav: Sprache als perzeptive Repräsentation für Navigation
LangNav: Language as a Perceptual Representation for Navigation

Oct 11, 2023

Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim

Wir untersuchen die Verwendung von Sprache als perzeptive Repräsentation für die Vision-und-Sprache-Navigation. Unser Ansatz nutzt Standard-Visionsysteme (für Bildbeschreibung und Objekterkennung), um den egozentrischen Panoramablick eines Agenten in jedem Zeitschritt in natürliche Sprachbeschreibungen umzuwandeln. Anschließend feintunen wir ein vortrainiertes Sprachmodell, um basierend auf der aktuellen Ansicht und der Trajektorienhistorie eine Aktion auszuwählen, die die Navigationsanweisungen bestmöglich erfüllt. Im Gegensatz zum Standardaufbau, bei dem ein vortrainiertes Sprachmodell direkt mit kontinuierlichen visuellen Merkmalen aus vortrainierten Visionsmodellen arbeitet, verwendet unser Ansatz stattdessen (diskrete) Sprache als perzeptive Repräsentation. Wir untersuchen zwei Anwendungsfälle unseres sprachbasierten Navigationsansatzes (LangNav) auf dem R2R-Vision-und-Sprache-Navigationsbenchmark: die Generierung synthetischer Trajektorien aus einem geprompten großen Sprachmodell (GPT-4), mit denen ein kleineres Sprachmodell feingetunt wird; und Sim-to-Real-Transfer, bei dem wir eine in einer simulierten Umgebung (ALFRED) gelernte Policy auf eine reale Umgebung (R2R) übertragen. Unser Ansatz verbessert starke Baselines, die auf visuellen Merkmalen beruhen, in Szenarien, in denen nur wenige Gold-Trajektorien (10-100) verfügbar sind, und demonstriert das Potenzial der Verwendung von Sprache als perzeptive Repräsentation für Navigationsaufgaben.

Prometheus: Induzierung fein granulärer Evaluationsfähigkeiten in Sprachmodellen
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models

Oct 12, 2023

Seungone Kim, Jamin Shin, Yejin Cho, Joel Jang, Shayne Longpre, Hwaran Lee, Sangdoo Yun, Seongjin Shin, Sungdong Kim, James Thorne, Minjoon Seo

554

Tägliche Papers

Prometheus: Induzierung fein granulärer Evaluationsfähigkeiten in Sprachmodellen
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models

EIPE-Text: Evaluierungsgestützte iterative Planextraktion für die Generierung langer narrativer Texte
EIPE-text: Evaluation-Guided Iterative Plan Extraction for Long-Form Narrative Text Generation

LangNav: Sprache als perzeptive Repräsentation für Navigation
LangNav: Language as a Perceptual Representation for Navigation

Support

Support

Tägliche Papers

Prometheus: Induzierung fein granulärer Evaluationsfähigkeiten in Sprachmodellen
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models

EIPE-Text: Evaluierungsgestützte iterative Planextraktion für die Generierung langer narrativer Texte
EIPE-text: Evaluation-Guided Iterative Plan Extraction for Long-Form Narrative Text Generation

LangNav: Sprache als perzeptive Repräsentation für Navigation
LangNav: Language as a Perceptual Representation for Navigation

Tägliche Papers

Prometheus: Induzierung fein granulärer Evaluationsfähigkeiten in SprachmodellenPrometheus: Inducing Fine-grained Evaluation Capability in Language Models

EIPE-Text: Evaluierungsgestützte iterative Planextraktion für die Generierung langer narrativer TexteEIPE-text: Evaluation-Guided Iterative Plan Extraction for Long-Form Narrative Text Generation

LangNav: Sprache als perzeptive Repräsentation für NavigationLangNav: Language as a Perceptual Representation for Navigation

Tägliche Papers

Prometheus: Induzierung fein granulärer Evaluationsfähigkeiten in SprachmodellenPrometheus: Inducing Fine-grained Evaluation Capability in Language Models

EIPE-Text: Evaluierungsgestützte iterative Planextraktion für die Generierung langer narrativer TexteEIPE-text: Evaluation-Guided Iterative Plan Extraction for Long-Form Narrative Text Generation

LangNav: Sprache als perzeptive Repräsentation für NavigationLangNav: Language as a Perceptual Representation for Navigation

Prometheus: Induzierung fein granulärer Evaluationsfähigkeiten in Sprachmodellen
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models

EIPE-Text: Evaluierungsgestützte iterative Planextraktion für die Generierung langer narrativer Texte
EIPE-text: Evaluation-Guided Iterative Plan Extraction for Long-Form Narrative Text Generation

LangNav: Sprache als perzeptive Repräsentation für Navigation
LangNav: Language as a Perceptual Representation for Navigation

Prometheus: Induzierung fein granulärer Evaluationsfähigkeiten in Sprachmodellen
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models

EIPE-Text: Evaluierungsgestützte iterative Planextraktion für die Generierung langer narrativer Texte
EIPE-text: Evaluation-Guided Iterative Plan Extraction for Long-Form Narrative Text Generation

LangNav: Sprache als perzeptive Repräsentation für Navigation
LangNav: Language as a Perceptual Representation for Navigation