Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Onlangs is het gebruik van een krachtig propriëtair Large Language Model (LLM) (bijv. GPT-4) als evaluator voor langere antwoorden de facto standaard geworden. Voor beoefenaars met grootschalige evaluatietaken en specifieke criteria (bijv. leesbaarheid voor kinderen) is het gebruik van propriëtaire LLM's als evaluator echter onbetrouwbaar vanwege de gesloten aard, ongecontroleerde versiebeheer en hoge kosten. In dit werk stellen we Prometheus voor, een volledig open-source LLM dat qua evaluatiecapaciteiten op het niveau van GPT-4 ligt wanneer de juiste referentiematerialen (referentietekst, beoordelingsrubriek) worden meegeleverd. We construeren eerst de Feedback Collection, een nieuwe dataset die bestaat uit 1K gedetailleerde beoordelingsrubrieken, 20K instructies en 100K antwoorden en taalfeedback gegenereerd door GPT-4. Met de Feedback Collection trainen we Prometheus, een 13B evaluator-LLM dat elke gegeven langere tekst kan beoordelen op basis van een door de gebruiker aangepaste beoordelingsrubriek. Experimentele resultaten tonen aan dat Prometheus een Pearson-correlatie van 0,897 behaalt met menselijke evaluatoren bij het beoordelen met 45 aangepaste beoordelingsrubrieken, wat vergelijkbaar is met GPT-4 (0,882) en aanzienlijk beter presteert dan ChatGPT (0,392). Bovendien laat het meten van de correlatie met GPT-4 met 1222 aangepaste beoordelingsrubrieken over vier benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask Eval) vergelijkbare trends zien, wat de capaciteiten van Prometheus als evaluator-LLM onderstreept. Ten slotte behaalt Prometheus de hoogste nauwkeurigheid op twee benchmarks voor menselijke voorkeuren (HHH Alignment & MT Bench Human Judgment) in vergelijking met open-source beloningsmodellen die expliciet zijn getraind op datasets met menselijke voorkeuren, wat het potentieel ervan als universeel beloningsmodel benadrukt. We maken onze code, dataset en model openbaar op https://github.com/kaistAI/Prometheus.
Plan-and-Write is een veelgebruikte hiërarchische aanpak bij het genereren van lange narratieve teksten, waarbij eerst een plan wordt gemaakt om het schrijven van het verhaal te sturen. In navolging van deze aanpak vertrouwen verschillende studies op het eenvoudig aansturen van grote taalmodelen voor het plannen, wat vaak suboptimale resultaten oplevert. In dit artikel stellen we een nieuw raamwerk voor genaamd Evaluation-guided Iterative Plan Extraction voor het genereren van lange narratieve teksten (EIPE-text), dat plannen extraheert uit een corpus van verhalen en de geëxtraheerde plannen gebruikt om een betere planner te construeren. EIPE-text bestaat uit drie fasen: planextractie, leren en inferentie. In de planextractiefase worden plannen iteratief geëxtraheerd en verbeterd uit het narratieve corpus, en wordt een plancorpus opgebouwd. We stellen een vraag-antwoord (QA) gebaseerd evaluatiemechanisme voor om de plannen automatisch te evalueren en gedetailleerde planverfijningsinstructies te genereren om de iteratieve verbetering te begeleiden. In de leefase bouwen we een betere planner door fine-tuning met het plancorpus of in-context leren met voorbeelden uit het plancorpus. Ten slotte maken we gebruik van een hiërarchische aanpak om lange narratieve teksten te genereren. We evalueren de effectiviteit van EIPE-text in de domeinen van romans en verhalenvertelling. Zowel GPT-4-gebaseerde evaluaties als menselijke evaluaties tonen aan dat onze methode meer samenhangende en relevante lange narratieve teksten kan genereren. Onze code zal in de toekomst worden vrijgegeven.
We onderzoeken het gebruik van taal als een perceptuele representatie voor visie-en-taalnavigatie. Onze aanpak maakt gebruik van standaard visiesystemen (voor beeldbeschrijving en objectdetectie) om het egocentrische panoramische beeld van een agent bij elke tijdstap om te zetten in natuurlijke taalbeschrijvingen. Vervolgens finetunen we een vooraf getraind taalmodel om een actie te selecteren, gebaseerd op het huidige beeld en de trajectgeschiedenis, die het beste voldoet aan de navigatie-instructies. In tegenstelling tot de standaardopzet waarbij een vooraf getraind taalmodel wordt aangepast om direct te werken met continue visuele kenmerken van vooraf getrainde visiemodellen, gebruikt onze aanpak in plaats daarvan (discrete) taal als de perceptuele representatie. We onderzoeken twee use cases van onze taalgebaseerde navigatieaanpak (LangNav) op de R2R visie-en-taalnavigatiebenchmark: het genereren van synthetische trajecten vanuit een geprompt groot taalmodel (GPT-4) waarmee een kleiner taalmodel wordt gefinetuned; en sim-naar-real transfer waarbij we een beleid dat is geleerd in een gesimuleerde omgeving (ALFRED) overzetten naar een real-world omgeving (R2R). Onze aanpak blijkt sterke baselines die vertrouwen op visuele kenmerken te overtreffen in situaties waar slechts een paar gouden trajecten (10-100) beschikbaar zijn, wat het potentieel aantoont van het gebruik van taal als een perceptuele representatie voor navigatietaken.