Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Aangezien grote taalmodelen (LLM's) hun krachtige capaciteiten hebben getoond in tal van domeinen en taken, waaronder contextbegrip, codegeneratie, taalgeneratie, data storytelling, enz., kunnen veel data-analisten zich zorgen maken of hun banen zullen worden overgenomen door AI. Dit controversiële onderwerp heeft veel aandacht getrokken in het publieke debat. Echter, bevinden we ons nog steeds in een fase van uiteenlopende meningen zonder een definitieve conclusie. Gemotiveerd door dit vraagstuk, stellen we in dit werk de onderzoeksvraag "is GPT-4 een goede data-analist?" en streven we ernaar deze te beantwoorden door middel van directe vergelijkende studies. In detail beschouwen we GPT-4 als een data-analist die end-to-end data-analyses uitvoert met databases uit een breed scala aan domeinen. We stellen een raamwerk voor om de problemen aan te pakken door zorgvuldig ontworpen prompts voor GPT-4 te gebruiken om experimenten uit te voeren. Daarnaast ontwerpen we verschillende taakspecifieke evaluatiemetrics om systematisch de prestaties te vergelijken tussen meerdere professionele menselijke data-analisten en GPT-4. Experimentele resultaten tonen aan dat GPT-4 vergelijkbare prestaties kan behalen als mensen. We bieden ook diepgaande discussies over onze resultaten om inzicht te bieden voor verder onderzoek voordat we tot de conclusie komen dat GPT-4 data-analisten kan vervangen.
Met de recente opkomst van LLM's in praktische toepassingen is het cruciaal om methoden te hebben die feitelijke inconsistenties effectief kunnen detecteren, om de verspreiding van desinformatie te verminderen en het vertrouwen in modeluitvoer te verbeteren. Bij het testen op bestaande benchmarks voor feitelijke consistentie, blijkt dat enkele grote taalmodellen (LLM's) competitief presteren op classificatiebenchmarks voor het detecteren van feitelijke inconsistenties in vergelijking met traditionele niet-LLM-methoden. Een gedetailleerdere analyse toont echter aan dat de meeste LLM's falen bij complexere formuleringen van de taak en legt problemen bloot met bestaande evaluatiebenchmarks, wat de evaluatienauwkeurigheid beïnvloedt. Om dit aan te pakken, stellen we een nieuw protocol voor voor het creëren van inconsistentiedetectiebenchmarks en implementeren we dit in een benchmark van 10 domeinen, genaamd SummEdits. Deze nieuwe benchmark is 20 keer kosteneffectiever per sample dan eerdere benchmarks en zeer reproduceerbaar, aangezien we de interannotatorovereenkomst schatten op ongeveer 0,9. De meeste LLM's presteren slecht op SummEdits, met prestaties die dicht bij willekeurige kans liggen. Het best presterende model, GPT-4, ligt nog steeds 8% onder de geschatte menselijke prestaties, wat de tekortkomingen van LLM's benadrukt in het redeneren over feiten en het detecteren van inconsistenties wanneer deze optreden.
Open-world survival games stellen aanzienlijke uitdagingen voor AI-algoritmen vanwege hun vereisten op het gebied van multitasking, diepgaande verkenning en doelprioritering. Hoewel reinforcement learning (RL) populair is voor het oplossen van games, beperkt de hoge samplecomplexiteit de effectiviteit ervan in complexe open-world games zoals Crafter of Minecraft. Wij stellen een nieuwe aanpak voor, SPRING, om het originele academische artikel van de game te lezen en de opgedane kennis te gebruiken om te redeneren en de game te spelen via een groot taalmodel (LLM). Geprompt met de LaTeX-bron als gamecontext en een beschrijving van de huidige observatie van de agent, gebruikt ons SPRING-framework een gerichte acyclische grafiek (DAG) met gamegerelateerde vragen als knopen en afhankelijkheden als verbindingen. We identificeren de optimale actie die in de omgeving moet worden ondernomen door de DAG te doorlopen en LLM-reacties voor elke knoop in topologische volgorde te berekenen, waarbij het antwoord van het LLM op de laatste knoop direct vertaalt naar omgevingsacties. In onze experimenten bestuderen we de kwaliteit van in-context "redenering" die wordt opgewekt door verschillende vormen van prompts in de setting van de Crafter open-world omgeving. Onze experimenten suggereren dat LLM's, wanneer ze worden geprompt met een consistente gedachtegang, groot potentieel hebben in het voltooien van geavanceerde hoogwaardige trajecten. Kwantitatief presteert SPRING met GPT-4 beter dan alle state-of-the-art RL-baselines, getraind voor 1M stappen, zonder enige training. Tot slot tonen we het potentieel van games als testomgeving voor LLM's.
Hoewel Neurale Machinevertaling (NMT) de toonaangevende benadering voor Machinevertaling (MT) vertegenwoordigt, vereisen de uitvoer van NMT-modellen nog steeds post-editing van vertalingen om fouten te corrigeren en de kwaliteit te verbeteren, vooral in kritieke situaties. In dit werk formaliseren we de taak van vertaling post-editing met Large Language Models (LLMs) en onderzoeken we het gebruik van GPT-4 om automatisch NMT-uitvoer te post-editen voor verschillende taalparen. Onze resultaten tonen aan dat GPT-4 bedreven is in vertaling post-editing en zinvolle aanpassingen produceert, zelfs wanneer de doeltaal niet Engels is. Opmerkelijk is dat we state-of-the-art prestaties behalen op de WMT-22 Engels-Chinees, Engels-Duits, Chinees-Engels en Duits-Engels taalparen met behulp van GPT-4 gebaseerd post-editing, zoals beoordeeld door state-of-the-art MT-kwaliteitsmetrieken.
Strategieën zoals chain-of-thought prompting verbeteren de prestaties van grote taalmodellen (LLMs) bij complexe redeneertaken door invoervoorbeelden op te splitsen in tussenliggende stappen. Het blijft echter onduidelijk hoe dergelijke methoden kunnen worden toegepast om te redeneren over lange invoerdocumenten, waarin zowel de opsplitsing als de uitvoer van elke tussenliggende stap niet triviaal zijn om te verkrijgen. In dit werk stellen we PEARL voor, een prompting-framework om het redeneren over lange documenten te verbeteren, dat bestaat uit drie fasen: actie-extractie, planformulering en planuitvoering. Meer specifiek deelt PEARL, gegeven een vraag over een lang document, de vraag op in een reeks acties (bijv. SUMMARIZE, FIND_EVENT, FIND_RELATION) en voert deze vervolgens uit over het document om het antwoord te verkrijgen. Elke fase van PEARL wordt geïmplementeerd via zero-shot of few-shot prompting van LLMs (in ons werk, GPT-4) met minimale menselijke input. We evalueren PEARL op een uitdagende subset van de QuALITY-dataset, die vragen bevat die complex redeneren over lange narratieve teksten vereisen. PEARL presteert beter dan zero-shot en chain-of-thought prompting op deze dataset, en ablatie-experimenten tonen aan dat elke fase van PEARL cruciaal is voor de prestaties. Over het algemeen is PEARL een eerste stap naar het benutten van LLMs om te redeneren over lange documenten.