Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Taalmodellen, zoals GPT-3.5 en ChatGPT, tonen opmerkelijke vaardigheden in het volgen van diverse menselijke instructies en het uitvoeren van een breed scala aan taken. Wanneer we echter taalmodellen testen met een reeks basistaken voor tabelbegrip, zien we dat de huidige taalmodellen nog steeds suboptimaal presteren bij veel tabelgerelateerde taken. Dit komt waarschijnlijk omdat ze voornamelijk zijn voorgetraind op eendimensionale natuurlijke teksten, terwijl relationele tabellen tweedimensionale objecten zijn. In dit werk stellen we een nieuw "table-tuning"-paradigma voor, waarbij we taalmodellen zoals GPT-3.5 en ChatGPT verder trainen/finetunen met behulp van diverse tabeltaken die zijn gesynthetiseerd uit echte tabellen als trainingsdata. Het doel is om het vermogen van taalmodellen om tabellen te begrijpen en tabeltaken uit te voeren te verbeteren. We laten zien dat onze resulterende Table-GPT-modellen (1) betere tabelbegripvaardigheden demonstreren door consequent beter te presteren dan de standaard GPT-3.5 en ChatGPT bij een breed scala aan tabeltaken, inclusief onbekende taken, en (2) sterke generaliseerbaarheid tonen in hun vermogen om te reageren op diverse menselijke instructies om nieuwe tabeltaken uit te voeren, op een manier die vergelijkbaar is met GPT-3.5 en ChatGPT.
Dit artikel presenteert PaLI-3, een kleiner, sneller en krachtiger vision-language model (VLM) dat gunstig afsteekt tegen vergelijkbare modellen die 10x groter zijn. Als onderdeel van het bereiken van deze sterke prestaties vergelijken we Vision Transformer (ViT)-modellen die zijn voorgetraind met classificatiedoelen met modellen die contrastief (SigLIP) zijn voorgetraind. We constateren dat, hoewel SigLIP-gebaseerde PaLI iets minder presteert op standaard beeldclassificatiebenchmarks, het superieure prestaties laat zien op verschillende multimodale benchmarks, met name op lokalisatie en visueel gesitueerd tekstbegrip. We schalen de SigLIP-beeldencoder op tot 2 miljard parameters en behalen een nieuwe state-of-the-art op het gebied van meertalige cross-modale retrievals. We hopen dat PaLI-3, met slechts 5B parameters, onderzoek naar fundamentele onderdelen van complexe VLMs nieuw leven inblaast en een nieuwe generatie opgeschaalde modellen kan aanjagen.
Kwantisatie is een onmisbare techniek voor het inzetten van Large Language Models (LLM's) en heeft recentelijk zijn weg gevonden naar LoRA-finetuning. In dit werk richten we ons op het scenario waarbij kwantisatie en LoRA-finetuning samen worden toegepast op een vooraf getraind model. In dergelijke gevallen is het gebruikelijk om een consistent prestatieverschil waar te nemen op downstream taken tussen volledige finetuning en de aanpak van kwantisatie plus LoRA-finetuning. Als reactie hierop stellen we LoftQ (LoRA-Finetuning-aware Quantization) voor, een nieuw kwantisatiekader dat tegelijkertijd een LLM kwantiseert en een geschikte lage-rang initialisatie vindt voor LoRA-finetuning. Een dergelijke initialisatie vermindert het verschil tussen het gekwantiseerde en het volledige precisiemodel en verbetert de generalisatie aanzienlijk in downstream taken. We evalueren onze methode op taken voor natuurlijke taalbegrip, vraagbeantwoording, samenvatting en natuurlijke taalgeneratie. Experimenten tonen aan dat onze methode zeer effectief is en bestaande kwantisatiemethoden overtreft, vooral in de uitdagende 2-bit en 2/4-bit mixed precision regimes. We zullen onze code vrijgeven.
Grote taalmodelen (LLMs) hebben een toenemend vermogen getoond om een hoog niveau doel te plannen en uit te voeren in een live computeromgeving (bijv. MiniWoB++). Om een taak uit te voeren, vereisen recente werken vaak dat een model leert van traceervoorbeelden van de taak via supervised learning of few/many-shot prompting. Zonder deze traceervoorbeelden blijft het een uitdaging hoe een agent autonoom kan leren en zijn controle over een computer kan verbeteren, wat het vermogen van een agent om een nieuwe taak uit te voeren beperkt. Wij benaderen dit probleem met een zero-shot agent die geen gegeven expert traces vereist. Onze agent plant uitvoerbare acties in een gedeeltelijk waargenomen omgeving en vordert iteratief in een taak door fouten te identificeren en ervan te leren via zelfreflectie en gestructureerd gedachtebeheer. Op de eenvoudige taken van MiniWoB++ laten we zien dat onze zero-shot agent vaak beter presteert dan recente state-of-the-art modellen, met efficiënter redeneren. Voor taken met meer complexiteit presteert onze reflectieve agent op hetzelfde niveau als de beste eerdere modellen, ook al hadden eerdere werken het voordeel van toegang tot expert traces of aanvullende scherminformatie.
Wanneer ze worden toegepast op vraag-antwoordtaken en andere tekstgeneratietaken, kunnen taalmodelen (LMs) generatief worden bevraagd (door antwoorden te bemonsteren uit hun uitvoerverdeling) of discriminerend (door ze te gebruiken om een set kandidaat-uitvoeringen te scoren of te rangschikken). Deze procedures leveren soms zeer verschillende voorspellingen op. Hoe kunnen we onderling onverenigbare scoringsprocedures verzoenen om coherente LM-voorspellingen te verkrijgen? We introduceren een nieuwe, trainingsvrije, speltheoretische procedure voor het decoderen van taalmodelen. Onze benadering modelleert het decoderen van taalmodelen als een gereguleerd sequentieel signaalspel met onvolledige informatie - dat we het CONSENSUS SPEL noemen - waarin een GENERATOR probeert een abstract correctheidsparameter te communiceren met behulp van natuurlijke taalzinnen naar een DISCRIMINATOR. We ontwikkelen computationele procedures voor het vinden van benaderende evenwichten van dit spel, wat resulteert in een decodeeralgoritme dat we EQUILIBRIUM-RANKING noemen. Toegepast op een groot aantal taken (waaronder leesbegrip, gezond verstand redeneren, wiskundig probleemoplossen en dialoog), verbetert EQUILIBRIUM-RANKING consistent, en soms aanzienlijk, de prestaties ten opzichte van bestaande LM-decodeerprocedures - op meerdere benchmarks observeren we dat het toepassen van EQUILIBRIUM-RANKING op LLaMA-7B de veel grotere LLaMA-65B en PaLM-540B modellen overtreft. Deze resultaten onderstrepen de belofte van speltheoretische tools voor het aanpakken van fundamentele uitdagingen op het gebied van waarheidsgetrouwheid en consistentie in LMs.
Grote Taalmodellen (LLMs) hebben opmerkelijke prestaties getoond op een breed scala aan Natural Language Processing (NLP)-taken, waarbij ze vaak state-of-the-art, taakspecifieke modellen evenaren of zelfs overtreffen. Deze studie heeft als doel de financiële redeneervaardigheden van LLMs te beoordelen. We maken gebruik van oefenexamenvragen van het Chartered Financial Analyst (CFA)-programma om een uitgebreide evaluatie uit te voeren van ChatGPT en GPT-4 op het gebied van financiële analyse, waarbij we Zero-Shot (ZS), Chain-of-Thought (CoT) en Few-Shot (FS)-scenario's in overweging nemen. We presenteren een diepgaande analyse van de prestaties en beperkingen van de modellen en schatten in of ze een kans zouden hebben om de CFA-examens te halen. Tot slot geven we inzichten in mogelijke strategieën en verbeteringen om de toepasbaarheid van LLMs in de financiële sector te vergroten. In dit perspectief hopen we dat dit werk de weg vrijmaakt voor toekomstige studies om LLMs voor financieel redeneren verder te verbeteren door middel van rigoureuze evaluatie.
Grote Taalmodellen (LLMs) zijn al behoorlijk bedreven geworden in het oplossen van eenvoudigere programmeertaken, zoals die in de HumanEval- of MBPP-benchmarks. Het oplossen van complexere en competitieve programmeertaken blijft echter nog steeds een uitdaging voor deze modellen – mogelijk vanwege hun neiging om oplossingen te genereren als monolithische codeblokken in plaats van ze op te delen in logische sub-taken en sub-modules. Ervaren programmeurs schrijven daarentegen instinctief gemodulariseerde code met abstractie om complexe taken op te lossen, waarbij ze vaak eerder ontwikkelde modules hergebruiken. Om deze kloof te overbruggen, stellen we CodeChain voor, een nieuw raamwerk voor inferentie dat gemodulariseerde codegeneratie stimuleert door middel van een keten van zelfrevisies, waarbij elke revisie wordt geleid door enkele representatieve sub-modules die in eerdere iteraties zijn gegenereerd. Concreet instrueert CodeChain eerst het LLM om gemodulariseerde code te genereren via chain-of-thought prompting. Vervolgens past het een keten van zelfrevisies toe door de volgende twee stappen te herhalen: 1) het extraheren en clusteren van de gegenereerde sub-modules en het selecteren van de clusterrepresentanten als de meer generieke en herbruikbare implementaties, en 2) het aanvullen van de oorspronkelijke chain-of-thought prompt met deze geselecteerde module-implementaties en het instrueren van het LLM om nieuwe gemodulariseerde oplossingen te genereren. We ontdekken dat door het LLM op natuurlijke wijze aan te moedigen om eerder ontwikkelde en geverifieerde sub-modules te hergebruiken, CodeChain zowel de modulariteit als de correctheid van de gegenereerde oplossingen aanzienlijk kan verbeteren, met relatieve pass@1-verbeteringen van 35% op APPS en 76% op CodeContests. Het blijkt effectief te zijn voor zowel OpenAI LLMs als open-source LLMs zoals WizardCoder. We voeren ook uitgebreide ablatiestudies uit met verschillende methoden van prompting, aantal clusters, modelgroottes, programmakwaliteiten, enz., om nuttige inzichten te bieden die het succes van CodeChain onderbouwen.
Spraak en tekst zijn twee belangrijke vormen van menselijke taal. De onderzoeksgemeenschap heeft zich jarenlang gericht op het omzetten van spraak naar tekst of vice versa. In het veld van taalmodelering is echter weinig aandacht besteed aan het gezamenlijk modelleren van beide. Gezien dit feit onderzoeken wij gezamenlijke taalmodelering voor spraakeenheden en tekst. Specifiek vergelijken we verschillende spraaktokenizers om continue spraaksignalen om te zetten in discrete eenheden en gebruiken we verschillende methoden om gemengde spraak-tekstdata te construeren. We introduceren automatische metrieken om te evalueren hoe goed het gezamenlijke taalmodel spraak en tekst mengt. We fine-tunen het taalmodel ook op downstream taken voor gesproken taalbegrip (SLU) met verschillende modaliteiten (spraak of tekst) en testen de prestaties om het leren van gedeelde representaties door het model te beoordelen. Onze resultaten tonen aan dat door het mengen van spraakeenheden en tekst met onze voorgestelde mengtechnieken, het gezamenlijke taalmodel verbetert ten opzichte van een baseline die alleen spraak gebruikt bij SLU-taken en zero-shot cross-modale overdraagbaarheid vertoont.