Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De ML-gemeenschap onderzoekt in rap tempo technieken voor het aansturen van taalmodel(len) (LMs) en het stapelen ervan in pipelines die complexe taken oplossen. Helaas worden bestaande LM-pipelines doorgaans geïmplementeerd met behulp van vastgelegde "prompt-sjablonen", oftewel lange tekenreeksen die via trial-and-error zijn ontdekt. Om een meer systematische aanpak te bieden voor het ontwikkelen en optimaliseren van LM-pipelines, introduceren we DSPy, een programmeermodel dat LM-pipelines abstraheert als teksttransformatiegrafieken, d.w.z. imperatieve rekenkundige grafieken waarin LMs worden aangeroepen via declaratieve modules. DSPy-modules zijn geparametriseerd, wat betekent dat ze kunnen leren (door demonstraties te creëren en te verzamelen) hoe ze composities van prompting, finetuning, augmentatie en redeneertechnieken kunnen toepassen. We ontwerpen een compiler die elke DSPy-pipeline optimaliseert om een gegeven metriek te maximaliseren. We voeren twee casestudies uit, waaruit blijkt dat beknopte DSPy-programma's geavanceerde LM-pipelines kunnen uitdrukken en optimaliseren die redeneren over wiskundige woordproblemen, multi-hop retrieval aanpakken, complexe vragen beantwoorden en agentloops besturen. Binnen enkele minuten na het compileren maken een paar regels DSPy het mogelijk dat GPT-3.5 en llama2-13b-chat zelf pipelines bootstrappen die standaard few-shot prompting overtreffen (meestal met meer dan 25% en 65%, respectievelijk) en pipelines met door experts gemaakte demonstraties (met tot 5-46% en 16-40%, respectievelijk). Bovendien zijn DSPy-programma's die worden gecompileerd naar open en relatief kleine LMs zoals de 770M-parameter T5 en llama2-13b-chat concurrerend met benaderingen die vertrouwen op door experts geschreven promptketens voor propriëtaire GPT-3.5. DSPy is beschikbaar op https://github.com/stanfordnlp/dspy.
"Denken is voor Doen." Mensen kunnen de mentale toestanden van anderen afleiden uit observaties—een vaardigheid die Theory-of-Mind (ToM) wordt genoemd—en vervolgens pragmatisch handelen op basis van die inferenties. Bestaande vraag-antwoordbenchmarks zoals ToMi stellen modellen vragen om inferenties te maken over de overtuigingen van personages in een verhaal, maar testen niet of modellen deze inferenties vervolgens kunnen gebruiken om hun acties te sturen. Wij stellen een nieuw evaluatieparadigma voor voor grote taalmmodellen (LLMs): Thinking for Doing (T4D), dat vereist dat modellen inferenties over de mentale toestanden van anderen verbinden met acties in sociale scenario's. Experimenten met T4D laten zien dat LLMs zoals GPT-4 en PaLM 2 ogenschijnlijk uitblinken in het volgen van de overtuigingen van personages in verhalen, maar ze hebben moeite om deze vaardigheid om te zetten in strategisch handelen. Onze analyse onthult dat de kernuitdaging voor LLMs ligt in het identificeren van de impliciete inferenties over mentale toestanden, zonder dat hier expliciet naar wordt gevraagd zoals in ToMi, die leiden tot het kiezen van de juiste actie in T4D. Om deze kloof te overbruggen, introduceren we een zero-shot prompting-framework, Foresee and Reflect (FaR), dat een redeneerstructuur biedt die LLMs aanmoedigt om toekomstige uitdagingen te voorzien en na te denken over mogelijke acties. FaR verbetert de prestaties van GPT-4 van 50% naar 71% op T4D, en overtreft andere prompting-methoden zoals Chain-of-Thought en Self-Ask. Bovendien generaliseert FaR naar diverse out-of-distribution verhaalstructuren en scenario's die ook ToM-inferenties vereisen om een actie te kiezen, en presteert het consistent beter dan andere methoden, waaronder few-shot in-context learning.
Grote taalmodellen (LLM's) zoals GPT-4 hebben opmerkelijke prestaties getoond in een verscheidenheid aan taken, maar deze sterke prestaties gaan vaak gepaard met de hoge kosten van het gebruik van betaalde API-services. In dit artikel worden we gemotiveerd om het bouwen van een LLM-cascade te bestuderen om de kosten van het gebruik van LLM's te besparen, met name voor het uitvoeren van redeneertaken (bijvoorbeeld wiskundige, causale). Onze cascade-pipeline volgt de intuïtie dat eenvoudigere vragen kunnen worden beantwoord door een zwakker maar betaalbaarder LLM, terwijl alleen de uitdagende vragen het sterkere en duurdere LLM vereisen. Om deze besluitvorming te realiseren, beschouwen we de "antwoordconsistentie" van het zwakkere LLM als een signaal van de vraagmoeilijkheid en stellen we verschillende methoden voor voor het bemonsteren van antwoorden en het controleren van consistentie, waaronder een methode die gebruikmaakt van een mix van twee denkrepresentaties (d.w.z. Chain-of-Thought en Program-of-Thought). Door experimenten op zes redeneerbenchmarkdatasets, waarbij GPT-3.5-turbo en GPT-4 respectievelijk het zwakkere en sterkere LLM zijn, tonen we aan dat onze voorgestelde LLM-cascades prestaties kunnen bereiken die vergelijkbaar zijn met het gebruik van alleen het sterkere LLM, maar slechts 40% van de kosten vereisen.
Tegenwoordig vragen gebruikers grote taalmodellen (LLMs) als assistenten om vragen te beantwoorden die externe kennis vereisen; ze vragen naar het weer in een specifieke stad, naar aandelenkoersen en zelfs naar waar bepaalde locaties zich in hun buurt bevinden. Deze vragen vereisen dat het LLM code produceert die externe API's aanroept om de vraag van de gebruiker te beantwoorden, maar LLMs produceren zelden correcte code in de eerste poging, wat iteratieve codeverfijning vereist op basis van uitvoeringsresultaten. Bovendien kan het gebruik van LLM-assistenten om hoge queryvolumes te ondersteunen kostbaar zijn. In dit werk dragen we een framework bij, EcoAssistant, dat LLMs in staat stelt om code-gedreven vragen betaalbaarder en nauwkeuriger te beantwoorden. EcoAssistant bestaat uit drie componenten. Ten eerste stelt het de LLM-assistenten in staat om te communiceren met een automatische code-uitvoerder om code iteratief te verfijnen of antwoorden te produceren op basis van de uitvoeringsresultaten. Ten tweede gebruiken we een hiërarchie van LLM-assistenten, die eerst probeert de vraag te beantwoorden met zwakkere, goedkopere LLMs voordat wordt teruggevallen op sterkere, duurdere LLMs. Ten derde halen we oplossingen uit eerdere succesvolle queries op als in-context demonstraties om volgende queries te helpen. Empirisch tonen we aan dat EcoAssistant duidelijke voordelen biedt op het gebied van betaalbaarheid en nauwkeurigheid, waarbij het GPT-4 met 10 procentpunten succesratio overtreft tegen minder dan 50% van de kosten van GPT-4.