Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote Taalmodellen (LLMs) hebben veelbelovende resultaten getoond in het integreren van diverse expertmodellen om complexe taal- en visietaken aan te pakken. Ondanks hun belang in de vooruitgang van het veld van Kunstmatige Intelligentie-gegenereerde Inhoud (AIGC), blijft hun potentieel in het creëren van intelligente audio-inhoud onontgonnen. In dit werk pakken we het probleem aan van het creëren van audio-inhoud met verhaallijnen die spraak, muziek en geluidseffecten omvatten, geleid door tekstinstructies. We presenteren WavJourney, een systeem dat gebruikmaakt van LLMs om verschillende audiomodellen met elkaar te verbinden voor het genereren van audio-inhoud. Gegeven een tekstbeschrijving van een auditieve scène, vraagt WavJourney eerst LLMs om een gestructureerd script te genereren dat gewijd is aan audio-verhalenvertelling. Het audioscript bevat diverse audio-elementen, georganiseerd op basis van hun ruimtelijk-temporele relaties. Als een conceptuele representatie van audio biedt het audioscript een interactieve en interpreteerbare redenering voor menselijke betrokkenheid. Vervolgens wordt het audioscript ingevoerd in een scriptcompiler, die het omzet in een computerprogramma. Elke regel van het programma roept een taakspecifiek audiogeneratiemodel of een rekenkundige bewerkingsfunctie aan (bijvoorbeeld samenvoegen, mixen). Het computerprogramma wordt vervolgens uitgevoerd om een verklaarbare oplossing voor audiogeneratie te verkrijgen. We demonstreren de praktische toepasbaarheid van WavJourney in diverse real-world scenario's, waaronder science fiction, onderwijs en hoorspelen. Het verklaarbare en interactieve ontwerp van WavJourney bevordert mens-machine co-creatie in meerdere dialoogrondes, wat de creatieve controle en aanpasbaarheid in audioproductie versterkt. WavJourney vertaalt de menselijke verbeelding naar audio, wat nieuwe mogelijkheden opent voor creativiteit in multimediale inhoudscreatie.
Low-rank aanpassingen (LoRA) worden vaak gebruikt om grote taalmmodellen (LLMs) af te stemmen op nieuwe taken. Dit artikel onderzoekt de samenstelbaarheid van LoRA voor kruistaken generalisatie en introduceert LoraHub, een strategisch framework ontworpen voor het doelgerichte samenstellen van LoRA-modules die getraind zijn op diverse gegeven taken, met als doel aanpasbare prestaties te bereiken op onbekende taken. Met slechts enkele voorbeelden van een nieuwe taak maakt LoraHub de vloeiende combinatie van meerdere LoRA-modules mogelijk, waardoor de noodzaak van menselijke expertise wordt weggenomen. Opmerkelijk is dat de samenstelling geen extra modelparameters of gradienten vereist. Onze empirische resultaten, afgeleid van de Big-Bench Hard (BBH) benchmark, suggereren dat LoraHub effectief de prestaties van in-context leren kan nabootsen in few-shot scenario's, zonder de noodzaak van in-context voorbeelden bij elke inferentie-input. Een belangrijke bijdrage van ons onderzoek is het bevorderen van een gemeenschap voor LoRA, waar gebruikers hun getrainde LoRA-modules kunnen delen, waardoor de toepassing ervan op nieuwe taken wordt vergemakkelijkt. We verwachten dat deze bron de toegang zal verbreden en vooruitgang zal stimuleren in algemene intelligentie en LLMs in productie. Code zal beschikbaar zijn op https://github.com/sail-sg/lorahub.
Grote taalmodellen (LLM's) presteren beter wanneer ze stap-voor-stap, "Chain-of-Thought" (CoT)-redeneringen produceren voordat ze een vraag beantwoorden, maar het is onduidelijk of de gegeven redenering een betrouwbare verklaring is van het daadwerkelijke redeneerproces van het model (d.w.z., hoe het model tot het antwoord komt). We onderzoeken hypothesen over hoe CoT-redeneringen mogelijk onbetrouwbaar kunnen zijn, door te bestuderen hoe de voorspellingen van het model veranderen wanneer we ingrijpen in de CoT (bijvoorbeeld door fouten toe te voegen of deze te parafraseren). Modellen vertonen grote verschillen tussen taken in hoe sterk ze zich baseren op de CoT bij het voorspellen van hun antwoord, waarbij ze soms sterk leunen op de CoT en deze op andere momenten grotendeels negeren. De prestatieverbetering door CoT lijkt niet alleen voort te komen uit de extra rekentijd tijdens het testen of uit de informatie die is gecodeerd via de specifieke formulering van de CoT. Naarmate modellen groter en krachtiger worden, produceren ze minder betrouwbare redeneringen voor de meeste taken die we bestuderen. Over het algemeen suggereren onze resultaten dat CoT betrouwbaar kan zijn als omstandigheden zoals de modelgrootte en de taak zorgvuldig worden gekozen.
Met de vooruitgang in generatieve AI is het opwindende potentieel ontstaan voor autonome agents om dagelijkse taken te beheren via natuurlijke taalcommando's. Huidige agents worden echter voornamelijk ontwikkeld en getest in vereenvoudigde synthetische omgevingen, wat de representatie van realistische scenario's aanzienlijk beperkt. In dit artikel bouwen we een omgeving voor het commando en de controle van agents die zeer realistisch en reproduceerbaar is. Specifiek richten we ons op agents die taken uitvoeren op websites, en we creëren een omgeving met volledig functionele websites uit vier veelvoorkomende domeinen: e-commerce, sociale forumdiscussies, collaboratieve softwareontwikkeling en contentbeheer. Onze omgeving is verrijkt met tools (bijvoorbeeld een kaart) en externe kennisbronnen (bijvoorbeeld gebruikershandleidingen) om mensachtige taakoplossing te bevorderen. Op basis van onze omgeving publiceren we een set benchmarktaken die gericht zijn op het evalueren van de functionele correctheid van taakvoltooiingen. De taken in onze benchmark zijn divers, langlopend en zijn ontworpen om taken na te bootsen die mensen routinematig op internet uitvoeren. We ontwerpen en implementeren verschillende autonome agents, waarbij we recente technieken integreren, zoals redeneren voordat er wordt gehandeld. De resultaten tonen aan dat het oplossen van complexe taken uitdagend is: onze beste GPT-4-gebaseerde agent behaalt slechts een end-to-end taaksuccespercentage van 10,59%. Deze resultaten benadrukken de noodzaak van verdere ontwikkeling van robuuste agents, dat huidige state-of-the-art taalmodellen verre van perfect presteren in deze real-life taken, en dat WebArena gebruikt kan worden om dergelijke vooruitgang te meten. Onze code, data, omgevingsreproductiebronnen en videodemonstraties zijn openbaar beschikbaar op https://webarena.dev/.
Grote Taalmodellen (LLM's) hebben opmerkelijke prestaties laten zien op diverse benchmarks voor kwantitatief redeneren en kennis. Veel van deze benchmarks verliezen echter hun nut naarmate LLM's steeds hogere scores behalen, hoewel ze nog geen expertniveau bereiken in deze domeinen. Wij introduceren ARB, een nieuwe benchmark die bestaat uit geavanceerde redeneerproblemen in meerdere vakgebieden. ARB biedt een uitdagender test dan eerdere benchmarks, met problemen op het gebied van wiskunde, natuurkunde, biologie, scheikunde en recht. Als subset van ARB introduceren we een uitdagende reeks wiskunde- en natuurkundeproblemen die geavanceerd symbolisch redeneren en domeinkennis vereisen. We evalueren recente modellen zoals GPT-4 en Claude op ARB en laten zien dat huidige modellen aanzienlijk onder de 50% scoren op veeleisendere taken. Om zowel automatische als ondersteunde evaluatiemogelijkheden te verbeteren, introduceren we een rubricagebaseerde evaluatieaanpak, waardoor GPT-4 zijn eigen tussenliggende redeneerstappen kan beoordelen. Daarnaast voeren we een menselijke evaluatie uit van de symbolische subset van ARB, waarbij we veelbelovende overeenstemming vinden tussen annotators en de rubricage-evaluatiescores van GPT-4.
Code coverage is een veelgebruikte maatstaf om te kwantificeren in hoeverre programmeerelementen, zoals statements of branches, worden uitgevoerd tijdens het testen. Het berekenen van code coverage is resource-intensief, omdat het vereist dat code wordt gebouwd en uitgevoerd met extra overhead voor instrumentatie. Bovendien vereist het berekenen van de coverage van elk stukje code de volledige programmacontext. Het gebruik van Machine Learning om dit kostbare proces te amortiseren, zou de kosten van code coverage kunnen verlagen door alleen de broncodecontext te vereisen, en de taak van code coverage-voorspelling kan een nieuwe benchmark zijn om het vermogen van modellen om code te begrijpen te beoordelen. Wij stellen een nieuwe benchmarktaak voor genaamd Code Coverage Prediction voor Large Language Models (LLMs). We formaliseren deze taak om het vermogen van LLMs om code-uitvoering te begrijpen te evalueren door te bepalen welke regels van een methode worden uitgevoerd door een gegeven testcase en invoer. We hebben een dataset samengesteld en vrijgegeven die we COVERAGEEVAL noemen, door tests en code uit de HumanEval-dataset uit te voeren en code coverage-informatie te verzamelen. We rapporteren de prestaties van vier state-of-the-art LLMs die worden gebruikt voor code-gerelateerde taken, waaronder OpenAI's GPT-4 en GPT-3.5-Turbo, Google's BARD en Anthropic's Claude, op de Code Coverage Prediction-taak. Tot slot beargumenteren we dat code coverage als maatstaf en als bron van voorafgaande trainingsgegevens waardevol is voor de algehele prestaties van LLMs op software-engineeringtaken.
Traditionele aanbevelingssystemen maken gebruik van de geschiedenis van gebruikersvoorkeuren voor items om nieuw inhoud aan te bevelen die gebruikers mogelijk leuk vinden. Moderne dialooginterfaces die gebruikers in staat stellen om op taal gebaseerde voorkeuren uit te drukken, bieden echter een fundamenteel andere modaliteit voor het invoeren van voorkeuren. Geïnspireerd door recente successen van prompting-paradigma's voor grote taalmodellen (LLMs), onderzoeken we het gebruik ervan voor het maken van aanbevelingen op basis van zowel itemgebaseerde als taalgebaseerde voorkeuren, in vergelijking met state-of-the-art itemgebaseerde collaboratieve filteringsmethoden (CF). Om dit onderzoek te ondersteunen, verzamelen we een nieuwe dataset die bestaat uit zowel itemgebaseerde als taalgebaseerde voorkeuren die zijn verzameld van gebruikers, samen met hun beoordelingen van een verscheidenheid aan (bevooroordeelde) aanbevolen items en (onbevooroordeelde) willekeurige items. Onder de talrijke experimentele resultaten vinden we dat LLMs een concurrerende aanbevelingsprestatie bieden voor puur taalgebaseerde voorkeuren (zonder itemvoorkeuren) in het bijna cold-start geval in vergelijking met itemgebaseerde CF-methoden, ondanks het ontbreken van gesuperviseerde training voor deze specifieke taak (zero-shot) of slechts een paar labels (few-shot). Dit is bijzonder veelbelovend omdat taalgebaseerde voorkeursrepresentaties beter verklaarbaar en controleerbaar zijn dan itemgebaseerde of vectorgebaseerde representaties.
Wij stellen Strivec voor, een nieuwe neurale representatie die een 3D-scène modelleert als een stralingsveld met spaarzaam verdeelde en compact gefactoriseerde lokale tensorfeaturegrids. Onze aanpak maakt gebruik van tensorontbinding, in navolging van het recente werk TensoRF, om de tensorgrids te modelleren. In tegenstelling tot TensoRF, dat een globale tensor gebruikt en zich richt op hun vector-matrixontbinding, stellen wij voor om een wolk van lokale tensoren te gebruiken en de klassieke CANDECOMP/PARAFAC (CP)-ontbinding toe te passen om elke tensor te factoriseren in drie vectoren die lokale featureverdelingen langs ruimtelijke assen uitdrukken en een lokaal neuraal veld compact coderen. We passen ook multi-schaal tensorgrids toe om de geometrie- en uiterlijk-gemeenschappelijkheden te ontdekken en ruimtelijke samenhang te benutten met de tri-vectorfactorisatie op meerdere lokale schalen. De uiteindelijke eigenschappen van het stralingsveld worden geregresseerd door neurale features te aggregeren van meerdere lokale tensoren over alle schalen. Onze tri-vector tensoren zijn spaarzaam verdeeld rond het werkelijke scèneoppervlak, ontdekt door een snelle grove reconstructie, waarbij de spaarzaamheid van een 3D-scène wordt benut. We demonstreren dat ons model een betere renderkwaliteit kan bereiken terwijl het aanzienlijk minder parameters gebruikt dan vorige methoden, waaronder TensoRF en Instant-NGP.
Hoewel veel real-world problemen baat kunnen hebben bij reinforcement learning, passen deze problemen zelden in het MDP-model: interactie met de omgeving is vaak kostbaar en het specificeren van beloningsfuncties is uitdagend. Gemotiveerd door deze uitdagingen heeft eerder werk datagestuurde benaderingen ontwikkeld die volledig leren van steekproeven uit de overgangsdynamiek en voorbeelden van toestanden met een hoge opbrengst. Deze methoden leren typisch een beloningsfunctie van toestanden met een hoge opbrengst, gebruiken die beloningsfunctie om de overgangen te labelen, en passen vervolgens een offline RL-algoritme toe op deze overgangen. Hoewel deze methoden goede resultaten kunnen behalen bij veel taken, kunnen ze complex zijn en vaak regularisatie en temporal difference updates vereisen. In dit artikel stellen we een methode voor voor offline, voorbeeldgebaseerde controle die een impliciet model van meerstaps-overgangen leert, in plaats van een beloningsfunctie. We laten zien dat dit impliciete model de Q-waarden voor het voorbeeldgebaseerde controleprobleem kan representeren. Over een reeks state-gebaseerde en image-gebaseerde offline controle taken presteert onze methode beter dan baseline-methoden die geleerde beloningsfuncties gebruiken; aanvullende experimenten tonen verbeterde robuustheid en schaalbaarheid met de datasetgrootte aan.