Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote taalmodelen zijn naar voren gekomen als een veelzijdig hulpmiddel, maar zijn lastig toe te passen op taken waarbij geen grote inferentiebudgetten en grote in-domein trainingssets beschikbaar zijn. Dit werk formaliseert deze beperkingen en onderscheidt vier belangrijke variabelen: het pretrainingsbudget (voor training voordat het doeldomein bekend is), het specialisatiebudget (voor training nadat het doeldomein bekend is), het inferentiebudget en de grootte van de in-domein trainingsset. Binnen deze contexten vergelijken we verschillende benaderingen uit de machine learning-literatuur. Beperkt door de inferentiekosten vinden we betere alternatieven voor de standaardpraktijk van het trainen van zeer grote standaard transformer-modellen. In het bijzonder laten we zien dat hyper-netwerken en mengsels van experts betere perplexiteit bieden bij grote pretrainingsbudgetten, terwijl kleine modellen die getraind zijn op datasets met belangstellingssteekproeven aantrekkelijk zijn bij grote specialisatiebudgetten.
De vooruitgang van grote taalmodellen (LLMs) heeft het vakgebied van codegeneratie aanzienlijk vooruitgestuwd. Eerder werk integreerde reinforcement learning (RL) met compilerfeedback om de uitvoerruimte van LLMs te verkennen en zo de kwaliteit van codegeneratie te verbeteren. Echter, maakt de lange code die door LLMs wordt gegenereerd als reactie op complexe menselijke vereisten, RL-verkenning tot een uitdaging. Bovendien, aangezien de unittests de ingewikkelde code mogelijk niet dekken, is het optimaliseren van LLMs met behulp van deze niet-uitgevoerde codesegmenten niet effectief. Om deze uitdagingen aan te pakken, introduceren we StepCoder, een nieuw RL-framework voor codegeneratie, bestaande uit twee hoofdcomponenten: CCCS behandelt de verkenninguitdaging door de taak van het genereren van lange codereeksen op te splitsen in een Curriculum van Code Completion Subtaken, terwijl FGO het model alleen optimaliseert door de niet-uitgevoerde codesegmenten te maskeren om Fine-Grained Optimization te bieden. Daarnaast construeren we verder het APPS+-dataset voor RL-training, dat handmatig is geverifieerd om de juistheid van de unittests te waarborgen. Experimentele resultaten tonen aan dat onze methode het vermogen om de uitvoerruimte te verkennen verbetert en state-of-the-art benaderingen overtreft in de corresponderende benchmarks.
Planning is sinds het ontstaan van kunstmatige intelligentie een kernonderwerp geweest, maar eerdere AI-agenten richtten zich voornamelijk op beperkte omgevingen omdat veel van de cognitieve grondslagen die nodig zijn voor planning op menselijk niveau ontbraken. Recentelijk hebben taalagenten, aangedreven door grote taalmmodellen (LLMs), interessante capaciteiten getoond, zoals het gebruik van tools en redeneren. Zijn deze taalagenten in staat om te plannen in complexere omgevingen die buiten het bereik van eerdere AI-agenten liggen? Om dit onderzoek vooruit te helpen, stellen we TravelPlanner voor, een nieuwe benchmark voor planning die zich richt op reisplanning, een veelvoorkomend scenario uit de echte wereld. Het biedt een rijke sandbox-omgeving, diverse tools voor toegang tot bijna vier miljoen gegevensrecords, en 1.225 zorgvuldig samengestelde planningsoogmerken en referentieplannen. Uitgebreide evaluaties laten zien dat de huidige taalagenten nog niet in staat zijn om dergelijke complexe plannings taken aan te kunnen – zelfs GPT-4 behaalt slechts een slagingspercentage van 0,6%. Taalagenten hebben moeite om bij de taak te blijven, de juiste tools te gebruiken om informatie te verzamelen, of meerdere beperkingen bij te houden. Echter, wij merken op dat de mogelijkheid voor taalagenten om een dergelijk complex probleem aan te pakken op zichzelf al een niet-triviale vooruitgang is. TravelPlanner biedt een uitdagend maar betekenisvol testbed voor toekomstige taalagenten.
We introduceren Pok\'eLLMon, de eerste LLM-belichaamde agent die een menselijk-pariteit prestatieniveau bereikt in tactische gevechtsspellen, zoals gedemonstreerd in Pok\'emon-gevechten. Het ontwerp van Pok\'eLLMon omvat drie belangrijke strategieën: (i) In-context reinforcement learning dat onmiddellijk tekstgebaseerde feedback uit gevechten verwerkt om het beleid iteratief te verfijnen; (ii) Kennis-augmented generatie die externe kennis ophaalt om hallucinatie tegen te gaan en de agent in staat stelt tijdig en adequaat te handelen; (iii) Consistente actiegeneratie om het paniekschakelingsfenomeen te verminderen wanneer de agent een krachtige tegenstander tegenkomt en het gevecht wil ontwijken. We tonen aan dat online gevechten tegen mensen Pok\'eLLMon's mensachtige gevechtsstrategieën en just-in-time besluitvorming demonstreren, met een winstpercentage van 49\% in de Ladder-competities en 56\% in de uitgenodigde gevechten. Onze implementatie en speelbare gevechtslogboeken zijn beschikbaar op: https://github.com/git-disl/PokeLLMon.
Het genereren van rijke en controleerbare beweging is een cruciale uitdaging in videosynthese. Wij stellen Boximator voor, een nieuwe aanpak voor fijnmazige bewegingscontrole. Boximator introduceert twee soorten beperkingen: harde boxen en zachte boxen. Gebruikers selecteren objecten in het conditionele frame met behulp van harde boxen en gebruiken vervolgens een van beide soorten boxen om de positie, vorm of bewegingsbaan van het object in toekomstige frames ruwweg of strikt te definiëren. Boximator fungeert als een plug-in voor bestaande videodiffusiemodellen. Het trainingsproces behoudt de kennis van het basismodel door de oorspronkelijke gewichten te bevriezen en alleen het controlemodule te trainen. Om trainingsuitdagingen aan te pakken, introduceren we een nieuwe zelfvolgende techniek die het leren van box-objectcorrelaties aanzienlijk vereenvoudigt. Empirisch gezien behaalt Boximator state-of-the-art videokwaliteitsscores (FVD), verbetert het op twee basismodellen, en wordt het verder versterkt na het incorporeren van boxbeperkingen. De robuuste bewegingscontroleerbaarheid wordt gevalideerd door drastische stijgingen in de metriek voor uitlijning van begrenzingsboxen. Menselijke evaluatie toont ook aan dat gebruikers de generatieresultaten van Boximator verkiezen boven die van het basismodel.
Transformers zijn de dominante architectuur voor sequentiemodellering, maar er is een groeiende interesse in modellen die gebruikmaken van een latente toestand met een vaste grootte die niet afhankelijk is van de sequentielengte, wat we "gegeneraliseerde toestandsruimtemodellen" (GSSMs) noemen. In dit artikel laten we zien dat hoewel GSSMs veelbelovend zijn wat betreft efficiëntie tijdens inferentie, ze beperkt zijn in vergelijking met transformer-modellen bij taken die het kopiëren van de invoercontext vereisen. We beginnen met een theoretische analyse van de eenvoudige taak van het kopiëren van strings en bewijzen dat een transformer met twee lagen strings van exponentiële lengte kan kopiëren, terwijl GSSMs fundamenteel beperkt worden door hun latentetoestandsgrootte. Empirisch vinden we dat transformers GSSMs overtreffen wat betreft efficiëntie en generalisatie op synthetische taken die het kopiëren van de context vereisen. Tot slot evalueren we vooraf getrainde grote taalmodellen en ontdekken dat transformer-modellen toestandsruimtemodellen dramatisch overtreffen bij het kopiëren en ophalen van informatie uit de context. Samen genomen suggereren deze resultaten een fundamenteel verschil tussen transformers en GSSMs bij taken van praktisch belang.
Hoewel Large Language Models (LLMs) hun vaardigheid hebben aangetoond in complexe redeneertaken, blijft hun prestaties in dynamische, interactieve en competitieve scenario's - zoals bedrijfsstrategie en aandelenmarktanalyse - onderbelicht. Om deze kloof te overbruggen, onderzoeken we formeel de dynamische redeneervaardigheden van LLMs voor besluitvorming in snel veranderende omgevingen. We introduceren twee op speltheorie gebaseerde pilotuitdagingen die de complexiteit van dynamische besluitvorming in de echte wereld weerspiegelen. Deze uitdagingen zijn goed gedefinieerd, waardoor een duidelijke, controleerbare en precieze evaluatie van de dynamische redeneervaardigheden van LLMs mogelijk is. Door uitgebreide experimenten ontdekken we dat bestaande redeneermethoden vaak tekortschieten in dynamische situaties die k-level denken vereisen - een sleutelconcept dat door eerdere werken niet is aangepakt. Om dit aan te pakken, stellen we een nieuwe redeneerbenadering voor LLMs voor, genaamd "K-Level Reasoning". Deze benadering neemt het perspectief van rivalen over om recursief k-level denken toe te passen op basis van beschikbare historische informatie, wat de nauwkeurigheid van het voorspellen van de volgende zetten van rivalen aanzienlijk verbetert en meer strategische besluitvorming informeert. Dit onderzoek stelt niet alleen een robuuste kwantitatieve benchmark vast voor de beoordeling van dynamisch redeneren, maar verbetert ook aanzienlijk de vaardigheid van LLMs in dynamische contexten.
Dit technisch rapport beschrijft de training van nomic-embed-text-v1, het eerste volledig reproduceerbare, open-source, open-weights, open-data Engels tekstembeddingmodel met een contextlengte van 8192 dat zowel OpenAI Ada-002 als OpenAI text-embedding-3-small overtreft bij taken met korte en lange context. We publiceren de trainingscode en modelgewichten onder een Apache 2-licentie. In tegenstelling tot andere open-source modellen, publiceren we een trainingsdatalader met 235 miljoen gecureerde tekstparen die de volledige replicatie van nomic-embed-text-v1 mogelijk maakt. Je kunt de code en data om het model te repliceren vinden op https://github.com/nomic-ai/contrastors.
De opkomst van Large Models markeert een nieuw tijdperk in machine learning, waarbij ze aanzienlijk beter presteren dan kleinere modellen door gebruik te maken van enorme datasets om complexe patronen vast te leggen en te synthetiseren. Ondanks deze vooruitgang blijft het onderzoek naar schaalvergroting, met name op het gebied van audiogeneratie, beperkt. Eerdere inspanningen reikten niet tot het high-fidelity (HiFi) 44.1kHz-domein en leden zowel onder spectrale discontinuïteiten als vervaging in het hoogfrequente domein, naast een gebrek aan robuustheid tegenover out-of-domain data. Deze beperkingen beperken de toepasbaarheid van modellen voor diverse use cases, waaronder muziek- en zanggeneratie. Ons werk introduceert Enhanced Various Audio Generation via Scalable Generative Adversarial Networks (EVA-GAN), wat aanzienlijke verbeteringen oplevert ten opzichte van de vorige state-of-the-art op het gebied van spectrale en hoogfrequente reconstructie en robuustheid in out-of-domain data-prestaties. HiFi-audio's kunnen worden gegenereerd door gebruik te maken van een uitgebreide dataset van 36.000 uur aan 44.1kHz-audio, een contextbewuste module, een Human-In-The-Loop artifact-meetgereedschap en het uitbreiden van het model tot ongeveer 200 miljoen parameters. Demonstraties van ons werk zijn beschikbaar op https://double-blind-eva-gan.cc.