HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

9 papers found

Gespecialiseerde Taalmodellen met Goedkope Inferentie uit Beperkte Domeindata
Specialized Language Models with Cheap Inference from Limited Domain Data

Feb 2

ByDavid Grangier, Angelos Katharopoulos, Pierre Ablin, Awni Hannun

Grote taalmodelen zijn naar voren gekomen als een veelzijdig hulpmiddel, maar zijn lastig toe te passen op taken waarbij geen grote inferentiebudgetten en grote in-domein trainingssets beschikbaar zijn. Dit werk formaliseert deze beperkingen en onderscheidt vier belangrijke variabelen: het pretrainingsbudget (voor training voordat het doeldomein bekend is), het specialisatiebudget (voor training nadat het doeldomein bekend is), het inferentiebudget en de grootte van de in-domein trainingsset. Binnen deze contexten vergelijken we verschillende benaderingen uit de machine learning-literatuur. Beperkt door de inferentiekosten vinden we betere alternatieven voor de standaardpraktijk van het trainen van zeer grote standaard transformer-modellen. In het bijzonder laten we zien dat hyper-netwerken en mengsels van experts betere perplexiteit bieden bij grote pretrainingsbudgetten, terwijl kleine modellen die getraind zijn op datasets met belangstellingssteekproeven aantrekkelijk zijn bij grote specialisatiebudgetten.

StepCoder: Verbeter Codegeneratie met Reinforcement Learning op basis van Compilerfeedback
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback

Feb 2

ByShihan Dou, Yan Liu, Haoxiang Jia, Limao Xiong, Enyu Zhou, Junjie Shan, Caishuang Huang, Wei Shen, Xiaoran Fan, Zhiheng Xi, Yuhao Zhou, Tao Ji, Rui Zheng, Qi Zhang, Xuanjing Huang, Tao Gui

De vooruitgang van grote taalmodellen (LLMs) heeft het vakgebied van codegeneratie aanzienlijk vooruitgestuwd. Eerder werk integreerde reinforcement learning (RL) met compilerfeedback om de uitvoerruimte van LLMs te verkennen en zo de kwaliteit van codegeneratie te verbeteren. Echter, maakt de lange code die door LLMs wordt gegenereerd als reactie op complexe menselijke vereisten, RL-verkenning tot een uitdaging. Bovendien, aangezien de unittests de ingewikkelde code mogelijk niet dekken, is het optimaliseren van LLMs met behulp van deze niet-uitgevoerde codesegmenten niet effectief. Om deze uitdagingen aan te pakken, introduceren we StepCoder, een nieuw RL-framework voor codegeneratie, bestaande uit twee hoofdcomponenten: CCCS behandelt de verkenninguitdaging door de taak van het genereren van lange codereeksen op te splitsen in een Curriculum van Code Completion Subtaken, terwijl FGO het model alleen optimaliseert door de niet-uitgevoerde codesegmenten te maskeren om Fine-Grained Optimization te bieden. Daarnaast construeren we verder het APPS+-dataset voor RL-training, dat handmatig is geverifieerd om de juistheid van de unittests te waarborgen. Experimentele resultaten tonen aan dat onze methode het vermogen om de uitvoerruimte te verkennen verbetert en state-of-the-art benaderingen overtreft in de corresponderende benchmarks.

TravelPlanner: Een Benchmark voor Real-World Planning met Taalagentschappen
TravelPlanner: A Benchmark for Real-World Planning with Language Agents

Feb 2

ByJian Xie, Kai Zhang, Jiangjie Chen, Tinghui Zhu, Renze Lou, Yuandong Tian, Yanghua Xiao, Yu Su

Planning is sinds het ontstaan van kunstmatige intelligentie een kernonderwerp geweest, maar eerdere AI-agenten richtten zich voornamelijk op beperkte omgevingen omdat veel van de cognitieve grondslagen die nodig zijn voor planning op menselijk niveau ontbraken. Recentelijk hebben taalagenten, aangedreven door grote taalmmodellen (LLMs), interessante capaciteiten getoond, zoals het gebruik van tools en redeneren. Zijn deze taalagenten in staat om te plannen in complexere omgevingen die buiten het bereik van eerdere AI-agenten liggen? Om dit onderzoek vooruit te helpen, stellen we TravelPlanner voor, een nieuwe benchmark voor planning die zich richt op reisplanning, een veelvoorkomend scenario uit de echte wereld. Het biedt een rijke sandbox-omgeving, diverse tools voor toegang tot bijna vier miljoen gegevensrecords, en 1.225 zorgvuldig samengestelde planningsoogmerken en referentieplannen. Uitgebreide evaluaties laten zien dat de huidige taalagenten nog niet in staat zijn om dergelijke complexe plannings taken aan te kunnen – zelfs GPT-4 behaalt slechts een slagingspercentage van 0,6%. Taalagenten hebben moeite om bij de taak te blijven, de juiste tools te gebruiken om informatie te verzamelen, of meerdere beperkingen bij te houden. Echter, wij merken op dat de mogelijkheid voor taalagenten om een dergelijk complex probleem aan te pakken op zichzelf al een niet-triviale vooruitgang is. TravelPlanner biedt een uitdagend maar betekenisvol testbed voor toekomstige taalagenten.

PokéLLMon: Een Agent op Menselijk Niveau voor Pokémon Gevechten met Grote Taalmodellen
PokéLLMon: A Human-Parity Agent for Pokémon Battles with Large Language Models

Feb 2

BySihao Hu, Tiansheng Huang, Ling Liu

We introduceren Pok\'eLLMon, de eerste LLM-belichaamde agent die een menselijk-pariteit prestatieniveau bereikt in tactische gevechtsspellen, zoals gedemonstreerd in Pok\'emon-gevechten. Het ontwerp van Pok\'eLLMon omvat drie belangrijke strategieën: (i) In-context reinforcement learning dat onmiddellijk tekstgebaseerde feedback uit gevechten verwerkt om het beleid iteratief te verfijnen; (ii) Kennis-augmented generatie die externe kennis ophaalt om hallucinatie tegen te gaan en de agent in staat stelt tijdig en adequaat te handelen; (iii) Consistente actiegeneratie om het paniekschakelingsfenomeen te verminderen wanneer de agent een krachtige tegenstander tegenkomt en het gevecht wil ontwijken. We tonen aan dat online gevechten tegen mensen Pok\'eLLMon's mensachtige gevechtsstrategieën en just-in-time besluitvorming demonstreren, met een winstpercentage van 49\% in de Ladder-competities en 56\% in de uitgenodigde gevechten. Onze implementatie en speelbare gevechtslogboeken zijn beschikbaar op: https://github.com/git-disl/PokeLLMon.

Boximator: Het genereren van rijke en controleerbare bewegingen voor videosynthese
Boximator: Generating Rich and Controllable Motions for Video Synthesis

Feb 2

ByJiawei Wang, Yuchen Zhang, Jiaxin Zou, Yan Zeng, Guoqiang Wei, Liping Yuan, Hang Li

Het genereren van rijke en controleerbare beweging is een cruciale uitdaging in videosynthese. Wij stellen Boximator voor, een nieuwe aanpak voor fijnmazige bewegingscontrole. Boximator introduceert twee soorten beperkingen: harde boxen en zachte boxen. Gebruikers selecteren objecten in het conditionele frame met behulp van harde boxen en gebruiken vervolgens een van beide soorten boxen om de positie, vorm of bewegingsbaan van het object in toekomstige frames ruwweg of strikt te definiëren. Boximator fungeert als een plug-in voor bestaande videodiffusiemodellen. Het trainingsproces behoudt de kennis van het basismodel door de oorspronkelijke gewichten te bevriezen en alleen het controlemodule te trainen. Om trainingsuitdagingen aan te pakken, introduceren we een nieuwe zelfvolgende techniek die het leren van box-objectcorrelaties aanzienlijk vereenvoudigt. Empirisch gezien behaalt Boximator state-of-the-art videokwaliteitsscores (FVD), verbetert het op twee basismodellen, en wordt het verder versterkt na het incorporeren van boxbeperkingen. De robuuste bewegingscontroleerbaarheid wordt gevalideerd door drastische stijgingen in de metriek voor uitlijning van begrenzingsboxen. Menselijke evaluatie toont ook aan dat gebruikers de generatieresultaten van Boximator verkiezen boven die van het basismodel.

Herhaal Na Mij: Transformers zijn Beter dan State Space Modellen bij het Kopiëren
Repeat After Me: Transformers are Better than State Space Models at Copying

Feb 1

BySamy Jelassi, David Brandfonbrener, Sham M. Kakade, Eran Malach

Transformers zijn de dominante architectuur voor sequentiemodellering, maar er is een groeiende interesse in modellen die gebruikmaken van een latente toestand met een vaste grootte die niet afhankelijk is van de sequentielengte, wat we "gegeneraliseerde toestandsruimtemodellen" (GSSMs) noemen. In dit artikel laten we zien dat hoewel GSSMs veelbelovend zijn wat betreft efficiëntie tijdens inferentie, ze beperkt zijn in vergelijking met transformer-modellen bij taken die het kopiëren van de invoercontext vereisen. We beginnen met een theoretische analyse van de eenvoudige taak van het kopiëren van strings en bewijzen dat een transformer met twee lagen strings van exponentiële lengte kan kopiëren, terwijl GSSMs fundamenteel beperkt worden door hun latentetoestandsgrootte. Empirisch vinden we dat transformers GSSMs overtreffen wat betreft efficiëntie en generalisatie op synthetische taken die het kopiëren van de context vereisen. Tot slot evalueren we vooraf getrainde grote taalmodellen en ontdekken dat transformer-modellen toestandsruimtemodellen dramatisch overtreffen bij het kopiëren en ophalen van informatie uit de context. Samen genomen suggereren deze resultaten een fundamenteel verschil tussen transformers en GSSMs bij taken van praktisch belang.

K-Niveau Redeneren met Grote Taalmodellen
K-Level Reasoning with Large Language Models

Feb 2

ByYadong Zhang, Shaoguang Mao, Tao Ge, Xun Wang, Yan Xia, Man Lan, Furu Wei

Hoewel Large Language Models (LLMs) hun vaardigheid hebben aangetoond in complexe redeneertaken, blijft hun prestaties in dynamische, interactieve en competitieve scenario's - zoals bedrijfsstrategie en aandelenmarktanalyse - onderbelicht. Om deze kloof te overbruggen, onderzoeken we formeel de dynamische redeneervaardigheden van LLMs voor besluitvorming in snel veranderende omgevingen. We introduceren twee op speltheorie gebaseerde pilotuitdagingen die de complexiteit van dynamische besluitvorming in de echte wereld weerspiegelen. Deze uitdagingen zijn goed gedefinieerd, waardoor een duidelijke, controleerbare en precieze evaluatie van de dynamische redeneervaardigheden van LLMs mogelijk is. Door uitgebreide experimenten ontdekken we dat bestaande redeneermethoden vaak tekortschieten in dynamische situaties die k-level denken vereisen - een sleutelconcept dat door eerdere werken niet is aangepakt. Om dit aan te pakken, stellen we een nieuwe redeneerbenadering voor LLMs voor, genaamd "K-Level Reasoning". Deze benadering neemt het perspectief van rivalen over om recursief k-level denken toe te passen op basis van beschikbare historische informatie, wat de nauwkeurigheid van het voorspellen van de volgende zetten van rivalen aanzienlijk verbetert en meer strategische besluitvorming informeert. Dit onderzoek stelt niet alleen een robuuste kwantitatieve benchmark vast voor de beoordeling van dynamisch redeneren, maar verbetert ook aanzienlijk de vaardigheid van LLMs in dynamische contexten.

Nomic Embed: Het trainen van een reproduceerbare tekstembedder voor lange contexten
Nomic Embed: Training a Reproducible Long Context Text Embedder

Feb 2

ByZach Nussbaum, John X. Morris, Brandon Duderstadt, Andriy Mulyar

Dit technisch rapport beschrijft de training van nomic-embed-text-v1, het eerste volledig reproduceerbare, open-source, open-weights, open-data Engels tekstembeddingmodel met een contextlengte van 8192 dat zowel OpenAI Ada-002 als OpenAI text-embedding-3-small overtreft bij taken met korte en lange context. We publiceren de trainingscode en modelgewichten onder een Apache 2-licentie. In tegenstelling tot andere open-source modellen, publiceren we een trainingsdatalader met 235 miljoen gecureerde tekstparen die de volledige replicatie van nomic-embed-text-v1 mogelijk maakt. Je kunt de code en data om het model te repliceren vinden op https://github.com/nomic-ai/contrastors.

EVA-GAN: Verbeterde Generatie van Diverse Audio via Schaalbare Generatieve Adversariële Netwerken
EVA-GAN: Enhanced Various Audio Generation via Scalable Generative Adversarial Networks

Jan 31

ByShijia Liao, Shiyi Lan, Arun George Zachariah

De opkomst van Large Models markeert een nieuw tijdperk in machine learning, waarbij ze aanzienlijk beter presteren dan kleinere modellen door gebruik te maken van enorme datasets om complexe patronen vast te leggen en te synthetiseren. Ondanks deze vooruitgang blijft het onderzoek naar schaalvergroting, met name op het gebied van audiogeneratie, beperkt. Eerdere inspanningen reikten niet tot het high-fidelity (HiFi) 44.1kHz-domein en leden zowel onder spectrale discontinuïteiten als vervaging in het hoogfrequente domein, naast een gebrek aan robuustheid tegenover out-of-domain data. Deze beperkingen beperken de toepasbaarheid van modellen voor diverse use cases, waaronder muziek- en zanggeneratie. Ons werk introduceert Enhanced Various Audio Generation via Scalable Generative Adversarial Networks (EVA-GAN), wat aanzienlijke verbeteringen oplevert ten opzichte van de vorige state-of-the-art op het gebied van spectrale en hoogfrequente reconstructie en robuustheid in out-of-domain data-prestaties. HiFi-audio's kunnen worden gegenereerd door gebruik te maken van een uitgebreide dataset van 36.000 uur aan 44.1kHz-audio, een contextbewuste module, een Human-In-The-Loop artifact-meetgereedschap en het uitbreiden van het model tot ongeveer 200 miljoen parameters. Demonstraties van ons werk zijn beschikbaar op https://double-blind-eva-gan.cc.