Dagelijks geselecteerde AI onderzoekspapers met vertalingen
StarCraft II is een van de meest uitdagende gesimuleerde omgevingen voor reinforcement learning; het is gedeeltelijk observeerbaar, stochastisch, multi-agent, en het beheersen van StarCraft II vereist strategische planning over lange tijdshorizonten met real-time uitvoering op laag niveau. Het heeft ook een actieve professionele competitiescene. StarCraft II is bij uitstek geschikt voor het bevorderen van offline RL-algoritmen, zowel vanwege zijn uitdagende aard als omdat Blizzard een enorme dataset heeft vrijgegeven van miljoenen StarCraft II-spellen die door menselijke spelers zijn gespeeld. Dit artikel maakt daar gebruik van en stelt een benchmark vast, genaamd AlphaStar Unplugged, die ongekende uitdagingen introduceert voor offline reinforcement learning. We definiëren een dataset (een subset van Blizzard's release), tools die een API standaardiseren voor machine learning-methoden, en een evaluatieprotocol. We presenteren ook baseline-agents, waaronder behavior cloning, offline varianten van actor-critic en MuZero. We verbeteren de state of the art van agents die alleen offline data gebruiken, en we behalen een winstpercentage van 90% tegen de eerder gepubliceerde AlphaStar behavior cloning-agent.
Grote Taalmodellen (LLM's) worden steeds slimmer en autonomer, waarbij ze zich richten op praktische taken in de echte wereld die verder gaan dan traditionele NLP-taken. Hierdoor is er een dringende behoefte ontstaan om LLM's te evalueren als agents in uitdagende taken binnen interactieve omgevingen. Wij presenteren AgentBench, een multidimensionaal evoluerend benchmark dat momenteel bestaat uit 8 verschillende omgevingen om de redeneer- en besluitvormingsvaardigheden van LLM's als agents te beoordelen in een multi-turn open-ended generatieomgeving. Onze uitgebreide test over 25 LLM's (inclusief API's en open-source modellen) toont aan dat, hoewel topcommerciële LLM's een sterke vaardigheid vertonen om als agents te functioneren in complexe omgevingen, er een aanzienlijk prestatieverschil bestaat tussen hen en open-source concurrenten. Het dient ook als onderdeel van een doorlopend project met een bredere dekking en diepere aandacht voor systematische evaluatie van LLM's. Datasets, omgevingen en een geïntegreerd evaluatiepakket voor AgentBench zijn vrijgegeven op https://github.com/THUDM/AgentBench.
Het creëren van expressieve, diverse en hoogwaardige 3D-avatars op basis van sterk aangepaste tekstbeschrijvingen en posebegeleiding is een uitdagende taak, vanwege de complexiteit van het modelleren en textureren in 3D die details en verschillende stijlen (realistisch, fictief, etc.) waarborgen. Wij presenteren AvatarVerse, een stabiele pijplijn voor het genereren van expressieve, hoogwaardige 3D-avatars uit niets anders dan tekstbeschrijvingen en posebegeleiding. Specifiek introduceren we een 2D-diffusiemodel dat is geconditioneerd op DensePose-signalen om 3D-posecontrole van avatars via 2D-afbeeldingen te realiseren, wat de consistentie van het gezichtspunt verbetert in gedeeltelijk waargenomen scenario's. Dit lost het beruchte Janus-probleem op en stabiliseert het generatieproces aanzienlijk. Bovendien stellen we een progressieve strategie voor hoogwaardige 3D-synthese voor, wat een aanzienlijke verbetering oplevert in de kwaliteit van de gecreëerde 3D-avatars. Hierdoor bereikt de voorgestelde AvatarVerse-pijplijn zero-shot 3D-modellering van 3D-avatars die niet alleen expressiever zijn, maar ook van hogere kwaliteit en betrouwbaarheid dan eerdere werken. Uitgebreide kwalitatieve evaluaties en gebruikersstudies tonen de superioriteit van AvatarVerse aan in het synthetiseren van hoogwaardige 3D-avatars, wat leidt tot een nieuwe standaard in hoogwaardige en stabiele 3D-avatarcreatie. Onze projectpagina is: https://avatarverse3d.github.io.
Recente tekst-naar-beeld generatieve modellen hebben het mogelijk gemaakt om onze woorden om te zetten in levendige, boeiende beelden. De opkomst van personalisatietechnieken die daarop volgde, heeft ons ook in staat gesteld om unieke concepten in nieuwe scènes te verbeelden. Een intrigerende vraag blijft echter: Hoe kunnen we een nieuw, denkbeeldig concept genereren dat nog nooit eerder is gezien? In dit artikel presenteren we de taak van creatieve tekst-naar-beeld generatie, waarbij we streven naar het genereren van nieuwe leden van een brede categorie (bijvoorbeeld het genereren van een huisdier dat verschilt van alle bestaande huisdieren). We maken gebruik van de onderbelichte Diffusion Prior-modellen en laten zien dat het creatieve generatieprobleem kan worden geformuleerd als een optimalisatieproces over de uitvoerruimte van de diffusion prior, wat resulteert in een set van "prior constraints". Om te voorkomen dat ons gegenereerde concept convergeert naar bestaande leden, integreren we een vraag-antwoordmodel dat adaptief nieuwe constraints toevoegt aan het optimalisatieprobleem, waardoor het model wordt aangemoedigd om steeds uniekere creaties te ontdekken. Tot slot laten we zien dat onze prior constraints ook kunnen dienen als een sterk mengmechanisme, waardoor we hybriden kunnen creëren tussen gegenereerde concepten, wat nog meer flexibiliteit introduceert in het creatieve proces.
Grote taalmmodellen (LLM's) hebben opmerkelijke generaliseerbaarheid getoond, zoals het begrijpen van willekeurige entiteiten en relaties. Instructie-afstemming is effectief gebleken voor het destilleren van LLM's naar kostenefficiëntere modellen zoals Alpaca en Vicuna. Toch blijven dergelijke studentmodellen in downstream-toepassingen nog steeds ver achter bij de originele LLM's. In dit artikel onderzoeken we gerichte destillatie met missiegerichte instructie-afstemming om studentmodellen te trainen die kunnen uitblinken in een brede toepassingsklasse, zoals open informatie-extractie. Met behulp van named entity recognition (NER) als casestudy laten we zien hoe ChatGPT kan worden gedestilleerd in veel kleinere UniversalNER-modellen voor open NER. Voor evaluatie stellen we de grootste NER-benchmark tot nu toe samen, bestaande uit 43 datasets in 9 diverse domeinen zoals biomedicine, programmeren, sociale media, recht en financiën. Zonder enige directe supervisie te gebruiken, behaalt UniversalNER opmerkelijke NER-nauwkeurigheid over tienduizenden entiteitstypen, en overtreft het algemene instructie-afgestemde modellen zoals Alpaca en Vicuna met meer dan 30 absolute F1-punten gemiddeld. Met een fractie van het aantal parameters verwerft UniversalNER niet alleen ChatGPT's vermogen om willekeurige entiteitstypen te herkennen, maar overtreft het ook de NER-nauwkeurigheid van ChatGPT met 7-9 absolute F1-punten gemiddeld. Opmerkelijk is dat UniversalNER zelfs met een grote marge state-of-the-art multi-task instructie-afgestemde systemen zoals InstructUIE overtreft, dat gebruikmaakt van gesuperviseerde NER-voorbeelden. We voeren ook grondige ablatiestudies uit om de impact van verschillende componenten in onze destillatieaanpak te beoordelen. We zullen het destillatierecept, de data en de UniversalNER-modellen vrijgeven om toekomstig onderzoek naar gerichte destillatie te faciliteren.
Zien is geloven, maar het onderliggende mechanisme van hoe menselijke visuele waarnemingen verweven zijn met onze cognitie blijft een mysterie. Dankzij de recente vooruitgang in zowel neurowetenschappen als kunstmatige intelligentie zijn we in staat geweest om visueel opgewekte hersenactiviteiten vast te leggen en het visuele waarnemingsvermogen na te bootsen via computationele benaderingen. In dit artikel richten we ons op de reconstructie van visuele stimuli door waargenomen beelden te reconstrueren op basis van draagbaar toegankelijke hersensignalen, namelijk elektro-encefalografie (EEG)-data. Omdat EEG-signalen dynamisch zijn in tijdreeksformaat en berucht zijn om hun ruis, vereist het verwerken en extraheren van nuttige informatie meer toegewijde inspanningen. In dit artikel stellen we een uitgebreide pipeline voor, genaamd NeuroImagen, voor het reconstrueren van visuele stimuli-beelden uit EEG-signalen. Specifiek integreren we een nieuwe multi-level perceptuele informatie-decodering om meerdere niveaus van uitvoer te verkrijgen uit de gegeven EEG-data. Een latent diffusiemodel zal vervolgens de geëxtraheerde informatie benutten om hoogwaardige visuele stimuli-beelden te reconstrueren. De experimentele resultaten hebben de effectiviteit van beeldreconstructie en de superieure kwantitatieve prestaties van onze voorgestelde methode geïllustreerd.
Met de recente vooruitgang in natuurlijke taalverwerking zijn Large Language Models (LLMs) opgekomen als krachtige tools voor diverse real-world toepassingen. Ondanks hun vaardigheden kunnen de intrinsieke generatieve capaciteiten van LLMs ontoereikend blijken voor het uitvoeren van complexe taken die een combinatie van taakplanning en het gebruik van externe tools vereisen. In dit artikel stellen we eerst een gestructureerd framework voor, specifiek ontworpen voor LLM-gebaseerde AI-agents, en bespreken we de cruciale capaciteiten die nodig zijn om ingewikkelde problemen aan te pakken. Binnen dit framework ontwerpen we twee verschillende soorten agents (namelijk een eenstapsagent en een sequentiële agent) om het inferentieproces uit te voeren. Vervolgens concretiseren we het framework met behulp van verschillende LLMs en evalueren we hun Taakplanning en Toolgebruik (TPTU) vaardigheden op typische taken. Door belangrijke bevindingen en uitdagingen te benadrukken, streven we ernaar een nuttige bron te bieden voor onderzoekers en praktijkmensen om de kracht van LLMs te benutten in hun AI-toepassingen. Onze studie benadrukt het aanzienlijke potentieel van deze modellen, terwijl we ook gebieden identificeren die meer onderzoek en verbetering nodig hebben.
Wanneer men beter inzicht probeert te krijgen in een machine learning-model om de bijbehorende risico's te begrijpen en te beperken, is een potentieel waardevolle bron van bewijs: welke trainingsvoorbeelden dragen het meest bij aan een bepaald gedrag? Invloedsfuncties proberen een tegenfeitelijke vraag te beantwoorden: hoe zouden de parameters van het model (en dus de uitvoer ervan) veranderen als een bepaalde reeks aan de trainingsset zou worden toegevoegd? Hoewel invloedsfuncties inzichten hebben opgeleverd voor kleine modellen, zijn ze moeilijk op te schalen naar grote taalmodellen (LLM's) vanwege de complexiteit van het berekenen van een inverse-Hessiaan-vectorproduct (IHVP). We gebruiken de Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC)-benadering om invloedsfuncties op te schalen naar LLM's met tot wel 52 miljard parameters. In onze experimenten bereikt EK-FAC een vergelijkbare nauwkeurigheid als traditionele invloedsfunctieschatters, terwijl de IHVP-berekening vele malen sneller is. We onderzoeken twee algoritmische technieken om de kosten van het berekenen van gradiënten van kandidaat-trainingsreeksen te verlagen: TF-IDF-filtering en query-batching. We gebruiken invloedsfuncties om de generalisatiepatronen van LLM's te onderzoeken, waaronder de spaarzaamheid van de invloedspatronen, toenemende abstractie met schaal, wiskundige en programmeervaardigheden, cross-linguale generalisatie en rollenspelgedrag. Ondanks vele ogenschijnlijk geavanceerde vormen van generalisatie, identificeren we een verrassende beperking: invloeden vervagen tot bijna nul wanneer de volgorde van sleutelzinnen wordt omgedraaid. Over het algemeen bieden invloedsfuncties ons een krachtig nieuw instrument om de generalisatie-eigenschappen van LLM's te bestuderen.
Bewegingsvergroting helpt ons subtiele, onmerkbare bewegingen te visualiseren. Eerdere methoden werken echter alleen voor 2D-video's die zijn vastgelegd met een vaste camera. Wij presenteren een 3D-bewegingsvergrotingmethode die subtiele bewegingen kan vergroten uit scènes die zijn vastgelegd door een bewegende camera, terwijl ondersteuning wordt geboden voor het renderen van nieuwe gezichtspunten. Wij representeren de scène met tijdvariërende stralingsvelden en maken gebruik van het Euleriaanse principe voor bewegingvergroting om de variatie van de inbedding van een vast punt in de tijd te extraheren en te versterken. Wij bestuderen en valideren ons voorgestelde principe voor 3D-bewegingsvergroting met behulp van zowel impliciete als tri-plane-gebaseerde stralingsvelden als onze onderliggende 3D-scène-representatie. Wij evalueren de effectiviteit van onze methode op zowel synthetische als real-world scènes die zijn vastgelegd onder verschillende cameraconfiguraties.
Recente ontwikkelingen in Grote Visueel-Taalmodellen (LVLMs) hebben aanzienlijke vooruitgang laten zien bij het aanpakken van complexe multimodale taken. Onder deze geavanceerde ontwikkelingen springt Google's Bard eruit vanwege zijn opmerkelijke multimodale capaciteiten, die een uitgebreid begrip en redenering over verschillende domeinen bevorderen. Dit werk presenteert een vroege en holistische evaluatie van de multimodale vaardigheden van LVLMs, met een specifieke focus op Bard, door een lichtgewicht variant van LVLM-eHub voor te stellen, genaamd Tiny LVLM-eHub. In vergelijking met de standaardversie beschikt Tiny LVLM-eHub over verschillende aantrekkelijke eigenschappen. Ten eerste biedt het een systematische beoordeling van zes categorieën multimodale vaardigheden, waaronder visuele waarneming, visuele kennisverwerving, visueel redeneren, visueel gezond verstand, objecthallucinatie en belichaamde intelligentie, door middel van kwantitatieve evaluatie van 42 standaard tekstgerelateerde visuele benchmarks. Ten tweede voert het een diepgaande analyse uit van de voorspellingen van LVLMs met behulp van de ChatGPT Ensemble Evaluation (CEE), wat leidt tot een robuuste en nauwkeurige evaluatie en een verbeterde afstemming met menselijke evaluatie in vergelijking met de woordmatchende aanpak. Ten derde bestaat het uit slechts 2.1K beeld-tekstparen, wat het gemakkelijk maakt voor praktijkmensen om hun eigen offline LVLMs te evalueren. Door uitgebreide experimentele analyse toont deze studie aan dat Bard de meeste eerdere LVLMs overtreft in de meeste multimodale vaardigheden, behalve in objecthallucinatie, waar Bard nog steeds gevoelig voor is. Tiny LVLM-eHub dient als een basislijn-evaluatie voor verschillende LVLMs en moedigt innovatieve strategieën aan die gericht zijn op het bevorderen van multimodale technieken. Ons project is openbaar beschikbaar op https://github.com/OpenGVLab/Multi-Modality-Arena.
Bestaande grote taalmodellen moeten K keer worden uitgevoerd om een reeks van K tokens te genereren. In dit artikel presenteren we RecycleGPT, een generatief taalmodel met een snelle decodeersnelheid door het hergebruiken van vooraf gegenereerde modelstatussen zonder het hele model in meerdere stappen te hoeven uitvoeren. Onze aanpak is gebaseerd op de observatie dat aangrenzende tokens in een reeks meestal sterke correlaties hebben en dat het volgende token in een reeks redelijk kan worden geraden of afgeleid op basis van de voorgaande. Door theoretische evaluaties en praktische tests op downstream tekstgeneratietaken, tonen we de effectiviteit van onze aanpak aan in het verminderen van inferentielatentie, met een versnelling tot 1,4x terwijl de hoge prestaties behouden blijven.
Voor industriële besturing is het ontwikkelen van hoogwaardige controllers met weinig voorbeelden en lage technische schuld aantrekkelijk. Foundation-modellen, die beschikken over rijke voorkennis verkregen uit voorafgaande training met een internet-schaal corpus, hebben het potentieel om een goede controller te zijn met de juiste prompts. In dit artikel nemen we HVAC (Verwarming, Ventilatie en Airconditioning) gebouwbeheersing als voorbeeld om het vermogen van GPT-4 (een van de toonaangevende foundation-modellen) als controller te onderzoeken. Om HVAC te besturen, verpakken we de taak als een taalspel door tekst aan GPT-4 te verstrekken die een korte beschrijving van de taak, enkele geselecteerde demonstraties en de huidige observatie bevat op elke stap, en voeren we de acties uit die door GPT-4 worden voorgesteld. We voeren een reeks experimenten uit om de volgende vragen te beantwoorden: 1) Hoe goed kan GPT-4 HVAC besturen? 2) Hoe goed kan GPT-4 generaliseren naar verschillende scenario's voor HVAC-besturing? 3) Hoe beïnvloeden verschillende delen van de tekstcontext de prestaties? Over het algemeen hebben we vastgesteld dat GPT-4 prestaties bereikt die vergelijkbaar zijn met RL-methoden met weinig voorbeelden en lage technische schuld, wat het potentieel aangeeft van het direct toepassen van foundation-modellen op industriële besturingstaken.
Onlangs heeft Neural Radiance Fields (NeRF) aanzienlijk succes getoond in het synthetiseren van nieuwe gezichtspunten, oppervlakreconstructie, enzovoort. Omdat er echter geen fysieke reflectie wordt overwogen in de renderingpipeline, interpreteert NeRF de reflectie in de spiegel als een aparte virtuele scène, wat leidt tot onnauwkeurige reconstructie van de spiegel en inconsistente reflecties in de spiegel vanuit meerdere gezichtspunten. In dit artikel presenteren we een nieuw neurale renderingframework, genaamd Mirror-NeRF, dat in staat is om nauwkeurige geometrie en reflectie van de spiegel te leren en verschillende scenemanipulatie-applicaties met spiegels te ondersteunen, zoals het toevoegen van nieuwe objecten of spiegels aan de scène en het synthetiseren van de reflecties van deze nieuwe objecten in spiegels, het beheersen van de ruwheid van de spiegel, enzovoort. Om dit doel te bereiken, stellen we een verenigd radianceveld voor door de reflectiekans te introduceren en stralen te traceren volgens het lichttransportmodel van Whitted Ray Tracing, en ontwikkelen we ook verschillende technieken om het leerproces te vergemakkelijken. Experimenten en vergelijkingen op zowel synthetische als echte datasets demonstreren de superioriteit van onze methode. De code en aanvullende materialen zijn beschikbaar op de projectwebpagina: https://zju3dv.github.io/Mirror-NeRF/.
De ontwikkeling van deep learning softwarebibliotheken heeft aanzienlijke vooruitgang in het veld mogelijk gemaakt door gebruikers zich te laten concentreren op modellering, terwijl de bibliotheek de vervelende en tijdrovende taak van het optimaliseren van de uitvoering voor moderne hardwareversnellers op zich neemt. Dit heeft echter alleen bepaalde typen deep learning-modellen ten goede gekomen, zoals Transformers, waarvan de primitieven eenvoudig te mappen zijn op de vectorberekening. Modellen die expliciet rekening houden met gestructureerde objecten, zoals bomen en segmentaties, hebben niet in gelijke mate geprofiteerd, omdat ze aangepaste algoritmen vereisen die moeilijk in een vectorvorm te implementeren zijn. SynJax pakt dit probleem direct aan door een efficiënte gevectoriseerde implementatie te bieden van inferentie-algoritmen voor gestructureerde verdelingen, waaronder uitlijning, tagging, segmentatie, constituentiebomen en overspannende bomen. Met SynJax kunnen we grootschalige differentieerbare modellen bouwen die expliciet structuur in de data modelleren. De code is beschikbaar op https://github.com/deepmind/synjax.
Kwantisatie is een veelgebruikte compressietechniek geworden om de modelgrootte, rekenvereisten en energieconsumptie van moderne deep neural networks (DNN's) te verminderen. Met de verbeterde numerieke ondersteuning in recente hardware, waaronder meerdere varianten van integer- en floating-point, is mixed-precision kwantisatie noodzakelijk geworden om hoogwaardige resultaten te behalen tegen lage modelkosten. Eerdere mixed-precision kwantisatiemethoden voerden een post-training kwantisatiezoektocht uit, wat ten koste gaat van de nauwkeurigheid, of een differentieerbare kwantisatiezoektocht, wat leidt tot hoog geheugengebruik door vertakkingen. Daarom stellen we de eerste one-shot mixed-precision kwantisatiezoektocht voor die de noodzaak van hertraining elimineert, zowel voor integer- als low-precision floating-point modellen. We evalueren onze floating-point en integer kwantisatiezoektocht (FLIQS) op meerdere convolutionele netwerken en vision transformer modellen om Pareto-optimale modellen te ontdekken. Onze aanpak ontdekt modellen die beter presteren dan uniforme precisie, handmatige mixed-precision en recente integer kwantisatiezoekmethoden. Met de voorgestelde integer kwantisatiezoektocht verhogen we de nauwkeurigheid van ResNet-18 op ImageNet met 1,31 procentpunten en ResNet-50 met 0,90 procentpunten bij gelijkblijvende modelkosten ten opzichte van eerdere methoden. Daarnaast verkennen we voor het eerst een nieuwe mixed-precision floating-point zoektocht en verbeteren we MobileNetV2 met maximaal 0,98 procentpunten in vergelijking met eerdere state-of-the-art FP8-modellen. Tot slot breiden we FLIQS uit om gelijktijdig een gezamenlijke kwantisatie- en neurale architectuurruimte te doorzoeken en verbeteren we de ImageNet-nauwkeurigheid met 2,69 procentpunten bij vergelijkbare modelkosten in een MobileNetV2 zoekruimte.
Diepe generatieve modellen kunnen hoogwaardige audio genereren die is geconditioneerd op verschillende soorten representaties (bijvoorbeeld mel-spectrogrammen, Mel-frequency Cepstral Coefficients (MFCC)). Recentelijk zijn dergelijke modellen gebruikt om audiogolven te synthetiseren die zijn geconditioneerd op sterk gecomprimeerde representaties. Hoewel dergelijke methoden indrukwekkende resultaten opleveren, zijn ze gevoelig voor het genereren van hoorbare artefacten wanneer de conditionering gebrekkig of onvolmaakt is. Een alternatieve modelleerbenadering is het gebruik van diffusiemodellen. Deze zijn echter voornamelijk gebruikt als spraakvocoders (d.w.z. geconditioneerd op mel-spectrogrammen) of voor het genereren van signalen met een relatief lage samplefrequentie. In dit werk stellen we een hoogwaardig, op diffusie gebaseerd framework voor met meerdere banden dat elk type audiomodaliteit (bijvoorbeeld spraak, muziek, omgevingsgeluiden) genereert uit discrete representaties met een lage bitrate. Bij gelijke bitrate overtreft de voorgestelde aanpak state-of-the-art generatieve technieken wat betreft perceptuele kwaliteit. Trainings- en evaluatiecode, samen met audiovoorbeelden, zijn beschikbaar op de facebookresearch/audiocraft Github-pagina.