Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Dit werk presenteert een analyse van de effectiviteit van het gebruik van standaard ondiepe feed-forward netwerken om het gedrag van het aandachtmechanisme in het originele Transformer-model na te bootsen, een state-of-the-art architectuur voor sequence-to-sequence taken. We vervangen belangrijke elementen van het aandachtmechanisme in de Transformer door eenvoudige feed-forward netwerken, getraind met behulp van de originele componenten via kennisdistillatie. Onze experimenten, uitgevoerd op de IWSLT2017 dataset, onthullen het vermogen van deze "aandachtloze Transformers" om de prestaties van de originele architectuur te evenaren. Door middel van grondige ablatiestudies en het experimenteren met verschillende typen en groottes van vervangende netwerken, bieden we inzichten die de haalbaarheid van onze aanpak ondersteunen. Dit werpt niet alleen licht op de aanpasbaarheid van ondiepe feed-forward netwerken in het nabootsen van aandachtmechanismen, maar benadrukt ook hun potentieel om complexe architecturen voor sequence-to-sequence taken te stroomlijnen.
Generatieve modellen voor 3D-objectsynthese hebben aanzienlijke vooruitgang geboekt door de integratie van voorkennis gedestilleerd uit 2D-diffusiemodellen. Desalniettemin blijven er uitdagingen bestaan in de vorm van multi-view geometrische inconsistenties en trage generatiesnelheden binnen de bestaande 3D-synthesisframeworks. Dit kan worden toegeschreven aan twee factoren: ten eerste het gebrek aan uitgebreide geometrische a priori kennis tijdens optimalisatie, en ten tweede het verstrengelingsprobleem tussen geometrie en textuur in conventionele 3D-generatiemethoden. Als reactie hierop introduceren we MetaDreammer, een tweestaps optimalisatiebenadering die gebruikmaakt van rijke 2D- en 3D-voorkennis. In de eerste fase ligt de nadruk op het optimaliseren van de geometrische representatie om multi-view consistentie en nauwkeurigheid van 3D-objecten te waarborgen. In de tweede fase concentreren we ons op het finetunen van de geometrie en het optimaliseren van de textuur, waardoor een verfijnder 3D-object wordt bereikt. Door in twee fasen respectievelijk gebruik te maken van 2D- en 3D-voorkennis, verminderen we effectief de onderlinge afhankelijkheid tussen geometrie en textuur. MetaDreammer stelt duidelijke optimalisatiedoelen voor elke fase, wat resulteert in aanzienlijke tijdsbesparingen in het 3D-generatieproces. Uiteindelijk kan MetaDreammer hoogwaardige 3D-objecten genereren op basis van tekstuele prompts binnen 20 minuten, en voor zover wij weten, is het de meest efficiënte tekst-naar-3D-generatiemethode. Bovendien introduceren we beeldcontrole in het proces, wat de beheersbaarheid van 3D-generatie vergroot. Uitgebreid empirisch bewijs bevestigt dat onze methode niet alleen zeer efficiënt is, maar ook een kwaliteitsniveau bereikt dat aan de top staat van de huidige state-of-the-art 3D-generatietechnieken.
In dit werk tonen we aan dat tekst-naar-beeld generatieve modellen 'geïnverteerd' kunnen worden om hun eigen tekst-beeld begripsvaardigheden op een volledig geautomatiseerde manier te beoordelen. Onze methode, genaamd SelfEval, gebruikt het generatieve model om de waarschijnlijkheid van echte afbeeldingen gegeven tekstprompts te berekenen, waardoor het generatieve model direct toepasbaar wordt op discriminerende taken. Met SelfEval hergebruiken we standaarddatasets die zijn gemaakt voor het evalueren van multimodale tekst-beeld discriminerende modellen om generatieve modellen op een fijnmazige manier te evalueren: we beoordelen hun prestaties op attribuutbinding, kleurherkenning, tellen, vormherkenning en ruimtelijk begrip. Voor zover wij weten is SelfEval de eerste geautomatiseerde metriek die een hoge mate van overeenstemming vertoont voor het meten van tekstgetrouwheid in vergelijking met de gouden standaard van menselijke evaluaties, over meerdere modellen en benchmarks heen. Bovendien stelt SelfEval ons in staat om generatieve modellen te evalueren op uitdagende taken zoals Winoground image-score, waar ze competitieve prestaties laten zien ten opzichte van discriminerende modellen. We laten ook ernstige tekortkomingen zien van standaard geautomatiseerde metrieken zoals CLIP-score om tekstgetrouwheid te meten op benchmarks zoals DrawBench, en hoe SelfEval deze problemen omzeilt. We hopen dat SelfEval een eenvoudige en betrouwbare geautomatiseerde evaluatie mogelijk maakt voor diffusiemodellen.
Hoewel vision transformers (ViTs) schaalbare prestaties bieden, ondermijnen de hoge rekenkosten (training en inferentie) hun positie in industriële toepassingen. Post-training quantisatie (PTQ), waarbij ViTs worden afgestemd met een kleine dataset en uitgevoerd in een laag-bitformaat, lost het kostenprobleem goed op, maar helaas leidt dit tot grotere prestatieverliezen in lagere-bitgevallen. In dit artikel introduceren we I&S-ViT, een nieuwe methode die de PTQ van ViTs op een inclusieve en stabiele manier reguleert. I&S-ViT identificeert eerst twee problemen in de PTQ van ViTs: (1) Quantisatie-inefficiëntie in de veelgebruikte log2-quantisator voor post-Softmax-activaties; (2) Een ruw en versterkt verlieslandschap in grofkorrelige quantisatiegranulariteit voor post-LayerNorm-activaties. Vervolgens lost I&S-ViT deze problemen op door het introduceren van: (1) Een nieuwe shift-uniform-log2-quantisator (SULQ) die een shiftmechanisme combineert met uniforme quantisatie om zowel een inclusieve domeinrepresentatie als een nauwkeurige distributiebenadering te bereiken; (2) Een drietraps gladde optimalisatiestrategie (SOS) die de sterke punten van kanaalsgewijze en laagsgewijze quantisatie combineert om stabiel leren mogelijk te maken. Uitgebreide evaluaties over diverse visietaken valideren de superioriteit van I&S-ViT ten opzichte van bestaande PTQ-methoden voor ViTs, met name in lage-bit-scenario's. Zo verbetert I&S-ViT de prestaties van een 3-bit ViT-B met indrukwekkende 50,68%.
Grote taalmodellen (LLMs) hebben aanzienlijke verbeteringen laten zien in redeneer- en besluitvaardigheden en kunnen natuurlijke gesprekken voeren met gebruikers. Veel recente onderzoeken richten zich op het uitbreiden van LLM-gebaseerde assistenten met externe tools, zodat ze toegang kunnen krijgen tot privé- of actuele informatie en acties kunnen uitvoeren namens gebruikers. Om de prestaties van deze assistenten beter te kunnen meten, introduceert dit artikel ToolTalk, een benchmark die bestaat uit complexe gebruikersintenties die multi-step toolgebruik vereisen, gespecificeerd via dialoog. ToolTalk bevat 28 tools gegroepeerd in 7 plugins, en omvat een volledige gesimuleerde implementatie van elke tool, wat volledig geautomatiseerde evaluatie mogelijk maakt van assistenten die vertrouwen op uitvoeringsfeedback. ToolTalk benadrukt ook tools die extern invloed uitoefenen op de wereld, in plaats van alleen tools voor het raadplegen of zoeken van informatie. We evalueren GPT-3.5 en GPT-4 op ToolTalk, wat resulteert in succespercentages van respectievelijk 26% en 50%. Onze analyse van de fouten onthult drie belangrijke categorieën en suggereert enkele toekomstige richtingen voor verbetering. We maken ToolTalk beschikbaar op https://github.com/microsoft/ToolTalk.
Het huidige robotbeleid vertoont ondermaats presteren wanneer het wordt geconfronteerd met de uitdaging om te generaliseren naar nieuwe omgevingen. Menselijke corrigerende feedback is een cruciale vorm van begeleiding om dergelijke generalisatie mogelijk te maken. Het aanpassen aan en leren van online menselijke correcties is echter geen eenvoudige opgave: robots moeten niet alleen menselijke feedback over tijd onthouden om de juiste informatie in nieuwe situaties op te halen en het interventiepercentage te verlagen, maar ze moeten ook in staat zijn om te reageren op feedback die willekeurige correcties kan zijn, variërend van hoogwaardige menselijke voorkeuren tot laagwaardige aanpassingen aan vaardigheidsparameters. In dit werk presenteren we Distillation and Retrieval of Online Corrections (DROC), een systeem gebaseerd op grote taalmodellen (LLM) dat kan reageren op willekeurige vormen van taalgerichte feedback, generaliseerbare kennis kan destilleren uit correcties, en relevante eerdere ervaringen kan ophalen op basis van tekstuele en visuele gelijkenis om de prestaties in nieuwe situaties te verbeteren. DROC is in staat om te reageren op een reeks online taalcorrecties die fouten aanpakken in zowel hoogwaardige taakplannen als laagwaardige vaardigheidsprimitieven. We demonstreren dat DROC effectief de relevante informatie destilleert uit de reeks online correcties in een kennisbank en die kennis ophaalt in situaties met nieuwe taak- of objectinstanties. DROC overtreft andere technieken die direct robotcode genereren via LLM's door slechts de helft van het totale aantal benodigde correcties in de eerste ronde te gebruiken en vereist weinig tot geen correcties na twee iteraties. We tonen verdere resultaten, video's, prompts en code op https://sites.google.com/stanford.edu/droc.