Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Naarmate het Large Language Model (LLM) steeds belangrijker wordt in verschillende domeinen, blijven de volgende uitdagingen onopgelost bij het versnellen van LLM-inferentie: (1) Gesynchroniseerde gedeeltelijke softmax-update. De softmax-operatie vereist een gesynchroniseerde update-operatie tussen elk gedeeltelijk softmax-resultaat, wat leidt tot ~20% overhead voor de aandachtberekening in LLM's. (2) Onderbenutte berekening van platte GEMM. De vorm van matrices die GEMM uitvoeren in LLM-inferentie is plat, wat leidt tot onderbenutte berekening en >50% prestatieverlies na het opvullen met nullen in eerdere ontwerpen. (3) Prestatieverlies door statische dataflow. De kernelprestatie in LLM hangt af van verschillende invoergegevenskenmerken, hardwareconfiguraties, enz. Een enkele en statische dataflow kan leiden tot een prestatieverlies van 50,25% voor GEMM's van verschillende vormen in LLM-inferentie. We presenteren FlashDecoding++, een snelle LLM-inferentie-engine die mainstream LLM's en hardware-backends ondersteunt. Om de bovenstaande uitdagingen aan te pakken, stelt FlashDecoding++ creatief voor: (1) Asynchrone softmax met geünificeerde maximale waarde. FlashDecoding++ introduceert een geünificeerde maximale waardetechniek voor verschillende gedeeltelijke softmax-berekeningen om synchronisatie te vermijden. (2) Optimalisatie van platte GEMM met dubbele buffering. FlashDecoding++ wijst erop dat platte GEMM's met verschillende vormen verschillende knelpunten hebben. Vervolgens worden technieken zoals dubbele buffering geïntroduceerd. (3) Heuristische dataflow met hardwarebronnenadaptatie. FlashDecoding++ optimaliseert heuristisch de dataflow met behulp van verschillende hardwarebronnen, rekening houdend met de dynamiek van de invoer. Door de veelzijdigheid van de optimalisaties in FlashDecoding++ kan FlashDecoding++ een versnelling tot 4,86x en 2,18x bereiken op zowel NVIDIA- als AMD-GPU's in vergelijking met Hugging Face-implementaties. FlashDecoding++ behaalt ook een gemiddelde versnelling van 1,37x in vergelijking met state-of-the-art LLM-inferentie-engines op mainstream LLM's.
We presenteren RoboGen, een generatief robotisch agent die op grote schaal diverse robotvaardigheden automatisch aanleert via generatieve simulatie. RoboGen maakt gebruik van de nieuwste ontwikkelingen in foundation- en generatieve modellen. In plaats van deze modellen direct te gebruiken of aan te passen om beleidsregels of laag-niveau acties te produceren, pleiten we voor een generatief schema dat deze modellen gebruikt om automatisch gediversifieerde taken, scènes en trainingssupervisie te genereren, waardoor het leren van robotvaardigheden wordt opgeschaald met minimale menselijke supervisie. Onze aanpak voorziet een robotisch agent van een zelfgestuurd voorstel-genereren-leren cyclus: de agent stelt eerst interessante taken en vaardigheden voor om te ontwikkelen, en genereert vervolgens bijbehorende simulatieomgevingen door relevante objecten en assets te plaatsen met de juiste ruimtelijke configuraties. Daarna deelt de agent de voorgestelde hoog-niveau taak op in sub-taken, selecteert de optimale leerbenadering (versterkend leren, bewegingsplanning of trajectoptimalisatie), genereert de benodigde trainingssupervisie, en leert vervolgens beleidsregels om de voorgestelde vaardigheid te verwerven. Ons werk probeert de uitgebreide en veelzijdige kennis die is ingebed in grootschalige modellen te extraheren en over te dragen naar het veld van robotica. Onze volledig generatieve pijplijn kan herhaaldelijk worden bevraagd, waardoor een eindeloze stroom van vaardigheidsdemonstraties wordt geproduceerd die geassocieerd zijn met diverse taken en omgevingen.
We stellen een nieuwe benadering voor voor generatief modelleren, gebaseerd op het trainen van een neuraal netwerk om idempotent te zijn. Een idempotente operator is een operator die sequentieel kan worden toegepast zonder dat het resultaat verandert na de eerste toepassing, namelijk f(f(z))=f(z). Het voorgestelde model f wordt getraind om een brondistributie (bijvoorbeeld Gaussische ruis) af te beelden op een doeldistributie (bijvoorbeeld realistische afbeeldingen) met behulp van de volgende doelstellingen: (1) Instanties uit de doeldistributie moeten op zichzelf worden afgebeeld, namelijk f(x)=x. We definiëren het doelvariëteit als de verzameling van alle instanties die f op zichzelf afbeeldt. (2) Instanties die de brondistributie vormen, moeten worden afgebeeld op het gedefinieerde doelvariëteit. Dit wordt bereikt door de idempotentieterm f(f(z))=f(z) te optimaliseren, wat ervoor zorgt dat het bereik van f(z) op het doelvariëteit ligt. Onder ideale aannames convergeert een dergelijk proces bewezen naar de doeldistributie. Deze strategie resulteert in een model dat in één stap een uitvoer kan genereren, een consistent latente ruimte behoudt, en tegelijkertijd sequentiële toepassingen voor verfijning mogelijk maakt. Daarnaast ontdekken we dat door invoer van zowel de doel- als de brondistributie te verwerken, het model beschadigde of gewijzigde gegevens vakkundig terugprojecteert naar het doelvariëteit. Dit werk is een eerste stap naar een ``globale projector'' die het mogelijk maakt om elke invoer te projecteren in een doelgegevensdistributie.
Wij stellen Easy End-to-End Diffusion-based Text to Speech voor, een eenvoudig en efficiënt end-to-end tekst-naar-spraakmodel gebaseerd op diffusie. E3 TTS neemt rechtstreeks platte tekst als invoer en genereert een audiogolfvorm via een iteratief verfijningsproces. In tegenstelling tot veel eerder werk, vertrouwt E3 TTS niet op tussenliggende representaties zoals spectrogramkenmerken of uitlijningsinformatie. In plaats daarvan modelleert E3 TTS de temporele structuur van de golfvorm via het diffusieproces. Zonder afhankelijk te zijn van aanvullende conditioneringsinformatie, kan E3 TTS flexibele latente structuren binnen de gegeven audio ondersteunen. Hierdoor kan E3 TTS eenvoudig worden aangepast voor zero-shot taken, zoals bewerken, zonder aanvullende training. Experimenten tonen aan dat E3 TTS hoogwaardige audio kan genereren, waarbij de prestaties van een state-of-the-art neuraal TTS-systeem worden benaderd. Audiovoorbeelden zijn beschikbaar op https://e3tts.github.io.
Distributieverschuiving vormt een centrale uitdaging bij de implementatie van machine learning-modellen, aangezien deze vaak niet goed zijn uitgerust voor real-world data. Dit is vooral duidelijk in tekst-naar-audio-generatie, waar de gecodeerde representaties gemakkelijk ondermijnd worden door onbekende prompts, wat leidt tot een verslechtering van de gegenereerde audio. De beperkte set tekst-audio-paren blijkt onvoldoende voor conditionele audiogeneratie in de praktijk, omdat gebruikersprompts vaak ondergespecificeerd zijn. In het bijzonder observeren we een consistente kwaliteitsafname in gegenereerde audiofragmenten bij gebruikersprompts, in tegenstelling tot prompts uit de trainingsset. Daarom presenteren we een retrieval-gebaseerd in-context promptbewerkingsframework dat gebruikmaakt van de trainingsbeschrijvingen als demonstratieve voorbeelden om de gebruikersprompts te herzien. We tonen aan dat het framework de audiokwaliteit verbeterde over de verzamelde set gebruikersprompts, die werden bewerkt met verwijzing naar de trainingsbeschrijvingen als voorbeelden.
We presenteren een schaalbare, bottom-up en intrinsiek diverse dataverzamelingsmethode die kan worden gebruikt voor hoogwaardig redeneren met lange en middellange tijdsbestekken en die een 2,2x hogere doorvoer heeft in vergelijking met traditionele, smalle top-down stap-voor-stap verzameling. We verzamelen realistische data door gebruikersverzoeken uit te voeren in drie volledige kantoorgebouwen en door gebruik te maken van meerdere robot- en menselijke belichamingen. Met deze data tonen we aan dat modellen die op alle belichamingen zijn getraind, beter presteren dan modellen die alleen op robotdata zijn getraind, zelfs wanneer ze uitsluitend worden geëvalueerd op robotepisodes. We ontdekken dat het voor een vast verzamelingsbudget voordelig is om gebruik te maken van goedkopere menselijke verzameling naast robotverzameling. We publiceren een grote en zeer diverse dataset (29.520 unieke instructies) genaamd RoboVQA, die 829.502 (video, tekst) paren bevat voor visueel vraag-antwoord gericht op robotica. We demonstreren ook hoe het evalueren van echte roboteffecten met een interventiemechanisme het mogelijk maakt om taken tot voltooiing uit te voeren, waardoor het inzetbaar is met menselijk toezicht, zelfs als het niet perfect is, terwijl het ook een enkele prestatiemetric biedt. We demonstreren een enkel videogestuurd model genaamd RoboVQA-VideoCoCa, getraind op onze dataset, dat in staat is om een verscheidenheid aan gegronde hoogwaardige redeneertaken uit te voeren in brede realistische omgevingen met een cognitieve interventiesnelheid die 46% lager is dan de zero-shot state-of-the-art visuele taalmodel (VLM) baseline en dat in staat is om echte robots door langetermijntaken te begeleiden. De prestatiekloof met zero-shot state-of-the-art modellen geeft aan dat er nog veel gegronde data moet worden verzameld voor inzet in de echte wereld, wat de kritische noodzaak van schaalbare dataverzamelingsbenaderingen benadrukt. Tot slot tonen we aan dat video-VLM's significant beter presteren dan single-image VLM's met een gemiddelde foutreductie van 19% over alle VQA-taken. Data en video's zijn beschikbaar op https://robovqa.github.io.