Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren Lumiere -- een tekst-naar-video diffusiemodel ontworpen voor het synthetiseren van video's die realistische, diverse en coherente bewegingen weergeven -- een cruciale uitdaging in videosynthese. Hiertoe introduceren we een Space-Time U-Net architectuur die de volledige tijdsduur van de video in één keer genereert, via een enkele doorgang in het model. Dit staat in contrast met bestaande videomodellen die verre keyframes synthetiseren, gevolgd door temporele superresolutie -- een aanpak die inherent maakt dat globale temporele consistentie moeilijk te bereiken is. Door zowel ruimtelijke als (belangrijk) temporele down- en upsampling te implementeren en gebruik te maken van een voorgetraind tekst-naar-beeld diffusiemodel, leert ons model direct een volledige framerate, lage-resolutie video te genereren door deze op meerdere ruimte-tijd schalen te verwerken. We demonstreren state-of-the-art tekst-naar-video generatieresultaten, en laten zien dat ons ontwerp een breed scala aan contentcreatietaken en videobewerkingsapplicaties gemakkelijk mogelijk maakt, waaronder beeld-naar-video, video-inpainting en gestileerde generatie.
Het spelen met Large Vision Language Models (LVLMs) in 2023 is trendy binnen de AI-gemeenschap. Het relatief grote aantal parameters (meer dan 7B) van populaire LVLMs maakt het echter moeilijk om ze te trainen en te implementeren op consumenten-GPU's, wat veel onderzoekers met beperkte middelen ontmoedigt. Stel je voor hoe gaaf het zou zijn om alle functies van huidige LVLMs te ervaren op een oude GTX1080ti (onze enige gamekaart). Daarom presenteren we in dit rapport Vary-toy, een compacte versie van Vary samen met Qwen-1.8B als het basis "grote" taalmodel. In Vary-toy introduceren we een verbeterd visueel vocabulaire, waardoor het model niet alleen alle functies van Vary bezit, maar ook meer algemeenheid verkrijgt. Specifiek vervangen we negatieve voorbeelden van natuurlijke afbeeldingen door positieve voorbeeldgegevens die worden aangedreven door objectdetectie in het proces van het genereren van visueel vocabulaire, waardoor de capaciteit van het vocabulairenetwerk beter wordt benut en het in staat wordt gesteld om visuele informatie die overeenkomt met natuurlijke objecten efficiënt te coderen. In experimenten kan Vary-toy 65,6% ANLS behalen op DocVQA, 59,1% nauwkeurigheid op ChartQA, 88,1% nauwkeurigheid op RefCOCO en 29% op MMVet. De code zal openbaar beschikbaar zijn op de homepage.
Foundation models die taal, visie en recentelijk ook acties omvatten, hebben een revolutie teweeggebracht in het vermogen om data op internetschaal te benutten voor het redeneren over nuttige taken. Een van de belangrijkste uitdagingen bij het trainen van embodied foundation models is echter het gebrek aan data die verankerd is in de fysieke wereld. In dit artikel stellen we AutoRT voor, een systeem dat bestaande foundation models benut om de inzet van operationele robots in volledig onbekende scenario's op te schalen met minimale menselijke supervisie. AutoRT maakt gebruik van vision-language models (VLMs) voor scènebegrip en -verankering, en gebruikt verder large language models (LLMs) om diverse en nieuwe instructies voor te stellen die uitgevoerd kunnen worden door een vloot van robots. Door dataverzameling te sturen via de kennis van foundation models, stelt AutoRT zich in staat om effectief te redeneren over autonomie-afwegingen en veiligheid, terwijl het dataverzameling voor robotleren aanzienlijk opschaalt. We demonstreren hoe AutoRT instructies voorstelt aan meer dan 20 robots in meerdere gebouwen en 77k echte robotepisodes verzamelt via zowel teleoperatie als autonome robotbeleidsvoeringen. We tonen experimenteel aan dat dergelijke "in-the-wild" data die door AutoRT wordt verzameld aanzienlijk diverser is, en dat het gebruik van LLMs door AutoRT het mogelijk maakt om dataverzamelingsrobots voor instructievolging te creëren die afgestemd zijn op menselijke voorkeuren.
Grote taalmodellen (LLMs) maken vaak gebruik van autoregressieve generatie tijdens inferentie, wat leidt tot een hoge vraag naar geheugenbandbreedte en daardoor tot verlengde latentie. Om deze inefficiëntie te verminderen, presenteren we Bi-directional Tuning for Lossless Acceleration (BiTA), een innovatieve methode die LLMs versnelt via gestroomlijnde semi-autoregressieve generatie en conceptverificatie. Geïnspireerd door het concept van prompt tuning, verbeteren we LLMs met een parameter-efficiënt ontwerp genaamd bi-directionele tuning voor de mogelijkheid tot semi-autoregressieve generatie. Door gebruik te maken van efficiënte boomgebaseerde decodering, voeren de modellen conceptkandidatengeneratie en verificatie parallel uit, waardoor uitvoer wordt gegarandeerd die identiek is aan hun autoregressieve tegenhangers onder gretige sampling. BiTA fungeert als een lichtgewicht plug-in module, die naadloos de inferentie-efficiëntie van bestaande LLMs verhoogt zonder aanvullende hulpmodellen te vereisen of aanzienlijke extra geheugenkosten te veroorzaken. Door de voorgestelde BiTA toe te passen, behaalt LLaMA-2-70B-Chat een 2,7-voudige versnelling op de MT-Bench benchmark. Uitgebreide experimenten bevestigen dat onze methode state-of-the-art versnellingsmethoden overtreft.
In het tijdperk van grote modellen vormt de autoregressieve aard van decodering vaak een aanzienlijke bottleneck door latentie. Wij stellen een niet-autoregressief LM-geïntegreerd ASR-systeem voor dat effectief gebruikmaakt van de parallelle verwerkingsmogelijkheden van acceleratorhardware. Onze aanpak combineert het Universal Speech Model (USM) en het PaLM 2-taalmodel in de per-segment scoringsmodus, wat resulteert in een gemiddelde relatieve WER-verbetering van 10,8% op FLEURS en 3,6% op YouTube-ondertiteling voor alle talen. Daarnaast analyseert onze uitgebreide ablatiestudie belangrijke parameters zoals de grootte van het LLM, contextlengte, vocabulairegrootte en fusiemethodologie. Zo onderzoeken we bijvoorbeeld de impact van de grootte van het LLM, variërend van 128M tot 340B parameters, op de ASR-prestaties. Deze studie biedt waardevolle inzichten in de factoren die de effectiviteit van praktische grootschalige LM-geïntegreerde spraakherkenningssystemen beïnvloeden.
We presenteren GALA, een framework dat als invoer een enkellaagse geklede 3D-menselijke mesh neemt en deze ontleedt in complete meerlaagse 3D-assets. De uitvoer kan vervolgens worden gecombineerd met andere assets om nieuwe geklede menselijke avatars te creëren met elke gewenste pose. Bestaande reconstructiebenaderingen behandelen geklede mensen vaak als een enkele laag geometrie en negeren de inherente samenstelling van mensen met kapsels, kleding en accessoires, waardoor het nut van de meshes voor downstream-toepassingen wordt beperkt. Het ontleden van een enkellaagse mesh in afzonderlijke lagen is een uitdagende taak omdat het de synthese van plausibele geometrie en textuur vereist voor de ernstig verborgen regio's. Bovendien zijn meshes, zelfs bij succesvolle ontleding, niet genormaliseerd wat betreft poses en lichaamsvormen, wat een coherente samenstelling met nieuwe identiteiten en poses verhindert. Om deze uitdagingen aan te pakken, stellen we voor om de algemene kennis van een voorgetraind 2D-diffusiemodel te benutten als geometrie- en uiterlijk-prior voor mensen en andere assets. We scheiden eerst de invoer-mesh met behulp van de 3D-oppervlaktesegmentatie die is geëxtraheerd uit multi-view 2D-segmentaties. Vervolgens synthetiseren we de ontbrekende geometrie van verschillende lagen in zowel geposeerde als canonieke ruimtes met behulp van een nieuwe pose-geleide Score Distillation Sampling (SDS)-verliesfunctie. Zodra we het inpainten van hoogwaardige 3D-geometrie hebben voltooid, passen we dezelfde SDS-verliesfunctie ook toe op de textuur om het complete uiterlijk te verkrijgen, inclusief de aanvankelijk verborgen regio's. Door een reeks ontledingsstappen verkrijgen we meerdere lagen van 3D-assets in een gedeelde canonieke ruimte die genormaliseerd zijn wat betreft poses en menselijke vormen, waardoor moeiteloze samenstelling met nieuwe identiteiten en heranimatie met nieuwe poses mogelijk wordt. Onze experimenten tonen de effectiviteit van onze aanpak aan voor ontledings-, canonisatie- en samenstellingstaken in vergelijking met bestaande oplossingen.