Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Gepersonaliseerde tekst-naar-beeldgeneratie is naar voren gekomen als een krachtig en gewild hulpmiddel, waarmee gebruikers aangepaste afbeeldingen kunnen creëren op basis van hun specifieke concepten en prompts. Bestaande benaderingen voor personalisatie kampen echter met meerdere uitdagingen, waaronder lange afstemmingstijden, grote opslagvereisten, de noodzaak voor meerdere invoerafbeeldingen per identiteit, en beperkingen in het behoud van identiteit en bewerkbaarheid. Om deze obstakels aan te pakken, presenteren wij PhotoVerse, een innovatieve methodologie die een dual-branch conditioneringmechanisme incorporeert in zowel tekst- als beeld domeinen, waardoor effectieve controle over het beeldgeneratieproces wordt geboden. Daarnaast introduceren wij gezichtsidentiteitsverlies als een nieuw component om het behoud van identiteit tijdens de training te verbeteren. Opmerkelijk is dat ons voorgestelde PhotoVerse de noodzaak voor afstemming tijdens de testfase elimineert en uitsluitend vertrouwt op een enkele gezichtsfoto van de doelidentiteit, waardoor de resourcekosten die gepaard gaan met beeldgeneratie aanzienlijk worden verminderd. Na een enkele trainingsfase maakt onze benadering het mogelijk om binnen slechts enkele seconden hoogwaardige afbeeldingen te genereren. Bovendien kan onze methode diverse afbeeldingen produceren die verschillende scènes en stijlen omvatten. De uitgebreide evaluatie toont de superieure prestaties van onze benadering aan, die de dubbele doelstellingen van het behoud van identiteit en het faciliteren van bewerkbaarheid bereikt. Projectpagina: https://photoverse2d.github.io/
Diffusiemodellen hebben een revolutie teweeggebracht in tekst-naar-beeldgeneratie met hun uitzonderlijke kwaliteit en creativiteit. Echter staat hun meerstaps bemonsteringsproces bekend als traag, waarbij vaak tientallen inferentiestappen nodig zijn om bevredigende resultaten te behalen. Eerdere pogingen om de bemonsteringssnelheid te verbeteren en de rekenkosten te verlagen via distillatie waren niet succesvol in het bereiken van een functioneel eenstapsmodel. In dit artikel onderzoeken we een recente methode genaamd Rectified Flow, die tot nu toe alleen op kleine datasets is toegepast. De kern van Rectified Flow ligt in zijn reflow-procedure, die de trajecten van waarschijnlijkheidsstromen recht maakt, de koppeling tussen ruis en beelden verfijnt, en het distillatieproces met studentmodellen vergemakkelijkt. We stellen een nieuwe tekst-geconditioneerde pipeline voor om Stable Diffusion (SD) om te zetten in een ultrazwnel eenstapsmodel, waarbij we ontdekken dat reflow een cruciale rol speelt in het verbeteren van de toewijzing tussen ruis en beelden. Door gebruik te maken van onze nieuwe pipeline creëren we, voor zover wij weten, de eerste eenstaps diffusie-gebaseerde tekst-naar-beeldgenerator met SD-niveau beeldkwaliteit, die een FID (Frechet Inception Distance) van 23.3 behaalt op MS COCO 2017-5k, wat de vorige state-of-the-art techniek, progressieve distillatie, aanzienlijk overtreft (37.2 → 23.3 in FID). Door gebruik te maken van een uitgebreid netwerk met 1.7B parameters, verbeteren we de FID verder naar 22.4. We noemen onze eenstapsmodellen InstaFlow. Op MS COCO 2014-30k levert InstaFlow een FID van 13.1 in slechts 0.09 seconde, de beste in het ≤ 0.1 seconde regime, wat de recente StyleGAN-T overtreft (13.9 in 0.1 seconde). Opmerkelijk is dat de training van InstaFlow slechts 199 A100 GPU-dagen kost. Projectpagina: https://github.com/gnobitab/InstaFlow.
Het efficiënt verwerken van grote taalmodellen (LLMs) met een hoge doorvoersnelheid vereist het batchgewijs verwerken van voldoende veel verzoeken tegelijkertijd. Bestaande systemen hebben echter moeite omdat het geheugen voor de sleutel-waardecache (KV-cache) voor elk verzoek enorm is en dynamisch groeit en krimpt. Wanneer dit geheugen inefficiënt wordt beheerd, kan het aanzienlijk worden verspild door fragmentatie en redundante duplicatie, wat de batchgrootte beperkt. Om dit probleem aan te pakken, stellen we PagedAttention voor, een aandachtalgoritme geïnspireerd door de klassieke virtuele geheugen- en pagineringstechnieken in besturingssystemen. Hierop bouwen we vLLM, een LLM-verwerkingssysteem dat (1) bijna geen verspilling in het KV-cachegeheugen realiseert en (2) flexibele deling van de KV-cache binnen en tussen verzoeken mogelijk maakt om het geheugengebruik verder te verminderen. Onze evaluaties tonen aan dat vLLM de doorvoersnelheid van populaire LLMs met 2-4 keer verbetert bij hetzelfde latentieniveau in vergelijking met state-of-the-art systemen, zoals FasterTransformer en Orca. De verbetering is meer uitgesproken bij langere sequenties, grotere modellen en complexere decodeeralgoritmen. De broncode van vLLM is openbaar beschikbaar op https://github.com/vllm-project/vllm.
Grote taalmodellen blinken uit in veel menselijke-taaltaken, maar falen vaak in sterk gespecialiseerde domeinen zoals wetenschappelijke astronomie. Om deze kloof te overbruggen, introduceren we AstroLLaMA, een model met 7 miljard parameters dat is afgestemd op LLaMA-2 met behulp van meer dan 300.000 astronomie-samenvattingen van arXiv. Geoptimaliseerd voor traditioneel causaal taalmodelleren, behaalt AstroLLaMA een 30% lagere perplexiteit dan LLaMA-2, wat duidt op een opmerkelijke domeinaanpassing. Ons model genereert meer inzichtelijke en wetenschappelijk relevante tekstcompleties en embedding-extracties dan state-of-the-art foundation-modellen, ondanks een aanzienlijk lager aantal parameters. AstroLLaMA dient als een robuust, domeinspecifiek model met brede afstemmingsmogelijkheden. De openbare release ervan heeft als doel astronomiegericht onderzoek te stimuleren, waaronder automatische papersamenvatting en de ontwikkeling van conversatieagentschappen.
Behendige manipulatie is al lang een uitdaging in de robotica. Hoewel machine learning-technieken enige belofte hebben getoond, zijn de resultaten tot nu toe grotendeels beperkt gebleven tot simulaties. Dit kan voornamelijk worden toegeschreven aan het ontbreken van geschikte hardware. In dit artikel presenteren we LEAP Hand, een goedkope, behendige en antropomorfe hand voor machine learning-onderzoek. In tegenstelling tot eerdere handen heeft LEAP Hand een nieuwe kinematische structuur die maximale behendigheid mogelijk maakt, ongeacht de vingerpositie. LEAP Hand is goedkoop en kan in 4 uur worden geassembleerd tegen een kosten van 2000 USD met gemakkelijk verkrijgbare onderdelen. Het is in staat om consistent grote koppels over langere tijd uit te oefenen. We laten zien dat LEAP Hand kan worden gebruikt om verschillende manipulatietaken in de echte wereld uit te voeren – van visuele teleoperatie tot leren van passieve videogegevens en sim2real. LEAP Hand presteert aanzienlijk beter dan zijn naaste concurrent Allegro Hand in al onze experimenten, terwijl het slechts 1/8e van de kosten bedraagt. We publiceren gedetailleerde assemblage-instructies, de Sim2Real-pijplijn en een ontwikkelingsplatform met nuttige API's op onze website: https://leap-hand.github.io/.
Er zijn enorme inspanningen geleverd om animeerbare en fotorealistische menselijke avatars te leren. Hiertoe worden zowel expliciete als impliciete 3D-representaties uitgebreid bestudeerd voor een holistische modellering en vastlegging van de gehele mens (bijv. lichaam, kleding, gezicht en haar), maar geen van beide representaties is een optimale keuze wat betreft representatie-efficiëntie, aangezien verschillende delen van de menselijke avatar verschillende modelleringswensen hebben. Zo zijn meshes over het algemeen niet geschikt voor het modelleren van kleding en haar. Gemotiveerd door dit, presenteren we Disentangled Avatars~(DELTA), dat mensen modelleert met hybride expliciet-impliciete 3D-representaties. DELTA neemt een monochromatische RGB-video als invoer en produceert een menselijke avatar met gescheiden lagen voor lichaam en kleding/haar. Specifiek demonstreren we twee belangrijke toepassingen voor DELTA. Voor de eerste beschouwen we de ontvlechting van het menselijk lichaam en kleding, en voor de tweede ontvlechten we het gezicht en het haar. Hiertoe representeert DELTA het lichaam of gezicht met een expliciet mesh-gebaseerd parametrisch 3D-model en de kleding of het haar met een impliciet neurale stralingsveld. Om dit mogelijk te maken, ontwerpen we een end-to-end differentieerbare renderer die meshes integreert in volumetrische rendering, waardoor DELTA rechtstreeks kan leren van monochromatische video's zonder enige 3D-supervisie. Tot slot laten we zien hoe deze twee toepassingen eenvoudig gecombineerd kunnen worden om volledige lichaamsavatars te modelleren, zodat het haar, gezicht, lichaam en kleding volledig ontvlecht kunnen worden, maar toch gezamenlijk gerenderd. Zo'n ontvlechting maakt het mogelijk om haar en kleding over te dragen naar willekeurige lichaamsvormen. We valideren empirisch de effectiviteit van DELTA's ontvlechting door de veelbelovende prestaties te demonstreren op het gebied van ontvlechte reconstructie, virtuele kledingpassing en haarstijloverdracht. Om toekomstig onderzoek te faciliteren, geven we ook een open-source pipeline vrij voor de studie van hybride menselijke avatar-modellering.