Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Generatieve grote taalmodellen (LLMs) hebben tal van nieuwe mogelijkheden geopend, maar vanwege hun aanzienlijke rekenkundige eisen blijft hun alomtegenwoordige gebruik een uitdaging. Sommige van de meest nuttige toepassingen vereisen het verwerken van grote aantallen samples tegelijkertijd en het gebruik van lange contexten, wat beide de geheugencommunicatielast van de modellen aanzienlijk verhoogt. Wij introduceren SparQ Attention, een techniek om de inferentie-doorvoer van LLMs te verhogen door de geheugenbandbreedtevereisten binnen de aandachtblokken te verminderen via selectief ophalen van de gecachete geschiedenis. Onze voorgestelde techniek kan direct worden toegepast op kant-en-klare LLMs tijdens inferentie, zonder dat aanpassingen aan de pre-trainingsopzet of aanvullende fine-tuning nodig zijn. We laten zien hoe SparQ Attention de geheugenbandbreedtevereisten voor aandacht tot acht keer kan verminderen zonder verlies van nauwkeurigheid, door Llama 2- en Pythia-modellen te evalueren op een breed scala aan downstream-taken.
In dit artikel presenteren we DreaMoving, een op diffusie gebaseerd framework voor het genereren van bestuurbare video's om hoogwaardige gepersonaliseerde dansvideo's van mensen te produceren. Specifiek kan DreaMoving, gegeven doelidentiteit en houdingssequenties, een video genereren van de doelidentiteit die overal danst, aangestuurd door de houdingssequenties. Hiertoe stellen we een Video ControlNet voor voor bewegingenbesturing en een Content Guider voor identiteitsbehoud. Het voorgestelde model is gebruiksvriendelijk en kan worden aangepast aan de meeste gestileerde diffusiemodellen om diverse resultaten te genereren. De projectpagina is beschikbaar op https://dreamoving.github.io/dreamoving.
Het meeste onderzoek naar 3D-generatie richt zich op het omhoog projecteren van 2D-basismodellen naar de 3D-ruimte, hetzij door het minimaliseren van 2D Score Distillation Sampling (SDS)-verlies, hetzij door fine-tuning op multi-view datasets. Zonder expliciete 3D-priors leiden deze methoden vaak tot geometrische anomalieën en inconsistentie tussen meerdere views. Recentelijk hebben onderzoekers geprobeerd de echtheid van 3D-objecten te verbeteren door direct te trainen op 3D-datasets, zij het ten koste van lage kwaliteit in textuurgeneratie vanwege de beperkte textuurvariatie in 3D-datasets. Om de voordelen van beide benaderingen te benutten, stellen we Bidirectional Diffusion (BiDiff) voor, een uniform raamwerk dat zowel een 3D- als een 2D-diffusieproces omvat, om respectievelijk 3D-getrouwheid en 2D-textuurrijkdom te behouden. Bovendien, aangezien een eenvoudige combinatie inconsistente generatieresultaten kan opleveren, verbinden we deze verder met nieuwe bidirectionele begeleiding. Daarnaast kan onze methode worden gebruikt als initialisatie van op optimalisatie gebaseerde modellen om de kwaliteit van het 3D-model en de efficiëntie van de optimalisatie verder te verbeteren, waardoor het generatieproces wordt teruggebracht van 3,4 uur naar 20 minuten. Experimentele resultaten hebben aangetoond dat ons model hoogwaardige, diverse en schaalbare 3D-generatie bereikt. Projectwebsite: https://bidiff.github.io/.
We introduceren een aanpak om tekst-naar-video-generatiemodellen uit te breiden met aangepaste bewegingen, waardoor hun mogelijkheden verder gaan dan de bewegingen die in de originele trainingsdata zijn weergegeven. Door gebruik te maken van enkele video's die specifieke bewegingen demonstreren als invoer, leert onze methode de ingevoerde bewegingspatronen en generaliseert deze voor diverse, tekstgespecificeerde scenario's. Onze bijdragen zijn drievoudig. Ten eerste finetunen we een bestaand tekst-naar-video-model om een nieuwe mapping te leren tussen de weergegeven beweging in de invoervoorbeelden en een nieuw uniek token. Om overfitting aan de nieuwe aangepaste beweging te voorkomen, introduceren we een aanpak voor regularisatie over video's. Ten tweede kan onze methode, door gebruik te maken van de bewegingsprioriteiten in een voorgetraind model, nieuwe video's produceren waarin meerdere personen de aangepaste beweging uitvoeren, en kan de beweging in combinatie met andere bewegingen worden opgeroepen. Bovendien breidt onze aanpak zich uit tot de multimodale aanpassing van beweging en uiterlijk van individuele onderwerpen, waardoor het genereren van video's met unieke personages en onderscheidende bewegingen mogelijk wordt. Ten derde introduceren we, om onze methode te valideren, een aanpak voor het kwantitatief evalueren van de geleerde aangepaste beweging en voeren we een systematische ablatiestudie uit. We tonen aan dat onze methode aanzienlijk beter presteert dan eerdere op uiterlijk gebaseerde aanpassingsbenaderingen wanneer deze worden uitgebreid naar de taak van bewegingaanpassing.
Met de recente vooruitgang in grote taalmodellen is aangetoond dat methoden zoals chain-of-thought prompting, die redeneerketens opwekken, de resultaten op redeneertaken verbeteren. Taken die echter meerdere stappen van redenering vereisen, blijven een aanzienlijke uitdaging vormen voor state-of-the-art modellen. Geïnspireerd door het beam search-algoritme stellen we PathFinder voor, een op boomzoeken gebaseerde benadering voor het genereren van redeneerpaden. Het verbetert diverse vertakkingen en multi-hop redenering door de integratie van dynamische decodering, mogelijk gemaakt door variërende steekproefmethoden en parameters. Door gebruik te maken van beperkte redenering, integreert PathFinder nieuwe kwaliteitsbeperkingen, snoeien en exploratiemethoden om de efficiëntie en kwaliteit van de generatie te verbeteren. Bovendien omvat het scorings- en rangschikkingsfuncties om de selectie van kandidaten te verbeteren. Onze benadering overtreft concurrerende basislijnen op drie complexe rekenkundige en gezond-verstand-redeneertaken met gemiddeld 6%. Ons model generaliseert goed naar langere, onbekende redeneerketens, wat vergelijkbare complexiteiten weerspiegelt als beam search met grote vertakkingsfactoren.
Denoising-diffusiemodellen hebben uitstekende resultaten laten zien bij het genereren van 2D-beelden, maar het blijft een uitdaging om dit succes te repliceren bij het genereren van 3D-vormen. In dit artikel stellen we voor om gebruik te maken van multi-view diepte, wat complexe 3D-vormen weergeeft in een 2D-gegevensformaat dat gemakkelijk te denoizen is. We combineren deze representatie met een diffusiemodel, MVDD, dat in staat is hoogwaardige dichte puntenwolken te genereren met 20K+ punten en fijnmazige details. Om 3D-consistentie in multi-view diepte te waarborgen, introduceren we een epipolaire lijnsegment-attentie die de denoising-stap voor een view conditioneert op basis van de aangrenzende views. Daarnaast is een dieptefusiemodule geïntegreerd in de diffusiestappen om de uitlijning van dieptekaarten verder te waarborgen. Wanneer aangevuld met oppervlakreconstructie, kan MVDD ook hoogwaardige 3D-meshes produceren. Bovendien onderscheidt MVDD zich in andere taken, zoals dieptecompletering, en kan het dienen als een 3D-prior, wat veel downstream taken, zoals GAN-inversie, aanzienlijk verbetert. State-of-the-art resultaten uit uitgebreide experimenten tonen de uitstekende vaardigheid van MVDD in 3D-vormgeneratie, dieptecompletering en zijn potentieel als een 3D-prior voor downstream taken.
We presenteren EE-LLM, een raamwerk voor grootschalige training en inferentie van early-exit large language models (LLMs). Hoewel recente werken voorlopig bewijs hebben getoond voor de effectiviteit van early exiting bij het versnellen van LLM-inferentie, zet EE-LLM een fundamentele stap richthet opschalen van early-exit LLMs door hun training en inferentie te ondersteunen met massieve 3D-parallelisme. Gebouwd op Megatron-LM, implementeert EE-LLM een verscheidenheid aan algoritmische innovaties en prestatieoptimalisaties die zijn toegespitst op early exiting, waaronder een lichtgewicht methode die backpropagatie vergemakkelijkt voor het early-exit trainingsdoel met pipeline-parallelisme, technieken om inactieve resources in het oorspronkelijke pipelineschema te benutten voor berekeningen gerelateerd aan early-exit lagen, en twee benaderingen van early-exit inferentie die compatibel zijn met KV-caching voor autoregressieve generatie. Onze analytische en empirische studie toont aan dat EE-LLM een uitstekende trainingsefficiëntie bereikt met verwaarloosbare rekenkundige overhead in vergelijking met standaard LLM-training, evenals een opmerkelijke versnelling van de inferentie zonder in te leveren op de uitvoerkwaliteit. Om verder onderzoek en adoptie te vergemakkelijken, hebben we EE-LLM vrijgegeven op https://github.com/pan-x-c/EE-LLM.
Instructievolgende visueel-taalkundige (VL) modellen bieden een flexibele interface die een breed scala aan multimodale taken ondersteunt op een zero-shot manier. Interfaces die werken op volledige afbeeldingen maken het gebruikers echter niet direct mogelijk om specifieke regio's binnen afbeeldingen "aan te wijzen" en te benaderen. Deze mogelijkheid is niet alleen belangrijk om referentiegebaseerde VL-benchmarks te ondersteunen, maar ook voor praktische toepassingen die precies redeneren binnen afbeeldingen vereisen. We ontwikkelen Gelokaliseerde Visuele Common Sense-modellen, die gebruikers in staat stellen (meerdere) regio's als invoer te specificeren. We trainen ons model door gelokaliseerde common sense-kennis te bemonsteren uit een groot taalmodel (LLM): specifiek vragen we een LLM om common sense-kennis te verzamelen op basis van een globale letterlijke afbeeldingsbeschrijving en een lokale letterlijke regio-beschrijving die automatisch wordt gegenereerd door een set VL-modellen. Met een apart getraind criticusmodel dat hoogwaardige voorbeelden selecteert, ontdekken we dat training op het gelokaliseerde common sense-corpus bestaande VL-modellen succesvol kan destilleren om een referentie-als-invoer-interface te ondersteunen. Empirische resultaten en menselijke evaluaties in een zero-shot opzet tonen aan dat onze destillatiemethode resulteert in nauwkeurigere VL-modellen voor redeneren in vergelijking met een baseline waarbij een gegenereerde verwijzende expressie wordt doorgegeven aan een LLM.