Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Dit werk presenteert Depth Anything, een zeer praktische oplossing voor robuuste monocular depth estimation. Zonder te streven naar nieuwe technische modules, streven we ernaar een eenvoudig maar krachtig foundation model te bouwen dat omgaat met alle afbeeldingen onder alle omstandigheden. Hiertoe schalen we de dataset op door een data-engine te ontwerpen om grootschalige ongelabelde data (~62M) te verzamelen en automatisch te annoteren, wat de datadekking aanzienlijk vergroot en daardoor de generalisatiefout kan verminderen. We onderzoeken twee eenvoudige maar effectieve strategieën die het opschalen van data veelbelovend maken. Ten eerste wordt een uitdagender optimalisatiedoel gecreëerd door gebruik te maken van data-augmentatietools. Dit dwingt het model om actief extra visuele kennis te zoeken en robuuste representaties te verwerven. Ten tweede wordt een aanvullende supervisie ontwikkeld om het model te dwingen rijke semantische priors over te nemen van vooraf getrainde encoders. We evalueren de zero-shot-mogelijkheden uitgebreid, waaronder zes openbare datasets en willekeurig vastgelegde foto's. Het toont indrukwekkende generalisatievermogen. Verder worden door fine-tuning met metrische diepte-informatie van NYUv2 en KITTI nieuwe SOTA's bereikt. Ons betere dieptemodel resulteert ook in een beter diepte-geconditioneerd ControlNet. Onze modellen zijn vrijgegeven op https://github.com/LiheYoung/Depth-Anything.
Pipeline-parallelisme is een van de belangrijkste componenten voor grootschalige gedistribueerde training, maar de efficiëntie ervan wordt belemmerd door pipeline-bubbels die als onvermijdelijk werden beschouwd. In dit werk introduceren we een planningsstrategie die, voor zover wij weten, als eerste succesvol nul pipeline-bubbels weet te bereiken onder synchrone trainingssemantiek. De kern van deze verbetering ligt in het splitsen van de backward-berekening in twee delen: één die de gradiënt voor de invoer berekent en een ander die de gradiënt voor de parameters berekent. Op basis van dit idee hebben we nieuwe pipelineschema's ontworpen die de baseline-methoden aanzienlijk overtreffen. We ontwikkelen verder een algoritme dat automatisch een optimaal schema vindt op basis van een specifieke modelconfiguratie en geheugenlimiet. Daarnaast introduceren we een nieuwe techniek om synchronisaties tijdens de optimizer-stap te omzeilen, om zo echt nul bubbels te bereiken. Experimentele evaluaties tonen aan dat onze methode de 1F1B-planningsstrategie tot 23% overtreft in doorvoer onder een vergelijkbare geheugenlimiet. Dit getal kan verder worden opgedreven tot 31% wanneer de geheugenbeperking wordt versoepeld. Wij geloven dat onze resultaten een belangrijke stap voorwaarts betekenen in het benutten van het ware potentieel van pipeline-parallelisme. We hebben onze implementatie, gebaseerd op de populaire Megatron-LM-repository, open source gemaakt op https://github.com/sail-sg/zero-bubble-pipeline-parallelism.
Het genereren van een videobackground die is afgestemd op de beweging van het voorgrondonderwerp is een belangrijk probleem voor de filmindustrie en de visuele effecten gemeenschap. Deze taak omvat het synthetiseren van een achtergrond die aansluit bij de beweging en het uiterlijk van het voorgrondonderwerp, terwijl het ook voldoet aan de creatieve intentie van de kunstenaar. Wij introduceren ActAnywhere, een generatief model dat dit proces automatiseert, wat traditioneel veel tijdrovend handwerk vereist. Ons model maakt gebruik van de kracht van grootschalige videodiffusiemodellen en is specifiek afgestemd op deze taak. ActAnywhere neemt een reeks segmentaties van het voorgrondonderwerp als invoer en een afbeelding die de gewenste scène beschrijft als conditie, om een coherente video te produceren met realistische interacties tussen voorgrond en achtergrond, terwijl het voldoet aan het conditiekader. We trainen ons model op een grootschalige dataset van video's met mens-scène interacties. Uitgebreide evaluaties tonen de superieure prestaties van ons model aan, dat significant beter presteert dan de basislijnen. Bovendien laten we zien dat ActAnywhere generaliseert naar diverse out-of-distribution voorbeelden, inclusief niet-menselijke onderwerpen. Bezoek onze projectwebpagina op https://actanywhere.github.io.
In dit artikel presenteren we een op diffusiemodellen gebaseerd framework voor het animeren van mensen vanuit een enkele afbeelding voor een gegeven doel-3D-bewegingssequentie. Onze aanpak heeft twee kerncomponenten: a) het leren van aannames over onzichtbare delen van het menselijk lichaam en kleding, en b) het renderen van nieuwe lichaamshoudingen met passende kleding en textuur. Voor het eerste deel leren we een in-vul-diffusiemodel om onzichtbare delen van een persoon te hallucineren op basis van een enkele afbeelding. We trainen dit model in de textuurmapruimte, wat het sample-efficiënter maakt omdat het invariant is voor houding en gezichtspunt. Ten tweede ontwikkelen we een op diffusie gebaseerd renderingspipeline, dat wordt bestuurd door 3D-menselijke houdingen. Dit produceert realistische weergaven van nieuwe houdingen van de persoon, inclusief kleding, haar en plausibel ingevulde onzichtbare regio's. Deze ontvlochten aanpak stelt onze methode in staat om een reeks afbeeldingen te genereren die trouw zijn aan de doelbeweging in de 3D-houding en aan de invoerafbeelding in termen van visuele gelijkenis. Daarnaast maakt de 3D-besturing het mogelijk om verschillende synthetische cameratrajecten te gebruiken om een persoon te renderen. Onze experimenten tonen aan dat onze methode veerkrachtig is in het genereren van langdurige bewegingen en uiteenlopende uitdagende en complexe houdingen in vergelijking met eerdere methoden. Bezoek onze website voor meer details: https://boyiliee.github.io/3DHM.github.io/.
Dit artikel bestudeert het probleem van conceptgebaseerde interpreteerbaarheid van transformer-representaties voor video's. Concreet streven we ernaar om het besluitvormingsproces van videotransformers te verklaren op basis van hoogwaardige, spatiotemporele concepten die automatisch worden ontdekt. Eerder onderzoek naar conceptgebaseerde interpreteerbaarheid heeft zich uitsluitend gericht op taken op beeldniveau. In vergelijking daarmee hebben videomodelen te maken met een extra temporele dimensie, wat de complexiteit verhoogt en uitdagingen met zich meebrengt bij het identificeren van dynamische concepten over tijd. In dit werk gaan we systematisch in op deze uitdagingen door het eerste Video Transformer Concept Discovery (VTCD)-algoritme te introduceren. Hiertoe stellen we een efficiënte aanpak voor voor de onbewaakte identificatie van eenheden van videotransformer-representaties - concepten - en het rangschikken van hun belang voor de uitvoer van een model. De resulterende concepten zijn zeer interpreteerbaar en onthullen spatiotemporele redeneermechanismen en objectgerichte representaties in ongestructureerde videomodelen. Door deze analyse gezamenlijk uit te voeren over een diverse set van bewaakte en zelfbewaakte representaties, ontdekken we dat sommige van deze mechanismen universeel zijn in videotransformers. Tot slot demonstreren we dat VTCD kan worden gebruikt om de modelprestaties voor fijnmazige taken te verbeteren.
Dictaten maakt efficiënte tekstinvoer op mobiele apparaten mogelijk. Het schrijven met spraak kan echter onsamenhangende, wijdlopige en incoherente tekst opleveren en vereist daarom zware nabewerking. Dit artikel presenteert Rambler, een grafische gebruikersinterface aangedreven door een groot taalmodel (LLM), die manipulatie van gedicteerde tekst op hoofdlijn ondersteunt met twee hoofdgroepen van functies: hoofdlijn extractie en macrorevisie. Hoofdlijn extractie genereert trefwoorden en samenvattingen als ankers om de beoordeling en interactie met gesproken tekst te ondersteunen. LLM-ondersteunde macrorevisies stellen gebruikers in staat om gedicteerde tekst opnieuw in te spreken, te splitsen, samen te voegen en te transformeren zonder precieze bewerkingslocaties te specificeren. Samen banen ze de weg voor interactief dicteren en reviseren, wat helpt om de kloof tussen spontaan gesproken woorden en goed gestructureerd schrijven te dichten. In een vergelijkende studie met 12 deelnemers die verbale compositietaken uitvoerden, presteerde Rambler beter dan de baseline van een spraak-naar-tekst editor + ChatGPT, omdat het iteratieve revisies beter faciliteert met verbeterde gebruikerscontrole over de inhoud, terwijl het verrassend diverse gebruikersstrategieën ondersteunt.