Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Generatieve prioriteiten van grootschalige tekst-naar-beeld diffusiemodellen maken een breed scala aan nieuwe generatie- en bewerkingsapplicaties mogelijk voor diverse visuele modaliteiten. Wanneer deze prioriteiten echter worden toegepast op complexe visuele modaliteiten, vaak weergegeven als meerdere afbeeldingen (bijvoorbeeld video), is het bereiken van consistentie over een reeks afbeeldingen een uitdaging. In dit artikel pakken we deze uitdaging aan met een nieuwe methode, Collaborative Score Distillation (CSD). CSD is gebaseerd op Stein Variational Gradient Descent (SVGD). Specifiek stellen we voor om meerdere samples als "deeltjes" te beschouwen in de SVGD-update en hun scorefuncties te combineren om generatieve prioriteiten synchroon te destilleren over een reeks afbeeldingen. Hierdoor vergemakkelijkt CSD een naadloze integratie van informatie over 2D-afbeeldingen, wat leidt tot een consistente visuele synthese over meerdere samples. We tonen de effectiviteit van CSD in een verscheidenheid aan taken, waaronder het visueel bewerken van panorama-afbeeldingen, video's en 3D-scènes. Onze resultaten onderstrepen de competentie van CSD als een veelzijdige methode voor het verbeteren van inter-sample consistentie, waardoor de toepasbaarheid van tekst-naar-beeld diffusiemodellen wordt verbreed.
Machine learning voor differentiaalvergelijkingen opent de weg naar computationeel efficiënte alternatieven voor numerieke oplossers, met potentieel brede impact in wetenschap en techniek. Hoewel huidige algoritmen doorgaans gesimuleerde trainingsgegevens vereisen die zijn afgestemd op een specifieke setting, kan men ook nuttige informatie willen leren uit heterogene bronnen, of uit observaties van echte dynamische systemen die rommelig of incompleet zijn. In dit werk leren we algemene representaties van partiële differentiaalvergelijkingen (PDE's) uit heterogene gegevens door gezamenlijke inbeddingsmethoden te implementeren voor zelfgesuperviseerd leren (SSL), een raamwerk voor ongesuperviseerd representatieleren dat opmerkelijke successen heeft geboekt in computervisie. Onze representatie overtreft baseline-benaderingen voor invariante taken, zoals het regresseren van de coëfficiënten van een PDE, terwijl het ook de tijdstap-prestaties van neurale oplossers verbetert. We hopen dat onze voorgestelde methodologie nuttig zal blijken bij de uiteindelijke ontwikkeling van algemene foundation-modellen voor PDE's.
We presenteren een nieuwe aanpak voor het genereren van statische en gearticuleerde 3D-assets, met een 3D-autodecoder als kern. Het 3D-autodecoder-framework integreert eigenschappen die zijn geleerd uit de doeldataset in de latente ruimte, die vervolgens kan worden gedecodeerd naar een volumetrische representatie voor het renderen van beeld-consistente verschijning en geometrie. Vervolgens identificeren we de geschikte tussenliggende volumetrische latente ruimte en introduceren we robuuste normalisatie- en denormalisatie-operaties om een 3D-diffusie te leren vanuit 2D-beelden of monovideo's van rigide of gearticuleerde objecten. Onze aanpak is flexibel genoeg om gebruik te maken van bestaande camerabegeleiding of helemaal geen camerainformatie – in plaats daarvan wordt deze efficiënt geleerd tijdens de training. Onze evaluaties tonen aan dat onze generatieresultaten state-of-the-art alternatieven overtreffen op verschillende benchmarkdatasets en metrieken, waaronder multi-view beelddatasets van synthetische objecten, real-life video's van bewegende mensen en een grootschalige, realistische videodataset van statische objecten.
Gegeven een set gekalibreerde afbeeldingen van een scène, presenteren we een aanpak die een eenvoudige, compacte en bruikbare 3D-wereldrepresentatie produceert door middel van 3D-primitieven. Terwijl veel benaderingen zich richten op het herstellen van hoogwaardige 3D-scènes, richten wij ons op het ontleden van een scène in mid-level 3D-representaties die bestaan uit een kleine set getextureerde primitieven. Dergelijke representaties zijn interpreteerbaar, eenvoudig te manipuleren en geschikt voor op fysica gebaseerde simulaties. Bovendien, in tegenstelling tot bestaande methoden voor primitieve decompositie die afhankelijk zijn van 3D-invoergegevens, werkt onze aanpak direct op afbeeldingen via differentieerbaar renderen. Specifiek modelleren we primitieven als getextureerde superquadrische meshes en optimaliseren we hun parameters vanaf nul met een verliesfunctie voor beeldrenderen. We benadrukken het belang van het modelleren van transparantie voor elke primitief, wat cruciaal is voor optimalisatie en ook het hanteren van een variabel aantal primitieven mogelijk maakt. We laten zien dat de resulterende getextureerde primitieven de invoerafbeeldingen getrouw reconstrueren en de zichtbare 3D-punten nauwkeurig modelleren, terwijl ze amodale vormvoltooiingen bieden van onzichtbare objectregio's. We vergelijken onze aanpak met de state-of-the-art op diverse scènes van DTU en demonstreren de robuustheid ervan op real-life opnames van BlendedMVS en Nerfstudio. We laten ook zien hoe onze resultaten kunnen worden gebruikt om moeiteloos een scène te bewerken of fysische simulaties uit te voeren. Code en videoresultaten zijn beschikbaar op https://www.tmonnier.com/DBW.
Video-language pre-training (VLP) is steeds belangrijker geworden vanwege zijn vermogen om te generaliseren naar diverse visuele en taaltaken. Bestaande egocentrische VLP-frameworks maken echter gebruik van aparte video- en taalcoders en leren taakspecifieke cross-modale informatie alleen tijdens fine-tuning, wat de ontwikkeling van een uniform systeem beperkt. In dit werk introduceren we de tweede generatie van egocentrische video-language pre-training (EgoVLPv2), een significante verbetering ten opzichte van de vorige generatie, door cross-modale fusie direct in de video- en taalbackbones te integreren. EgoVLPv2 leert sterke video-tekstrepresentaties tijdens pre-training en hergebruikt de cross-modale aandachtmodules om verschillende downstreamtaken op een flexibele en efficiënte manier te ondersteunen, waardoor de kosten van fine-tuning worden verlaagd. Bovendien is onze voorgestelde fusie-in-de-backbone-strategie lichter en rekenkundig efficiënter dan het toevoegen van extra fusiespecifieke lagen. Uitgebreide experimenten op een breed scala aan VL-taken demonstreren de effectiviteit van EgoVLPv2 door consistente state-of-the-art prestaties te behalen ten opzichte van sterke baselines in alle downstreamtaken. Onze projectpagina is te vinden op https://shramanpramanick.github.io/EgoVLPv2/.
Toegang tot hoogwaardige en diverse 3D-gearticuleerde digitale menselijke assets is cruciaal in verschillende toepassingen, variërend van virtual reality tot sociale platforms. Generatieve benaderingen, zoals 3D-generatieve adversariële netwerken (GANs), vervangen snel arbeidsintensieve handmatige contentcreatietools. Bestaande 3D-GAN-frameworks zijn echter doorgaans gebaseerd op scène-representaties die gebruikmaken van sjabloonmazen, die snel zijn maar beperkte kwaliteit bieden, of volumes, die een hoge capaciteit bieden maar traag zijn om te renderen, waardoor de 3D-nauwkeurigheid in GAN-instellingen wordt beperkt. In dit werk introduceren we gelaagde oppervlaktevolumes (LSVs) als een nieuwe 3D-objectrepresentatie voor gearticuleerde digitale mensen. LSVs representeren een menselijk lichaam met behulp van meerdere getextureerde maaslagen rond een conventioneel sjabloon. Deze lagen worden gerenderd met behulp van alpha-compositing met snelle differentieerbare rasterisatie, en ze kunnen worden geïnterpreteerd als een volumetrische representatie die zijn capaciteit toewijst aan een variëteit van eindige dikte rond het sjabloon. In tegenstelling tot conventionele enkellaagssjablonen die moeite hebben met het weergeven van fijne details buiten het oppervlak, zoals haar of accessoires, vangen onze oppervlaktevolumes dergelijke details van nature vast. LSVs kunnen worden gearticuleerd en vertonen uitzonderlijke efficiëntie in GAN-instellingen, waarbij een 2D-generator leert om de RGBA-texturen voor de individuele lagen te synthetiseren. Getraind op ongestructureerde, enkelvoudige 2D-beelddatasets, genereert onze LSV-GAN hoogwaardige en consistent weergegeven 3D-gearticuleerde digitale mensen zonder de noodzaak van inconsistente 2D-upsamplingnetwerken.
Eerder onderzoek heeft test-time training (TTT) gevestigd als een algemeen raamwerk om een getraind model verder te verbeteren tijdens de testfase. Voordat een voorspelling wordt gemaakt voor elk testgeval, wordt het model getraind op hetzelfde geval met behulp van een zelfgesuperviseerde taak, zoals beeldreconstructie met gemaskeerde auto-encoders. Wij breiden TTT uit naar de streaming-instelling, waarbij meerdere testgevallen – in ons geval videoframes – in temporele volgorde aankomen. Onze uitbreiding is online TTT: het huidige model wordt geïnitialiseerd vanuit het vorige model, waarna het wordt getraind op het huidige frame en een klein venster van frames direct daarvoor. Online TTT presteert aanzienlijk beter dan de baseline met een vast model voor vier taken, op drie real-world datasets. De relatieve verbetering is 45% en 66% voor instance- en panoptische segmentatie. Verrassend genoeg presteert online TTT ook beter dan zijn offline variant, die toegang heeft tot meer informatie door te trainen op alle frames uit de gehele testvideo, ongeacht de temporele volgorde. Dit verschilt van eerdere bevindingen met synthetische video’s. Wij conceptualiseren localiteit als het voordeel van online ten opzichte van offline TTT. We analyseren de rol van localiteit met ablatie-experimenten en een theorie gebaseerd op de bias-variantie-afweging.