Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Naarmate de ontwikkeling van grote taalmodellen (LLM) vordert, is het afstemmen ervan op menselijke voorkeuren steeds belangrijker geworden. Wij stellen stapsgewijze DPO (sDPO) voor, een uitbreiding van de recentelijk populair geworden direct preference optimization (DPO) voor afstemming. Deze aanpak omvat het verdelen van de beschikbare voorkeursdatasets en het stapsgewijs gebruiken ervan, in plaats van ze allemaal tegelijk in te zetten. Wij tonen aan dat deze methode het gebruik van nauwkeuriger afgestemde referentiemodellen binnen het DPO-trainingskader vergemakkelijkt. Bovendien traint sDPO het uiteindelijke model om beter te presteren, waarbij het zelfs andere populaire LLM's met meer parameters overtreft.
3D Gaussian Splatting (GS) heeft aanzienlijke verbeteringen geboekt ten opzichte van Neural Radiance Fields wat betreft 3D-passingsnauwkeurigheid en renderingssnelheid. Deze ongestructureerde representatie met verspreide Gaussians vormt echter een grote uitdaging voor generatieve modellering. Om dit probleem aan te pakken, introduceren we GaussianCube, een gestructureerde GS-representatie die zowel krachtig als efficiënt is voor generatieve modellering. We bereiken dit door eerst een aangepast densificatie-beperkt GS-passingsalgoritme voor te stellen dat hoogwaardige passingsresultaten kan opleveren met een vast aantal vrije Gaussians, en vervolgens de Gaussians te herschikken in een vooraf gedefinieerd voxelgrid via Optimal Transport. De gestructureerde gridrepresentatie stelt ons in staat om een standaard 3D U-Net als backbone te gebruiken in diffusie-generatieve modellering zonder ingewikkelde ontwerpen. Uitgebreide experimenten uitgevoerd op ShapeNet en OmniObject3D tonen aan dat ons model state-of-the-art generatieresultaten behaalt, zowel kwalitatief als kwantitatief, wat het potentieel van GaussianCube als een krachtige en veelzijdige 3D-representatie onderstreept.
Er is enorme vooruitgang geboekt in multimodale Large Language Models (LLM's). Recente werken hebben deze modellen uitgebreid naar video-invoer met veelbelovende mogelijkheden voor instructievolging. Een belangrijk ontbrekend element is echter temporele lokalisatie. Deze modellen kunnen de "Wanneer?"-vragen niet nauwkeurig beantwoorden. We identificeren drie belangrijke aspecten die hun temporele lokalisatiecapaciteiten beperken: (i) tijdsrepresentatie, (ii) architectuur, en (iii) data. We pakken deze tekortkomingen aan door de Language Instructed Temporal-Localization Assistant (LITA) voor te stellen met de volgende kenmerken: (1) We introduceren tijdstokens die tijdstempels coderen relatief aan de videolengte om tijd in video's beter te representeren. (2) We introduceren SlowFast-tokens in de architectuur om temporele informatie op fijne temporele resolutie vast te leggen. (3) We leggen de nadruk op temporele lokalisatiedata voor LITA. Naast het benutten van bestaande videodatasets met tijdstempels, stellen we een nieuwe taak voor, Reasoning Temporal Localization (RTL), samen met de dataset, ActivityNet-RTL, voor het leren en evalueren van deze taak. Redenerende temporele lokalisatie vereist zowel het redeneren als de temporele lokalisatie van Video LLM's. LITA toont sterke prestaties op deze uitdagende taak, waarbij de temporele gemiddelde intersection-over-union (mIoU) van de basislijnen bijna verdubbeld wordt. Daarnaast laten we zien dat onze nadruk op temporele lokalisatie ook de op video gebaseerde tekstgeneratie aanzienlijk verbetert in vergelijking met bestaande Video LLM's, inclusief een relatieve verbetering van 36% in Temporeel Begrip. De code is beschikbaar op: https://github.com/NVlabs/LITA.
Diffusiegebaseerde tekst-naar-beeld generatieve modellen, zoals Stable Diffusion, hebben een revolutie teweeggebracht in het veld van contentgeneratie, waardoor aanzienlijke vooruitgang is geboekt op gebieden zoals beeldbewerking en videosynthese. Ondanks hun indrukwekkende mogelijkheden zijn deze modellen niet zonder beperkingen. Het blijft een uitdaging om een beeld te synthetiseren dat goed aansluit bij de ingevoerde tekst, en er zijn meerdere runs met zorgvuldig opgestelde prompts nodig om bevredigende resultaten te bereiken. Om deze beperkingen te verminderen, hebben talrijke studies geprobeerd om de vooraf getrainde diffusiemodellen, zoals UNet, te verfijnen met behulp van verschillende technologieën. Toch is er binnen deze inspanningen een cruciale vraag over de training van tekst-naar-beeld diffusiemodellen grotendeels onontgonnen gebleven: Is het mogelijk en haalbaar om de tekstencoder te verfijnen om de prestaties van tekst-naar-beeld diffusiemodellen te verbeteren? Onze bevindingen onthullen dat, in plaats van de CLIP-tekstencoder die in Stable Diffusion wordt gebruikt te vervangen door andere grote taalmodellen, we deze kunnen verbeteren via onze voorgestelde verfijningsaanpak, TextCraftor, wat leidt tot aanzienlijke verbeteringen in kwantitatieve benchmarks en menselijke beoordelingen. Interessant genoeg stelt onze techniek ook gecontroleerde beeldgeneratie mogelijk door de interpolatie van verschillende tekstencoders die zijn verfijnd met verschillende beloningen. We tonen ook aan dat TextCraftor orthogonaal is aan UNet-verfijning, en gecombineerd kan worden om de generatieve kwaliteit verder te verbeteren.
We presenteren Mesh2NeRF, een benadering om grondwaarheid radiance fields af te leiden uit getextureerde meshes voor 3D-generatietaken. Veel 3D-generatieve benaderingen representeren 3D-scènes als radiance fields voor training. Hun grondwaarheid radiance fields worden meestal aangepast vanuit multi-view renderings van een grootschalige synthetische 3D-dataset, wat vaak resulteert in artefacten door occlusies of onderfittingproblemen. In Mesh2NeRF stellen we een analytische oplossing voor om direct grondwaarheid radiance fields te verkrijgen uit 3D-meshes, waarbij het dichtheidsveld wordt gekarakteriseerd met een bezettingsfunctie met een gedefinieerde oppervlaktedikte, en het view-afhankelijke kleur wordt bepaald door een reflectiefunctie die zowel de mesh als de omgevingsverlichting in overweging neemt. Mesh2NeRF extraheert nauwkeurige radiance fields die directe supervisie bieden voor het trainen van generatieve NeRFs en enkele scène-representatie. We valideren de effectiviteit van Mesh2NeRF over verschillende taken, waarbij we een opmerkelijke verbetering van 3.12dB in PSNR bereiken voor viewsynthese in enkele scène-representatie op de ABO-dataset, een 0.69 PSNR-verbetering in de single-view conditionele generatie van ShapeNet Cars, en een aanzienlijk verbeterde mesh-extractie uit NeRF in de onvoorwaardelijke generatie van Objaverse Mugs.