Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Foundation models, die momenteel de meeste spannende toepassingen in deep learning aandrijven, zijn bijna universeel gebaseerd op de Transformer-architectuur en de kernmodule ervan, attention. Veel subkwadratische-tijdarchitecturen zoals lineaire attention, gated convolution en recurrente modellen, en gestructureerde state space-modellen (SSM's) zijn ontwikkeld om de computationele inefficiëntie van Transformers op lange sequenties aan te pakken, maar ze presteren niet zo goed als attention op belangrijke modaliteiten zoals taal. Wij identificeren dat een belangrijk zwaktepunt van dergelijke modellen hun onvermogen is om op inhoud gebaseerd redeneren uit te voeren, en introduceren verschillende verbeteringen. Ten eerste wordt door simpelweg de SSM-parameters functies van de invoer te laten zijn, hun zwakte met discrete modaliteiten aangepakt, waardoor het model selectief informatie kan doorgeven of vergeten langs de sequentielengtedimensie, afhankelijk van het huidige token. Ten tweede, hoewel deze verandering het gebruik van efficiënte convoluties verhindert, ontwerpen we een hardwarebewust parallel algoritme in recurrente modus. We integreren deze selectieve SSM's in een vereenvoudigd end-to-end neuraal netwerkarchitectuur zonder attention of zelfs MLP-blokken (Mamba). Mamba geniet van snelle inferentie (5 keer hogere doorvoer dan Transformers) en lineaire schaalbaarheid in sequentielengte, en de prestaties verbeteren op echte data tot sequenties van miljoen lengtes. Als een algemene sequentiemodel-backbone bereikt Mamba state-of-the-art prestaties over verschillende modaliteiten zoals taal, audio en genomica. Op taalmodellering presteert ons Mamba-3B-model beter dan Transformers van dezelfde grootte en evenaart het Transformers die twee keer zo groot zijn, zowel in pretraining als in downstream-evaluatie.
We introduceren MoMask, een nieuw gemaskerd modelleerkader voor tekstgestuurde 3D-menselijke bewegingsgeneratie. In MoMask wordt een hiërarchisch kwantiseringsschema gebruikt om menselijke beweging weer te geven als meerlagige discrete bewegings-tokens met hoogwaardige details. Beginnend bij de basislaag, wordt een reeks bewegings-tokens verkregen door vector-kwantisering, waarna de residu-tokens van toenemende ordes worden afgeleid en opgeslagen in de daaropvolgende lagen van de hiërarchie. Dit wordt gevolgd door twee afzonderlijke bidirectionele transformers. Voor de bewegings-tokens van de basislaag is een Masked Transformer aangewezen om willekeurig gemaskeerde bewegings-tokens te voorspellen, geconditioneerd op tekstinput tijdens de trainingsfase. Tijdens de generatiefase (d.w.z. inferentie) vult onze Masked Transformer, startend vanuit een lege reeks, iteratief de ontbrekende tokens in; Vervolgens leert een Residual Transformer om progressief de tokens van de volgende laag te voorspellen op basis van de resultaten van de huidige laag. Uitgebreide experimenten tonen aan dat MoMask de state-of-the-art methoden overtreft op de taak van tekst-naar-beweging generatie, met een FID van 0.045 (vergeleken met bijvoorbeeld 0.141 van T2M-GPT) op de HumanML3D dataset, en 0.228 (vergeleken met 0.514) op KIT-ML. MoMask kan ook naadloos worden toegepast in gerelateerde taken zonder verdere model-finetuning, zoals tekstgeleide temporele inpainting.
We presenteren DREAM, een nieuw trainingsframework dat staat voor Diffusion Rectification and Estimation-Adaptive Models, dat minimale codeaanpassingen vereist (slechts drie regels) maar de afstemming van training op sampling in diffusiemodellen aanzienlijk verbetert. DREAM bestaat uit twee componenten: diffusierectificatie, die de training aanpast om het samplingproces te weerspiegelen, en schattingsadaptatie, die de balans tussen perceptie en vervorming bewaakt. Wanneer toegepast op beeld-superresolutie (SR), navigeert DREAM vaardig de afweging tussen het minimaliseren van vervorming en het behouden van hoge beeldkwaliteit. Experimenten tonen de superioriteit van DREAM aan ten opzichte van standaard diffusiegebaseerde SR-methoden, met een 2 tot 3 keer snellere trainingsconvergentie en een 10 tot 20 keer reductie in benodigde samplingstappen om vergelijkbare of betere resultaten te bereiken. We hopen dat DREAM een herziening van de trainingsparadigma's voor diffusiemodellen zal inspireren.
Neurale renderingmethoden hebben foto-realistische 3D-scèneweergave aanzienlijk vooruitgebracht in diverse academische en industriële toepassingen. De recente 3D Gaussian Splatting-methode heeft de state-of-the-art weergavekwaliteit en snelheid bereikt door de voordelen van zowel op primitieven gebaseerde representaties als volumetrische representaties te combineren. Het leidt echter vaak tot sterk redundante Gaussiaanse verdelingen die elke trainingsweergave proberen te benaderen, waarbij de onderliggende scènegeometrie wordt verwaarloosd. Hierdoor wordt het resulterende model minder robuust bij significante veranderingen in het gezichtspunt, textuurloze gebieden en lichteffecten. Wij introduceren Scaffold-GS, dat ankerpunten gebruikt om lokale 3D Gaussiaanse verdelingen te verdelen en hun attributen on-the-fly voorspelt op basis van de kijkrichting en afstand binnen het view frustum. Ankergroei- en snoeistrategieën worden ontwikkeld op basis van het belang van neurale Gaussiaanse verdelingen om de scènedekking betrouwbaar te verbeteren. Wij tonen aan dat onze methode effectief redundante Gaussiaanse verdelingen vermindert terwijl het een hoogwaardige weergave levert. Daarnaast toont onze methode een verbeterd vermogen om scènes met verschillende niveaus van detail en waarnemingen afhankelijk van het gezichtspunt te accommoderen, zonder in te leveren op de weergavesnelheid.
Nieuwe beeldweergave-synthese vanuit beperkte observaties blijft een belangrijke en aanhoudende taak. Echter, hoge efficiëntie in bestaande NeRF-gebaseerde few-shot beeldweergave-synthese wordt vaak opgeofferd om een nauwkeurige 3D-weergave te verkrijgen. Om deze uitdaging aan te pakken, stellen we een few-shot beeldweergave-synthese framework voor, gebaseerd op 3D Gaussian Splatting, dat real-time en foto-realistische beeldweergave-synthese mogelijk maakt met slechts drie trainingsbeelden. De voorgestelde methode, genaamd FSGS, behandelt de extreem schaars geïnitialiseerde SfM-punten met een zorgvuldig ontworpen Gaussian Unpooling-proces. Onze methode verdeelt iteratief nieuwe Gaussians rond de meest representatieve locaties, waarna lokale details worden ingevuld in lege gebieden. We integreren ook een grootschalige vooraf getrainde monocular depth estimator binnen het Gaussians optimalisatieproces, waarbij we gebruik maken van online versterkte beelden om de geometrische optimalisatie te begeleiden naar een optimale oplossing. Beginnend vanuit schaarse punten waargenomen vanuit beperkte invoerperspectieven, kan onze FSGS nauwkeurig uitbreiden naar onbekende regio's, waardoor de scène volledig wordt gedekt en de renderkwaliteit van nieuwe beelden wordt verbeterd. Over het algemeen behaalt FSGS state-of-the-art prestaties in zowel nauwkeurigheid als render-efficiëntie over diverse datasets, waaronder LLFF, Mip-NeRF360 en Blender. Projectwebsite: https://zehaozhu.github.io/FSGS/.
Multimodale Large Language Models (MLLMs) hebben recentelijk indrukwekkende capaciteiten getoond op het gebied van multimodale begrip, redenering en interactie. Echter, bestaande MLLMs lijden veelal aan ernstige hallucinatieproblemen, waarbij tekst wordt gegenereerd die niet feitelijk is gebaseerd op de bijbehorende afbeeldingen. Dit probleem maakt bestaande MLLMs onbetrouwbaar en dus onpraktisch in real-world toepassingen (met name in hoogrisicosituaties). Om deze uitdaging aan te pakken, presenteren we RLHF-V, dat de betrouwbaarheid van MLLMs verbetert via gedragsafstemming op basis van fijnmazige corrigerende menselijke feedback. Specifiek verzamelt RLHF-V menselijke voorkeuren in de vorm van segmentniveau-correcties op hallucinaties, en voert het dense direct preference optimization uit over de menselijke feedback. Uitgebreide experimenten op vijf benchmarks in zowel automatische als menselijke evaluatie tonen aan dat RLHF-V aanzienlijk betrouwbaarder MLLM-gedrag kan mogelijk maken met veelbelovende data- en rekenkundige efficiëntie. Opmerkelijk is dat RLHF-V, met slechts 1.4k geannoteerde data samples, de hallucinatiefrequentie van het basis-MLLM met 34,8% significant reduceert, en daarbij de concurrent LLaVA-RLHF, getraind op 10k geannoteerde data, overtreft. Het uiteindelijke model behaalt state-of-the-art prestaties in betrouwbaarheid onder open-source MLLMs, en toont een betere robuustheid dan GPT-4V in het voorkomen van hallucinaties veroorzaakt door overgeneralisatie. We maken onze code, model en data openbaar op https://github.com/RLHF-V/RLHF-V.
Tekstgestuurde 3D-gezichtssynthese heeft opmerkelijke resultaten bereikt door gebruik te maken van tekst-naar-beeld (T2I) diffusiemodellen. De meeste bestaande werken richten zich echter uitsluitend op directe generatie, waarbij het bewerken wordt genegeerd, wat hen beperkt in het synthetiseren van gepersonaliseerde 3D-gezichten door middel van iteratieve aanpassingen. In dit artikel stellen we een uniform tekstgestuurd framework voor, van gezichtsgeneratie tot bewerking. In de generatiefase introduceren we een geometrie-textuur ontkoppelde generatie om het verlies van geometrische details veroorzaakt door koppeling te verminderen. Bovendien stelt ontkoppeling ons in staat om de gegenereerde geometrie als voorwaarde te gebruiken voor textuurgeneratie, wat sterk op elkaar afgestemde geometrie-textuur resultaten oplevert. We gebruiken verder een fijn afgesteld textuur diffusiemodel om de textuurkwaliteit in zowel RGB- als YUV-ruimte te verbeteren. In de bewerkingsfase gebruiken we eerst een vooraf getraind diffusiemodel om de gezichtsgeometrie of textuur bij te werken op basis van de teksten. Om sequentiële bewerking mogelijk te maken, introduceren we een UV-domein consistentiebehoud regularisatie, wat onbedoelde wijzigingen aan irrelevante gezichtskenmerken voorkomt. Daarnaast stellen we een zelfgestuurde consistentiegewichtstrategie voor om de bewerkingsdoeltreffendheid te verbeteren terwijl consistentie behouden blijft. Door middel van uitgebreide experimenten tonen we de superioriteit van onze methode in gezichtssynthese aan. Projectpagina: https://faceg2e.github.io/.
Neural Radiance Fields (NeRFs) kunnen aanzienlijk worden versneld door ruimtelijke rasterrepresentaties. Ze houden echter niet expliciet rekening met schaal, wat aliasing-artefacten introduceert bij het reconstrueren van scènes die op verschillende camerafstanden zijn vastgelegd. Mip-NeRF en zijn uitbreidingen stellen schaalbewuste renderers voor die volumetrische frustums projecteren in plaats van puntmonsters, maar dergelijke benaderingen zijn afhankelijk van positionele coderingen die niet gemakkelijk compatibel zijn met rastermethoden. Wij stellen een eenvoudige aanpassing voor op rastergebaseerde modellen door modelkoppen te trainen op verschillende ruimtelijke rasterresoluties. Tijdens het renderen gebruiken we eenvoudigweg grovere rasters om monsters te renderen die grotere volumes bestrijken. Onze methode kan eenvoudig worden toegepast op bestaande versnelde NeRF-methoden en verbetert de renderkwaliteit aanzienlijk (vermindert foutpercentages met 20-90% in synthetische en onbegrensde real-world scènes) terwijl er minimale prestatieoverhead is (aangezien elke modelkop snel te evalueren is). Vergeleken met Mip-NeRF verminderen we de foutpercentages met 20% terwijl we meer dan 60x sneller trainen.
De laatste tijd heeft de automatische creatie van tekst-naar-3D-inhoud aanzienlijke vooruitgang geboekt, gedreven door de ontwikkeling van vooraf getrainde 2D-diffusiemodellen. Bestaande tekst-naar-3D-methoden optimaliseren doorgaans de 3D-representatie om ervoor te zorgen dat de gerenderde afbeelding goed overeenkomt met de gegeven tekst, zoals beoordeeld door het vooraf getrainde 2D-diffusiemodel. Desalniettemin bestaat er een aanzienlijk domeinkloof tussen 2D-afbeeldingen en 3D-assets, voornamelijk toe te schrijven aan variaties in camera-gerelateerde attributen en de exclusieve aanwezigheid van voorgrondobjecten. Hierdoor kan het direct gebruiken van 2D-diffusiemodellen voor het optimaliseren van 3D-representaties leiden tot suboptimale resultaten. Om dit probleem aan te pakken, presenteren we X-Dreamer, een nieuwe benadering voor hoogwaardige tekst-naar-3D-inhoudcreatie die effectief de kloof tussen tekst-naar-2D en tekst-naar-3D-synthese overbrugt. De belangrijkste componenten van X-Dreamer zijn twee innovatieve ontwerpen: Camera-Guided Low-Rank Adaptation (CG-LoRA) en Attention-Mask Alignment (AMA) Loss. CG-LoRA integreert dynamisch camerainformatie in de vooraf getrainde diffusiemodellen door camera-afhankelijke generatie te gebruiken voor trainbare parameters. Deze integratie verbetert de afstemming tussen de gegenereerde 3D-assets en het cameraperspectief. AMA-loss begeleidt de aandachtskaart van het vooraf getrainde diffusiemodel met behulp van het binaire masker van het 3D-object, waarbij de creatie van het voorgrondobject prioriteit krijgt. Deze module zorgt ervoor dat het model zich richt op het genereren van nauwkeurige en gedetailleerde voorgrondobjecten. Uitgebreide evaluaties tonen de effectiviteit van onze voorgestelde methode aan in vergelijking met bestaande tekst-naar-3D-benaderingen. Onze projectwebpagina: https://xmuxiaoma666.github.io/Projects/X-Dreamer.