Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren tijdvectoren, een eenvoudig hulpmiddel om taalmodelen aan te passen aan nieuwe tijdperken. Tijdvectoren worden gecreëerd door een taalmodel te finetunen op gegevens uit een enkele tijdsperiode (bijvoorbeeld een jaar of maand), en vervolgens de gewichten van het oorspronkelijke voorgetrainde model af te trekken. Deze vector geeft een richting in de gewichtsruimte aan die, zoals onze experimenten aantonen, de prestaties op tekst uit die tijdsperiode verbetert. Tijdvectoren die gespecialiseerd zijn in aangrenzende tijdsperioden lijken dichter bij elkaar te liggen in een variëteit. Gebruikmakend van deze structuur, interpoleren we tussen tijdvectoren om nieuwe modellen te creëren die beter presteren op tussenliggende en toekomstige tijdsperioden, zonder enige aanvullende training. We demonstreren de consistentie van onze bevindingen over verschillende taken, domeinen, modelgroottes en tijdschalen. Onze resultaten suggereren dat tijd gecodeerd is in de gewichtsruimte van gefinetunde modellen.
Recente vooruitgang in tekstgeleide beeldinpaint, gebaseerd op de ongekende succes van tekst-naar-beeld diffusiemodellen, heeft geleid tot uitzonderlijk realistische en visueel plausibele resultaten. Er is echter nog steeds aanzienlijk potentieel voor verbetering in huidige tekst-naar-beeld inpaintmodellen, met name in het beter afstemmen van de ingevulde gebieden op gebruikersprompts en het uitvoeren van hoogwaardige inpaint. Daarom introduceren we in dit artikel HD-Painter, een volledig trainingsvrije aanpak die nauwkeurig prompts volgt en coherent schaalt naar hoogwaardige beeldinpaint. Hiertoe ontwerpen we de Prompt-Aware Introverted Attention (PAIntA) laag die zelf-attentiescores versterkt met promptinformatie en resulteert in betere tekstafstemming generaties. Om de promptcoherentie verder te verbeteren introduceren we het Reweighting Attention Score Guidance (RASG) mechanisme dat naadloos een post-hoc samplingstrategie integreert in de algemene vorm van DDIM om out-of-distribution latente verschuivingen te voorkomen. Bovendien maakt HD-Painter uitbreiding naar grotere schalen mogelijk door een gespecialiseerde superresolutietechniek te introduceren die is aangepast voor inpaint, waardoor het mogelijk wordt om ontbrekende gebieden in beelden van tot 2K resolutie te voltooien. Onze experimenten tonen aan dat HD-Painter bestaande state-of-the-art benaderingen kwalitatief en kwantitatief overtreft, met een indrukwekkende verbetering in generatie nauwkeurigheid van 61,4% vs 51,9%. We zullen de codes openbaar beschikbaar maken op: https://github.com/Picsart-AI-Research/HD-Painter
Recente vooruitgang in de tekst-naar-3D-taak maakt gebruik van fijn afgestemde tekst-naar-beeld diffusiemodellen om multi-view beelden te genereren, gevolgd door NeRF-reconstructie. Toch lijden bestaande supervised fijn afgestemde (SFT) diffusiemodellen nog steeds aan multi-view inconsistentie en de resulterende NeRF-artefacten. Hoewel langer trainen met SFT de consistentie verbetert, veroorzaakt het ook een distributieverschuiving, wat de diversiteit en realistische details vermindert. Wij beargumenteren dat de SFT van multi-view diffusiemodellen lijkt op de instructie fijn afstemmingsfase van de LLM-uitlijningspijplijn en kan profiteren van RL fijn afstemmingsmethoden (RLFT). In essentie optimaliseren RLFT-methoden modellen voorbij hun SFT-datadistributie door hun eigen uitvoer te gebruiken, waardoor distributieverschuiving effectief wordt gemitigeerd. Hiertoe introduceren we Carve3D, een RLFT-methode gekoppeld aan de Multi-view Reconstructie Consistentie (MRC) metriek, om de consistentie van multi-view diffusiemodellen te verbeteren. Om MRC te berekenen op een set multi-view beelden, vergelijken we deze met hun corresponderende renderings van de gereconstrueerde NeRF vanuit dezelfde gezichtspunten. We valideren de robuustheid van MRC met uitgebreide experimenten uitgevoerd onder gecontroleerde inconsistentieniveaus. We verbeteren het basis RLFT-algoritme om het trainingsproces te stabiliseren, distributieverschuiving te verminderen en schaalwetten te identificeren. Door kwalitatieve en kwantitatieve experimenten, samen met een gebruikersstudie, demonstreren we de verbeterde multi-view consistentie van Carve3D, de resulterende superieure NeRF-reconstructiekwaliteit en minimale distributieverschuiving in vergelijking met langere SFT. Projectwebpagina: https://desaixie.github.io/carve-3d.
We introduceren ShowRoom3D, een driedelige aanpak voor het genereren van hoogwaardige 3D kamer-schaal scènes vanuit tekst. Eerdere methoden die 2D diffusie-priors gebruiken om neurale stralingsvelden te optimaliseren voor het genereren van kamer-schaal scènes, hebben onbevredigende kwaliteit laten zien. Dit wordt voornamelijk toegeschreven aan de beperkingen van 2D priors die geen 3D-bewustzijn hebben en aan beperkingen in de trainingsmethodologie. In dit artikel maken we gebruik van een 3D diffusie-prior, MVDiffusion, om de 3D kamer-schaal scène te optimaliseren. Onze bijdragen liggen op twee vlakken. Ten eerste stellen we een progressief view-selectieproces voor om NeRF te optimaliseren. Dit houdt in dat het trainingsproces in drie fasen wordt verdeeld, waarbij het camerabemonsteringsbereik geleidelijk wordt uitgebreid. Ten tweede introduceren we de pose-transformatiemethode in de tweede fase. Dit zorgt ervoor dat MVDiffusion nauwkeurige view-begeleiding biedt. Als resultaat maakt ShowRoom3D het mogelijk om kamers te genereren met verbeterde structurele integriteit, verhoogde helderheid vanuit elk gezichtspunt, verminderde inhoudsherhaling en hogere consistentie over verschillende perspectieven. Uitgebreide experimenten tonen aan dat onze methode state-of-the-art benaderingen aanzienlijk overtreft met een grote marge in termen van gebruikersstudies.
Huidige ontwikkelingen in het modelleren van menselijke hoofden maken het mogelijk om geloofwaardige 3D-hoofdmodellen te genereren via neurale representaties. Desondanks blijft het construeren van complete, hoogwaardige hoofdmodellen met expliciet gecontroleerde animatie een uitdaging. Bovendien is het aanvullen van de hoofdgeometrie op basis van een gedeeltelijke waarneming, bijvoorbeeld afkomstig van een dieptesensor, terwijl details behouden blijven, vaak problematisch voor bestaande methoden. Wij introduceren een generatief model voor gedetailleerde 3D-hoofdmeshes bovenop een gearticuleerd 3DMM (3D Morphable Model) dat zowel expliciete animatie als het behoud van hoge details mogelijk maakt. Onze methode wordt in twee fasen getraind. Eerst registreren we een parametrisch hoofdmodel met vertexverplaatsingen op elk mesh van het recent geïntroduceerde NPHM-dataset van nauwkeurige 3D-hoofdscans. De geschatte verplaatsingen worden vastgelegd in een handmatig gemaakte UV-lay-out. Vervolgens trainen we een StyleGAN-model om te generaliseren over de UV-kaarten van verplaatsingen. De decompositie van het parametrische model en de hoogwaardige vertexverplaatsingen stellen ons in staat om het model te animeren en semantisch aan te passen. We demonstreren de resultaten van onvoorwaardelijke generatie en aanpassing aan volledige of gedeeltelijke waarnemingen. De projectpagina is beschikbaar op https://seva100.github.io/headcraft.