Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren LlamaGen, een nieuwe familie van beeldgeneratiemodellen die het originele "next-token prediction"-paradigma van grote taalmodellen toepassen op het domein van visuele generatie. Het is een bevestigend antwoord op de vraag of standaard autoregressieve modellen, zoals Llama, zonder inductieve vooroordelen op visuele signalen, state-of-the-art prestaties kunnen bereiken in beeldgeneratie als ze op de juiste manier worden geschaald. We onderzoeken opnieuw de ontwerpruimtes van beeldtokenizers, de schaalbaarheidseigenschappen van beeldgeneratiemodellen en de kwaliteit van hun trainingsdata. Het resultaat van deze verkenning bestaat uit: (1) Een beeldtokenizer met een downsample-ratio van 16, een reconstructiekwaliteit van 0,94 rFID en een codebookgebruik van 97% op de ImageNet-benchmark. (2) Een reeks klasse-conditionele beeldgeneratiemodellen variërend van 111M tot 3,1B parameters, die een FID van 2,18 behalen op de ImageNet 256x256-benchmarks, wat beter is dan populaire diffusiemodellen zoals LDM en DiT. (3) Een tekst-conditioneel beeldgeneratiemodel met 775M parameters, getraind in twee fasen op LAION-COCO en afbeeldingen van hoge esthetische kwaliteit, dat competitieve prestaties laat zien op het gebied van visuele kwaliteit en tekstuitlijning. (4) We verifiëren de effectiviteit van LLM-servingframeworks bij het optimaliseren van de inferentiesnelheid van beeldgeneratiemodellen en behalen een versnelling van 326% tot 414%. We geven alle modellen en codes vrij om de open-sourcegemeenschap van visuele generatie en multimodale foundationmodellen te faciliteren.
Vooruitgang in multimodaal leren, met name op het gebied van videobegrip en -generatie, vereist hoogwaardige video-tekst datasets voor verbeterde modelprestaties. Vript lost dit probleem op met een zorgvuldig geannoteerd corpus van 12K hoogwaardige video's, dat gedetailleerde, dichte en scriptachtige bijschriften biedt voor meer dan 420K clips. Elke clip heeft een bijschrift van ~145 woorden, wat meer dan 10x langer is dan bij de meeste video-tekst datasets. In tegenstelling tot bijschriften die alleen statische inhoud documenteren in eerdere datasets, verbeteren wij videobijschriften tot videoscripting door niet alleen de inhoud te documenteren, maar ook de camerabewerkingen, waaronder de shottypes (medium shot, close-up, etc.) en camerabewegingen (panorama, tilt, etc.). Door gebruik te maken van Vript, verkennen we drie trainingsparadigma's voor het afstemmen van meer tekst op de videomodaliteit in plaats van clip-bijschriftparen. Dit resulteert in Vriptor, een toppresterend videobijschriftmodel onder de open-source modellen, vergelijkbaar in prestaties met GPT-4V. Vriptor is ook een krachtig model dat in staat is tot end-to-end generatie van dichte en gedetailleerde bijschriften voor lange video's. Bovendien introduceren we Vript-Hard, een benchmark bestaande uit drie videobegriptaken die uitdagender zijn dan bestaande benchmarks: Vript-HAL is de eerste benchmark die actie- en objecthallucinaties in video-LLM's evalueert, Vript-RR combineert redeneren met retrieval om vraagambiguïteit op te lossen in lange-video QA's, en Vript-ERO is een nieuwe taak om het temporele begrip van gebeurtenissen in lange video's te evalueren in plaats van acties in korte video's zoals in eerdere werken. Alle code, modellen en datasets zijn beschikbaar op https://github.com/mutonix/Vript.
Taalagents voeren complexe taken uit door tools te gebruiken om elke stap precies uit te voeren. De meeste bestaande agents zijn echter gebaseerd op propriëtaire modellen of ontworpen voor specifieke taken, zoals wiskunde of meerstapsvraagbeantwoording. Wij introduceren Husky, een holistisch, open-source taalagent die leert te redeneren over een uniforme actieruimte om een diverse set van complexe taken aan te pakken die betrekking hebben op numerieke, tabelvormige en kennisgebaseerde redenering. Husky wisselt tussen twee fasen: 1) het genereren van de volgende actie om een gegeven taak op te lossen en 2) het uitvoeren van de actie met behulp van expertmodellen en het bijwerken van de huidige oplossingsstatus. We identificeren een uitgebreide ontologie van acties voor het aanpakken van complexe taken en stellen hoogwaardige data samen om expertmodellen te trainen voor het uitvoeren van deze acties. Onze experimenten tonen aan dat Husky eerdere taalagents overtreft op 14 evaluatiedatasets. Bovendien introduceren we HuskyQA, een nieuwe evaluatieset die taalagents stress test voor gemengde toolredenering, met een focus op het ophalen van ontbrekende kennis en het uitvoeren van numerieke redenering. Ondanks het gebruik van 7B-modellen, evenaart of overtreft Husky zelfs frontier LM's zoals GPT-4 bij deze taken, wat de effectiviteit van onze holistische aanpak bij het aanpakken van complexe redeneerproblemen aantoont. Onze code en modellen zijn beschikbaar op https://github.com/agent-husky/Husky-v1.
In de gezondheidszorg heeft het meeste onderzoek naar grote taalmodellen (LLM's) zich gericht op klinische taken. Mobiele en draagbare apparaten, die zelden in dergelijke taken worden geïntegreerd, bieden echter rijke, longitudinale gegevens voor persoonlijke gezondheidsmonitoring. Hier presenteren we het Personal Health Large Language Model (PH-LLM), dat is afgestemd op Gemini voor het begrijpen en redeneren over numerieke tijdreeksgegevens van persoonlijke gezondheid. We hebben drie datasets gemaakt en samengesteld die testen: 1) het genereren van gepersonaliseerde inzichten en aanbevelingen op basis van slaappatronen, fysieke activiteit en fysiologische reacties, 2) expertise in het domein, en 3) de voorspelling van zelfgerapporteerde slaapuitkomsten. Voor de eerste taak hebben we in samenwerking met domeinexperts 857 casestudies ontworpen om realistische scenario's op het gebied van slaap en fitness te beoordelen. Door middel van een uitgebreide evaluatie van domeinspecifieke beoordelingscriteria hebben we geobserveerd dat Gemini Ultra 1.0 en PH-LLM statistisch niet verschillen van de prestaties van experts op het gebied van fitness, en hoewel experts superieur blijven op het gebied van slaap, heeft het afstemmen van PH-LLM aanzienlijke verbeteringen opgeleverd in het gebruik van relevante domeinkennis en het personaliseren van informatie voor slaapinzichten. We hebben de domeinkennis van PH-LLM geëvalueerd met behulp van meerkeuzetoetsen op het gebied van slaapgeneeskunde en fitness. PH-LLM behaalde 79% op slaap en 88% op fitness, wat hoger was dan de gemiddelde scores van een steekproef van menselijke experts. Ten slotte hebben we PH-LLM getraind om zelfgerapporteerde slaapkwaliteitsuitkomsten te voorspellen op basis van tekstuele en multimodale coderingsrepresentaties van draagbare gegevens, en we tonen aan dat multimodale codering nodig is om de prestaties van gespecialiseerde discriminerende modellen te evenaren. Hoewel verdere ontwikkeling en evaluatie noodzakelijk zijn in het veiligheidskritieke domein van persoonlijke gezondheid, tonen deze resultaten zowel de brede kennis en mogelijkheden van Gemini-modellen aan als het voordeel van het contextualiseren van fysiologische gegevens voor persoonlijke gezondheidstoepassingen, zoals gedaan is met PH-LLM.
Volumetrische renderingmethoden, zoals NeRF, blinken uit in HDR-beeldsynthese van RAW-afbeeldingen, vooral voor nachtscènes. Echter hebben ze te kampen met lange trainingsduur en kunnen ze geen real-time rendering uitvoeren vanwege de vereiste dichte bemonstering. De opkomst van 3D Gaussian Splatting (3DGS) maakt real-time rendering en snellere training mogelijk. Het direct implementeren van RAW-afbeelding-gebaseerde beeldsynthese met behulp van 3DGS is echter uitdagend vanwege inherente beperkingen: 1) in nachtscènes leidt een extreem lage signaal-ruisverhouding (SNR) tot slechte structure-from-motion (SfM) schattingen in verre uitzichten; 2) de beperkte representatiecapaciteit van sferische harmonischen (SH) is ongeschikt voor de RAW lineaire kleurruimte; en 3) onnauwkeurige scènestructuur belemmert downstream taken zoals herfocussering. Om deze problemen aan te pakken, stellen we LE3D (Lighting Every darkness with 3DGS) voor. Onze methode introduceert Cone Scatter Initialization om de SfM-schatting te verrijken, en vervangt SH door een Color MLP om de RAW lineaire kleurruimte te representeren. Daarnaast introduceren we dieptevervorming en near-far regularisaties om de nauwkeurigheid van de scènestructuur voor downstream taken te verbeteren. Deze ontwerpen maken het mogelijk dat LE3D real-time nieuwe beeldsynthese, HDR-rendering, herfocussering en tone-mapping aanpassingen kan uitvoeren. Vergeleken met eerdere volumetrische renderingmethoden, vermindert LE3D de trainingstijd tot 1% en verbetert het de renderingsnelheid met tot wel 4.000 keer voor 2K-resolutie afbeeldingen in termen van FPS. Code en viewer zijn te vinden op https://github.com/Srameo/LE3D.
Het ontwikkelen van therapeutica is een langdurig en kostbaar proces dat het voldoen aan veel verschillende criteria vereist, en AI-modellen die dit proces kunnen versnellen, zouden van onschatbare waarde zijn. De meeste huidige AI-benaderingen richten zich echter slechts op een nauw gedefinieerde set taken, vaak beperkt tot een specifiek domein. Om deze kloof te overbruggen, introduceren we Tx-LLM, een generalistisch groot taalmodel (LLM) dat is afgestemd op PaLM-2 en kennis bevat over diverse therapeutische modaliteiten. Tx-LLM is getraind met een verzameling van 709 datasets die gericht zijn op 66 taken die verschillende fasen van de pijplijn voor geneesmiddelenontdekking omvatten. Met een enkele set gewichten verwerkt Tx-LLM tegelijkertijd een breed scala aan chemische of biologische entiteiten (kleine moleculen, eiwitten, nucleïnezuren, celijnen, ziekten) afgewisseld met vrije tekst, waardoor het een breed scala aan gerelateerde eigenschappen kan voorspellen, waarbij het competitief presteert met state-of-the-art (SOTA) op 43 van de 66 taken en SOTA overtreft op 22. Onder deze taken is Tx-LLM bijzonder krachtig en overtreft het gemiddeld de best-in-class prestaties voor taken die moleculaire SMILES-representaties combineren met tekst zoals celijnnamen of ziekte-namen, waarschijnlijk vanwege de context die tijdens de voorafgaande training is geleerd. We observeren bewijs van positieve overdracht tussen taken met diverse geneesmiddeltypen (bijvoorbeeld taken met kleine moleculen en taken met eiwitten), en we bestuderen de impact van modelgrootte, domeinafstemming en promptingstrategieën op de prestaties. We geloven dat Tx-LLM een belangrijke stap vertegenwoordigt naar LLMs die biochemische kennis coderen en een toekomstige rol zou kunnen hebben als een end-to-end tool in de pijplijn voor geneesmiddelenontdekking.
Dit artikel introduceert VALL-E 2, de nieuwste vooruitgang in neurale codec-taalmodellen die een mijlpaal markeert in zero-shot tekst-naar-spraaksynthese (TTS), waarbij voor het eerst menselijke pariteit wordt bereikt. Gebaseerd op zijn voorganger, VALL-E, introduceert deze nieuwe iteratie twee significante verbeteringen: Repetition Aware Sampling verfijnt het oorspronkelijke nucleus sampling-proces door rekening te houden met tokenherhaling in de decodeergeschiedenis. Het stabiliseert niet alleen het decoderen, maar omzeilt ook het probleem van oneindige lussen. Grouped Code Modeling organiseert codec-codes in groepen om de sequentielengte effectief te verkorten, wat niet alleen de inferentiesnelheid verhoogt, maar ook de uitdagingen van lange sequentiemodellering aanpakt. Onze experimenten op de LibriSpeech- en VCTK-datasets tonen aan dat VALL-E 2 eerdere systemen overtreft op het gebied van spraakrobustheid, natuurlijkheid en sprekersgelijkenis. Het is de eerste in zijn soort die menselijke pariteit bereikt op deze benchmarks. Bovendien synthetiseert VALL-E 2 consistent hoogwaardige spraak, zelfs voor zinnen die traditioneel uitdagend zijn vanwege hun complexiteit of repetitieve zinsdelen. De voordelen van dit werk kunnen bijdragen aan waardevolle inspanningen, zoals het genereren van spraak voor individuen met afasie of mensen met amyotrofische laterale sclerose. Demo's van VALL-E 2 zullen worden gepost op https://aka.ms/valle2.
Hoe mensen efficiënt en effectief afbeeldingen kunnen verwerven, is altijd een terugkerende vraag geweest. Een typische oplossing is tekst-naar-beeldretrieval uit een bestaande database op basis van een tekstquery; echter, de beperkte database mist meestal creativiteit. Daarentegen hebben recente doorbraken in tekst-naar-beeldgeneratie het mogelijk gemaakt om fantasierijke en diverse visuele inhoud te produceren, maar dit stuit op uitdagingen bij het synthetiseren van kennisintensieve afbeeldingen. In dit werk heroverwegen we de relatie tussen tekst-naar-beeldgeneratie en retrieval en stellen we een geïntegreerd framework voor in de context van Multimodale Grote Taalmodellen (MLLMs). Specifiek onderzoeken we eerst de intrinsieke discriminerende vermogens van MLLMs en introduceren we een generatieve retrievalmethode om retrieval uit te voeren op een trainingsvrije manier. Vervolgens integreren we generatie en retrieval in een autoregressieve generatiewijze en stellen we een autonoom beslissingsmodule voor om de best passende keuze te maken tussen gegenereerde en opgehaalde afbeeldingen als reactie op de tekstquery. Daarnaast construeren we een benchmark genaamd TIGeR-Bench, inclusief creatieve en kennisintensieve domeinen, om de evaluatie van geïntegreerde tekst-naar-beeldgeneratie en retrieval te standaardiseren. Uitgebreide experimentele resultaten op TIGeR-Bench en twee retrievalbenchmarks, namelijk Flickr30K en MS-COCO, demonstreren de superioriteit en effectiviteit van onze voorgestelde methode.
Moderne afstemmingstechnieken gebaseerd op menselijke voorkeuren, zoals RLHF en DPO, maken doorgaans gebruik van divergentie-regularisatie ten opzichte van het referentiemodel om de trainingsstabiliteit te waarborgen. Dit beperkt echter vaak de flexibiliteit van modellen tijdens het afstemmen, vooral wanneer er een duidelijke distributie-discrepantie bestaat tussen de voorkeursdata en het referentiemodel. In dit artikel richten we ons op de afstemming van recente tekst-naar-beeld diffusiemodellen, zoals Stable Diffusion XL (SDXL), en constateren we dat deze "referentiemismatch" inderdaad een significant probleem is bij het afstemmen van deze modellen vanwege de ongestructureerde aard van visuele modaliteiten: bijvoorbeeld kan een voorkeur voor een bepaald stilistisch aspect gemakkelijk zo'n discrepantie veroorzaken. Gemotiveerd door deze observatie stellen we een nieuwe en geheugenvriendelijke voorkeursafstemmingsmethode voor diffusiemodellen voor die niet afhankelijk is van een referentiemodel, genaamd margin-aware preference optimization (MaPO). MaPO maximaliseert gezamenlijk de waarschijnlijkheidsmarge tussen de geprefereerde en niet-geprefereerde beeldensets en de waarschijnlijkheid van de geprefereerde sets, waarbij tegelijkertijd algemene stilistische kenmerken en voorkeuren worden geleerd. Voor evaluatie introduceren we twee nieuwe gepaarde voorkeursdatasets, bestaande uit zelf gegenereerde beeldparen van SDXL, Pick-Style en Pick-Safety, die diverse scenario's van referentiemismatch simuleren. Onze experimenten valideren dat MaPO de afstemming op Pick-Style en Pick-Safety en algemene voorkeursafstemming bij gebruik met Pick-a-Pic v2 aanzienlijk kan verbeteren, waarbij het de basis-SDXL en andere bestaande methoden overtreft. Onze code, modellen en datasets zijn publiekelijk beschikbaar via https://mapo-t2i.github.io.
Grote taalmmodellen (LLMs) hebben indrukwekkende prestaties getoond op taalgerelateerde taken, maar worden geconfronteerd met uitdagingen wanneer ze worden ingezet op apparaten met beperkte bronnen vanwege hun uitgebreide parameters en afhankelijkheid van dichte vermenigvuldigingen, wat resulteert in hoge geheugeneisen en latentieproblemen. Shift-and-add herparameterisatie biedt een veelbelovende oplossing door kostbare vermenigvuldigingen te vervangen door hardwarevriendelijke primitieven in zowel de aandacht- als de multi-layer perceptron (MLP)-lagen van een LLM. Huidige herparameterisatietechnieken vereisen echter training vanaf nul of volledige parameterfine-tuning om de nauwkeurigheid te herstellen, wat resource-intensief is voor LLMs. Om dit aan te pakken, stellen we voor om vooraf getrainde LLMs te versnellen door post-training shift-and-add herparameterisatie, waardoor efficiënte vermenigvuldigingsvrije modellen worden gecreëerd, genaamd ShiftAddLLM. Specifiek kwantiseren we elke gewichtsmatrix in binaire matrices gepaard met groepsgewijze schalingsfactoren. De bijbehorende vermenigvuldigingen worden herparameteriseerd in (1) verschuivingen tussen activaties en schalingsfactoren en (2) queries en optellingen volgens de binaire matrices. Om nauwkeurigheidsverlies te verminderen, presenteren we een multi-objectieve optimalisatiemethode om zowel gewichts- als uitvoeractivatieherparameterisatiefouten te minimaliseren. Daarnaast ontwikkelen we, gebaseerd op variërende gevoeligheid over lagen voor herparameterisatie, een geautomatiseerde bitallocatiestrategie om geheugengebruik en latentie verder te verminderen. Experimenten op vijf LLM-families en acht taken valideren consistent de effectiviteit van ShiftAddLLM, met gemiddelde perplexiteitsverbeteringen van 5,6 en 22,7 punten bij vergelijkbare of lagere latentie in vergelijking met de meest competitieve gekwantiseerde LLMs op respectievelijk 3 en 2 bits, en meer dan 80% reductie in geheugen en energieverbruik ten opzichte van de originele LLMs. Codes en modellen zijn beschikbaar op https://github.com/GATECH-EIC/ShiftAddLLM.
Bestaande methoden voor herbelichtbare viewsynthese -- het gebruik van een set afbeeldingen van een object onder onbekende belichting om een 3D-representatie te herstellen die vanuit nieuwe gezichtspunten onder een doelbelichting kan worden weergegeven -- zijn gebaseerd op inverse rendering en proberen de objectgeometrie, materialen en belichting te ontwarren die de invoerafbeeldingen verklaren. Bovendien houdt dit typisch optimalisatie in via differentieerbare Monte Carlo-rendering, wat broos en rekenintensief is. In dit werk stellen we een eenvoudigere aanpak voor: we belichten eerst elke invoerafbeelding opnieuw met behulp van een beelddiffusiemodel dat is geconditioneerd op belichting en reconstrueren vervolgens een Neural Radiance Field (NeRF) met deze herbelichte afbeeldingen, waaruit we nieuwe views onder de doelbelichting renderen. We tonen aan dat deze strategie verrassend concurrerend is en state-of-the-art resultaten behaalt op meerdere herbelichtingsbenchmarks. Bezoek onze projectpagina op https://illuminerf.github.io/.
Het destilleren van grote latente diffusiemodellen (LDMs) naar modellen die snel te bemonsteren zijn, trekt steeds meer onderzoeksinteresse. Echter, de meeste bestaande methoden kampen met een dilemma waarbij ze ofwel (i) afhankelijk zijn van meerdere individueel gedistilleerde modellen voor verschillende bemonsteringsbudgetten, ofwel (ii) de generatiekwaliteit opofferen bij beperkte (bijv. 2-4) en/of matige (bijv. 5-8) bemonsteringsstappen. Om dit aan te pakken, breiden we de recente multistep consistentie-distillatie (MCD) strategie uit naar representatieve LDMs, en introduceren we de Multistep Latent Consistency Models (MLCMs) aanpak voor kosteneffectieve, hoogwaardige beeldgeneratie. MLCM fungeert als een uniform model voor verschillende bemonsteringsstappen dankzij de belofte van MCD. We versterken MCD verder met een progressieve trainingsstrategie om de consistentie tussen segmenten te verbeteren, wat de kwaliteit van generaties met weinig stappen bevordert. We gebruiken de toestanden uit de bemonsteringspaden van het leraarmodel als trainingsdata voor MLCMs om de vereisten voor hoogwaardige trainingsdatasets te verlichten en om de kloof tussen de training en inferentie van het gedistilleerde model te overbruggen. MLCM is compatibel met voorkeursleerstrategieën voor verdere verbetering van de visuele kwaliteit en esthetische aantrekkingskracht. Empirisch gezien kan MLCM hoogwaardige, aantrekkelijke beelden genereren met slechts 2-8 bemonsteringsstappen. Op de MSCOCO-2017 5K benchmark behaalt MLCM, gedistilleerd uit SDXL, een CLIP Score van 33.30, een Aesthetic Score van 6.19, en een Image Reward van 1.20 met slechts 4 stappen, wat aanzienlijk beter is dan 4-staps LCM [23], 8-staps SDXL-Lightning [17], en 8-staps HyperSD [33]. We demonstreren ook de veelzijdigheid van MLCMs in toepassingen zoals controleerbare generatie, beeldstijloverdracht en Chinees-naar-beeld generatie.
We stellen een nieuwe aanpak voor 3D-meshreconstructie vanuit meerdere beeldhoeken voor. Onze methode is geïnspireerd op grote reconstructiemodellen zoals LRM, die gebruikmaken van een transformer-gebaseerd triplane-generator en een Neural Radiance Field (NeRF)-model getraind op meerdere beeldhoeken. In onze methode introduceren we echter enkele belangrijke aanpassingen die het mogelijk maken om de kwaliteit van de 3D-reconstructie aanzienlijk te verbeteren. Ten eerste onderzoeken we de oorspronkelijke LRM-architectuur en identificeren we enkele tekortkomingen. Vervolgens introduceren we respectievelijke aanpassingen aan de LRM-architectuur, wat leidt tot een verbeterde representatie van meerdere beeldhoeken en een rekenkundig efficiëntere training. Ten tweede, om de geometriereconstructie te verbeteren en supervisie op volledige beeldresolutie mogelijk te maken, extraheren we meshes op een differentieerbare manier uit het NeRF-veld en finetunen we het NeRF-model via mesh-rendering. Deze aanpassingen stellen ons in staat om state-of-the-art prestaties te behalen op zowel 2D- als 3D-evaluatiemetrics, zoals een PSNR van 28.67 op de Google Scanned Objects (GSO)-dataset. Ondanks deze superieure resultaten heeft ons feed-forward model nog steeds moeite met het reconstrueren van complexe texturen, zoals tekst en portretten op objecten. Om dit aan te pakken, introduceren we een lichtgewicht per-instantie texture-verfijningsprocedure. Deze procedure finetunt de triplane-representatie en het NeRF-kleurestimatiemodel op het mesh-oppervlak met behulp van de invoerbeelden vanuit meerdere hoeken in slechts 4 seconden. Deze verfijning verbetert de PSNR tot 29.79 en zorgt voor een nauwkeurige reconstructie van complexe texturen, zoals tekst. Daarnaast maakt onze aanpak verschillende downstream-toepassingen mogelijk, waaronder tekst- of beeld-naar-3D-generatie.
Wij stellen ExtraNeRF voor, een nieuwe methode voor het extrapoleren van het bereik van gezichtspunten dat wordt behandeld door een Neural Radiance Field (NeRF). Onze hoofdgedachte is om NeRFs te benutten om scenespecifieke, fijnmazige details te modelleren, terwijl we gebruikmaken van diffusiemodellen om verder te gaan dan onze waargenomen data. Een belangrijk ingrediënt is het bijhouden van zichtbaarheid om te bepalen welke delen van de scene niet zijn waargenomen, en ons te richten op het consistent reconstrueren van die regio's met diffusiemodellen. Onze primaire bijdragen omvatten een zichtbaarheidsbewust diffusiegebaseerd inpainting-module dat is afgestemd op de invoerbeelden, wat resulteert in een initiële NeRF met matige kwaliteit (vaak wazige) ingevulde regio's, gevolgd door een tweede diffusiemodel getraind op de invoerbeelden om de ingevulde beelden van de eerste ronde consistent te verbeteren, met name te verscherpen. We demonstreren hoogwaardige resultaten, waarbij we verder gaan dan een klein aantal (meestal zes of minder) invoergezichtspunten, effectief outpainten van de NeRF evenals inpainten van nieuw ontdekte regio's binnen het oorspronkelijke kijkvolume. We vergelijken met gerelateerd werk zowel kwantitatief als kwalitatief en laten aanzienlijke verbeteringen zien ten opzichte van de stand van de techniek.