Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Bedrijfsdocumenten zoals formulieren, facturen, bonnen, rapporten, contracten en andere soortgelijke dossiers bevatten vaak rijke semantiek op het snijvlak van tekstuele en ruimtelijke modaliteiten. De visuele aanwijzingen die worden geboden door hun complexe lay-outs spelen een cruciale rol bij het effectief begrijpen van deze documenten. In dit artikel presenteren we DocLLM, een lichtgewicht uitbreiding van traditionele grote taalmodelen (LLMs) voor redeneren over visuele documenten, waarbij zowel tekstuele semantiek als ruimtelijke lay-out in aanmerking wordt genomen. Ons model verschilt van bestaande multimodale LLMs door dure beeldencoders te vermijden en zich uitsluitend te richten op begrenzingskaderinformatie om de ruimtelijke lay-outstructuur te integreren. Specifiek wordt de kruisalignering tussen tekst en ruimtelijke modaliteiten vastgelegd door het aandachtmechanisme in klassieke transformers te ontbinden in een set ontvlochten matrices. Bovendien ontwikkelen we een pre-trainingsdoelstelling die leert om tekstsegmenten in te vullen. Deze aanpak stelt ons in staat om onregelmatige lay-outs en heterogene inhoud die vaak voorkomen in visuele documenten aan te pakken. Het vooraf getrainde model wordt verfijnd met behulp van een grootschalige instructiedataset, die vier kern taken van documentintelligentie omvat. We tonen aan dat onze oplossing SotA LLMs overtreft op 14 van de 16 datasets voor alle taken, en goed generaliseert naar 4 van de 5 voorheen onbekende datasets.
In dit artikel introduceren we een nieuwe en eenvoudige methode voor het verkrijgen van hoogwaardige tekstembeddingen met alleen synthetische data en minder dan 1.000 trainingsstappen. In tegenstelling tot bestaande methoden die vaak afhankelijk zijn van meerfasige voorafgaande training met miljarden zwak begeleide tekstparen, gevolgd door fine-tuning met enkele gelabelde datasets, vereist onze methode niet het opbouwen van complexe trainingspijplijnen of het vertrouwen op handmatig verzamelde datasets die vaak beperkt zijn door taakdiversiteit en taaldekking. We maken gebruik van propriëtaire LLM's om diverse synthetische data te genereren voor honderdduizenden tekstembeddingstaken in bijna 100 talen. Vervolgens fine-tunen we open-source decoder-only LLM's op de synthetische data met behulp van standaard contrastief verlies. Experimenten tonen aan dat onze methode sterke prestaties behaalt op zeer competitieve tekstembeddingbenchmarks zonder gebruik te maken van gelabelde data. Bovendien, wanneer gefinetuned met een mix van synthetische en gelabelde data, stelt ons model nieuwe state-of-the-art resultaten op de BEIR- en MTEB-benchmarks.
Het benutten van de kracht van door mensen geannoteerde gegevens via Supervised Fine-Tuning (SFT) is cruciaal voor de vooruitgang van Large Language Models (LLM's). In dit artikel onderzoeken we de mogelijkheid om een sterke LLM te ontwikkelen vanuit een zwakke, zonder de noodzaak van het verkrijgen van aanvullende door mensen geannoteerde gegevens. We stellen een nieuwe fine-tuning methode voor genaamd Self-Play fIne-tuNing (SPIN), die start vanuit een supervised fine-tuned model. De kern van SPIN ligt in een zelfspelmechanisme, waarbij de LLM zijn capaciteiten verfijnt door tegen instanties van zichzelf te spelen. Meer specifiek genereert de LLM zijn eigen trainingsgegevens vanuit zijn vorige iteraties, en verfijnt zijn beleid door deze zelf gegenereerde reacties te onderscheiden van die verkregen uit door mensen geannoteerde gegevens. Onze methode verheft de LLM progressief van een beginnend model naar een formidabel model, waarbij het volledige potentieel van door mensen geannoteerde demonstratiegegevens voor SFT wordt ontsloten. Theoretisch bewijzen we dat het globale optimum van de trainingsdoelfunctie van onze methode alleen wordt bereikt wanneer het LLM-beleid overeenkomt met de doelgegevensverdeling. Empirisch evalueren we onze methode op verschillende benchmarkdatasets, waaronder de HuggingFace Open LLM Leaderboard, MT-Bench en datasets van Big-Bench. Onze resultaten tonen aan dat SPIN de prestaties van de LLM aanzienlijk kan verbeteren over een verscheidenheid aan benchmarks en zelfs modellen kan overtreffen die zijn getraind via directe voorkeursoptimalisatie (DPO) aangevuld met extra GPT-4 voorkeursgegevens. Dit werpt licht op de belofte van zelfspel, waardoor het bereiken van menselijk prestatieniveau in LLM's mogelijk wordt zonder de noodzaak van experttegenstanders.
De laatste tijd zijn er aanzienlijke vooruitgangen geboekt in grote taalmodelen (LLMs), zoals geïllustreerd door ChatGPT, die opmerkelijke vaardigheden vertonen in een reeks complexe taken. Echter, veel gangbare LLMs (bijv. LLaMA) zijn voorgetraind op Engelstalige corpora, wat hun prestaties in andere niet-Engelse talen beperkt. In dit artikel richten we ons op hoe we de capaciteiten van taalgeneratie en het volgen van instructies effectief kunnen overbrengen naar een niet-Engelse taal. Om deze vraag te beantwoorden, voeren we een uitgebreid empirisch onderzoek uit op basis van LLaMA, waarbij we meer dan 1440 GPU-uren accumuleren. We analyseren de impact van belangrijke factoren zoals vocabulaire-uitbreiding, verdere voorpretraining en instructieafstemming op de overdracht. Om het kennisniveau van het model nauwkeurig te beoordelen, gebruiken we vier veelgebruikte gestandaardiseerde testbenchmarks: C-Eval, MMLU, AGI-Eval en GAOKAO-Bench. Daarnaast wordt een uitgebreide evaluatie van de kwaliteit van de reacties van het model uitgevoerd, waarbij aspecten zoals nauwkeurigheid, vloeiendheid, informatiefheid, logische samenhang en onschadelijkheid worden overwogen, gebaseerd op LLM-Eval, een benchmark bestaande uit instructietaken uit 17 diverse categorieën. Onze evaluatieresultaten tonen aan dat vergelijkbare prestaties met state-of-the-art overdrachtsmodellen kunnen worden bereikt met minder dan 1% van de voorpretrainingsgegevens, zowel wat betreft kennisafstemming als reactiekwaliteit. Bovendien vertonen de experimentele resultaten over de dertien talen met beperkte bronnen vergelijkbare trends. We verwachten dat de conclusies die door de experimenten worden onthuld, de gemeenschap zullen helpen bij het ontwikkelen van niet-Engelse LLMs.
Schaalwetten voor grote taalmodellen (LLM's) zijn empirische formules die veranderingen in modelkwaliteit schatten als gevolg van een toenemend aantal parameters en trainingsdata. Deze formules, inclusief de populaire DeepMind Chinchilla-schaalwetten, houden echter geen rekening met de kosten van inferentie. Wij passen de Chinchilla-schaalwetten aan om het optimale aantal LLM-parameters en de optimale omvang van de pre-trainingsdata te berekenen voor het trainen en implementeren van een model met een gegeven kwaliteit en inferentievraag. We voeren onze analyse uit in termen van een rekenbudget en reële kosten, en concluderen dat LLM-onderzoekers die een redelijk grote inferentievraag verwachten (~1 miljard verzoeken), modellen kleiner en langer moeten trainen dan Chinchilla-optimaal.
Dit werk benut de inherente mogelijkheid van LLM's om lange contexten te verwerken zonder fine-tuning. De beperkte lengte van de trainingssequentie tijdens het trainen kan de toepassing van Large Language Models (LLM's) op lange invoersequenties voor inferentie beperken. In dit werk stellen we dat bestaande LLM's zelf inherente mogelijkheden hebben voor het verwerken van lange contexten. Op basis van dit argument suggereren we om het contextvenster van LLM's zelf uit te breiden om het inherente vermogen volledig te benutten. We stellen Self-Extend voor om het potentieel van LLM's voor het verwerken van lange contexten te stimuleren. Het basisidee is om tweelaagse aandachtinformatie te construeren: het groepsniveau en het buurniveau. De twee niveaus worden berekend door de self-attention van het oorspronkelijke model, wat betekent dat de voorgestelde methode geen training vereist. Met slechts vier regels codeaanpassing kan de voorgestelde methode moeiteloos het contextvenster van bestaande LLM's uitbreiden zonder enige fine-tuning. We voeren uitgebreide experimenten uit en de resultaten tonen aan dat de voorgestelde methode effectief de lengte van het contextvenster van bestaande LLM's kan uitbreiden.
De hoge kosten van volledige parameterfine-tuning (FFT) van Large Language Models (LLM's) hebben geleid tot een reeks parameter-efficiënte fine-tuningmethoden (PEFT). Het blijft echter onduidelijk welke methoden de beste balans tussen kosten en prestaties bieden bij verschillende modelschalen. Wij introduceren Astraios, een suite van 28 instructie-getunede OctoCoder-modellen die gebruikmaken van 7 tuningsmethoden en 4 modelschalen tot 16 miljard parameters. Door onderzoek over 5 taken en 8 verschillende datasets, die zowel codebegrip als codegeneratietaken omvatten, ontdekken we dat FFT over het algemeen leidt tot de beste downstreamprestaties op alle schalen, en dat PEFT-methoden aanzienlijk verschillen in hun effectiviteit afhankelijk van de modelschaal. LoRA biedt meestal de meest gunstige balans tussen kosten en prestaties. Verder onderzoek naar de effecten van deze methoden op zowel modelrobustheid als codebeveiliging onthult dat grotere modellen de neiging hebben om verminderde robuustheid en minder beveiliging te vertonen. Tot slot verkennen we de relaties tussen bijgewerkte parameters, kruis-entropieverlies en taakprestaties. We ontdekken dat de tuningeffectiviteit die wordt waargenomen bij kleine modellen goed generaliseert naar grotere modellen, en dat het validatieverlies bij instructietuning een betrouwbare indicator kan zijn van de algehele downstreamprestaties.
Large Language Models (LLMs) hebben buitengewone capaciteiten getoond in het begrijpen en genereren van tekst die nauw aansluit bij menselijke communicatie. Een belangrijke beperking ligt echter in de aanzienlijke rekenkundige eisen tijdens de training, die voortkomen uit hun uitgebreide parameterisering. Deze uitdaging wordt verder versterkt door de dynamische aard van de wereld, waardoor frequente updates van LLMs nodig zijn om verouderde informatie te corrigeren of nieuwe kennis te integreren, zodat hun relevantie behouden blijft. Merk op dat veel toepassingen voortdurende aanpassingen van het model na de training vereisen om tekortkomingen of ongewenst gedrag aan te pakken. Er is een groeiende interesse in efficiënte, lichtgewicht methoden voor het aanpassen van modellen op de vlucht. In dit opzicht is er de laatste jaren een bloei in de technieken van kennisbewerking voor LLMs, die tot doel hebben om het gedrag van LLMs efficiënt aan te passen binnen specifieke domeinen, terwijl de algehele prestaties over verschillende inputs behouden blijven. In dit artikel definiëren we eerst het probleem van kennisbewerking en bieden we vervolgens een uitgebreid overzicht van state-of-the-art benaderingen. Geïnspireerd door onderwijs- en cognitieve onderzoeks-theorieën, stellen we een uniform categorisatiecriterium voor dat kennisbewerkingsmethoden indeelt in drie groepen: terugvallen op externe kennis, kennis integreren in het model en intrinsieke kennis bewerken. Verder introduceren we een nieuwe benchmark, KnowEdit, voor een uitgebreide empirische evaluatie van representatieve kennisbewerkingsbenaderingen. Daarnaast bieden we een diepgaande analyse van kennislocatie, die een dieper inzicht kan geven in de kennisstructuren die inherent zijn aan LLMs. Tot slot bespreken we verschillende potentiële toepassingen van kennisbewerking en schetsen we de brede en impactvolle implicaties ervan.
De recente innovaties en doorbraken in diffusiemodellen hebben de mogelijkheden voor het genereren van hoogwaardige video's aanzienlijk uitgebreid voor de gegeven prompts. De meeste bestaande werken richten zich op het scenario met één scène, waarbij slechts één video-evenement plaatsvindt in een enkele achtergrond. Het uitbreiden naar het genereren van multi-scène video's is echter niet triviaal en vereist een goede beheersing van de logica ertussen, terwijl de consistente visuele verschijning van de belangrijkste inhoud over de video-scènes behouden blijft. In dit artikel stellen we een nieuw framework voor, genaamd VideoDrafter, voor het genereren van inhoudsconsistente multi-scène video's. Technisch gezien maakt VideoDrafter gebruik van Large Language Models (LLM) om de invoerprompt om te zetten in een uitgebreid multi-scène script dat profiteert van de logische kennis die door LLM is geleerd. Het script voor elke scène omvat een prompt die het evenement beschrijft, de entiteiten op de voorgrond/achtergrond, evenals camerabeweging. VideoDrafter identificeert de gemeenschappelijke entiteiten in het script en vraagt LLM om elke entiteit gedetailleerd te beschrijven. De resulterende entiteitsbeschrijving wordt vervolgens ingevoerd in een tekst-naar-beeldmodel om een referentiebeeld voor elke entiteit te genereren. Ten slotte produceert VideoDrafter een multi-scène video door elke scène-video te genereren via een diffusieproces dat rekening houdt met de referentiebeelden, de beschrijvende prompt van het evenement en de camerabeweging. Het diffusiemodel neemt de referentiebeelden op als voorwaarde en uitlijning om de inhoudsconsistentie van multi-scène video's te versterken. Uitgebreide experimenten tonen aan dat VideoDrafter de state-of-the-art video-generatiemodellen overtreft op het gebied van visuele kwaliteit, inhoudsconsistentie en gebruikersvoorkeur.
In de evolutie van Vision-Language Pre-training is de verschuiving van korte-tekstbegrip naar het omvatten van uitgebreide tekstuele contexten cruciaal. Recente autoregressieve vision-language modellen zoals Flamingo en PALME, die gebruikmaken van de lange-contextcapaciteit van Large Language Models, hebben uitblinkt in few-shot tekstgeneratietaken, maar kampen met uitdagingen in alignmenttaken. Om deze kloof te overbruggen, introduceren we het contrastieve verlies in tekstgeneratiemodellen en presenteren het COntrastive-Streamlined MultimOdal framework (\ModelName), waarbij het taalmodel strategisch wordt opgedeeld in toegewijde unimodale tekstverwerking en bekwame multimodale gegevensverwerkingscomponenten. \ModelName, ons geïntegreerde framework, combineert unimodale en multimodale elementen, wat de modelprestaties verbetert voor taken die tekstuele en visuele gegevens betreffen, terwijl het aantal leerbare parameters aanzienlijk wordt verminderd. Deze modellen vereisen echter uitgebreide lange-tekst datasets, maar de beschikbaarheid van hoogwaardige lange-tekst videodatasets blijft beperkt. Om deze kloof te overbruggen, introduceert dit werk \VideoDatasetName, een baanbrekende interleaved video-tekst dataset met uitgebreide bijschriften, wat een belangrijke stap vooruit betekent. We demonstreren de impact ervan door te illustreren hoe het de modelprestaties verbetert in beeld-tekst taken. Met 34% leerbare parameters en gebruikmakend van 72% van de beschikbare gegevens, toont ons model een aanzienlijke superioriteit ten opzichte van OpenFlamingo~openflamingo. Bijvoorbeeld, in de 4-shot Flickr-captioningtaak verbetert de prestatie aanzienlijk van 57,2% naar 65%. De bijdragen van \ModelName en \VideoDatasetName worden onderstreept door opmerkelijke prestatieverbeteringen over 14 diverse downstream datasets, die zowel beeld-tekst als video-tekst taken omvatten.
Binnen recente benaderingen voor tekst-naar-video (T2V) generatie is het bereiken van controleerbaarheid in de gesynthetiseerde video vaak een uitdaging. Typisch wordt dit probleem aangepakt door laagniveau begeleiding per frame te bieden in de vorm van randkaarten, dieptekaarten of een bestaande video die moet worden aangepast. Het verkrijgen van dergelijke begeleiding kan echter arbeidsintensief zijn. Dit artikel richt zich op het verbeteren van controleerbaarheid in videosynthese door eenvoudige begrenzingsvakken te gebruiken om het onderwerp op verschillende manieren te sturen, zonder de noodzaak van neurale netwerktraining, finetuning, optimalisatie tijdens inferentie of het gebruik van bestaande video's. Ons algoritme, TrailBlazer, is gebouwd op een vooraf getraind (T2V) model en eenvoudig te implementeren. Het onderwerp wordt gestuurd door een begrenzingsvak via de voorgestelde ruimtelijke en temporele aandachtkaartbewerking. Bovendien introduceren we het concept van keyframing, waardoor de trajectorie van het onderwerp en het algemene uiterlijk kunnen worden gestuurd door zowel een bewegend begrenzingsvak als bijbehorende prompts, zonder dat een gedetailleerd masker nodig is. De methode is efficiënt, met verwaarloosbare extra berekening ten opzichte van het onderliggende vooraf getrainde model. Ondanks de eenvoud van de begrenzingsvakbegeleiding, is de resulterende beweging verrassend natuurlijk, met opkomende effecten zoals perspectief en beweging richting de virtuele camera naarmate de vakgrootte toeneemt.
Grote taalmodellen (LLMs) hebben aanzienlijke vooruitgang geboekt in natuurlijke taalverwerking en breiden tegelijkertijd de taalvaardigheid uit naar andere modaliteiten, zoals spraak en visie. Desalniettemin richt het merendeel van het eerdere werk zich op het aansturen van LLMs met perceptievaardigheden zoals auditief begrip, en de effectieve aanpak voor het versterken van LLMs met spraaksynthesecapaciteiten blijft onduidelijk. In dit artikel voeren we een uitgebreid empirisch onderzoek uit naar het verbeteren van LLMs met de mogelijkheid om spraak te genereren, door het combineren van vooraf getrainde LLM LLaMA/OPT en het tekst-naar-spraaksynthesemodel VALL-E. We vergelijken drie integratiemethoden tussen LLMs en spraaksynthesemodellen, waaronder direct gefinetunde LLMs, gestapelde lagen van LLMs en VALL-E, en gekoppelde LLMs en VALL-E waarbij LLMs worden gebruikt als een krachtige tekstencoder. Experimentele resultaten tonen aan dat het gebruik van de LoRA-methode om LLMs direct te finetunen voor het verbeteren van de spraaksynthesecapaciteit niet goed werkt, en dat gestapelde LLMs en VALL-E de kwaliteit van gegenereerde spraak kunnen verbeteren, zowel in sprekersgelijkenis als in woordfoutenpercentage (WER). Van deze drie methoden presteren de gekoppelde methoden die LLMs als tekstencoder gebruiken het beste, waardoor het de originele spraaksynthesemodellen overtreft met een consistent betere sprekersgelijkenis en een significante (10,9%) vermindering van het WER.
Het trainen van grootschalige taalmodelen wordt steeds belangrijker in diverse domeinen, maar wordt belemmerd door frequente storingen, wat leidt tot aanzienlijke tijd- en economische kosten. Huidige methoden voor storingsherstel in cloudomgevingen schieten tekort in het aanpakken van de diverse en complexe scenario's die zich voordoen, waarbij ze zich beperken tot het minimaliseren van uitvaltijd voor individuele taken zonder rekening te houden met de algehele kostenimpact op een cluster. Wij introduceren Unicron, een workloadmanager die is ontworpen voor efficiënt zelfherstellend vermogen bij het trainen van grootschalige taalmodelen. Unicron optimaliseert het trainingsproces door storingsgerelateerde kosten te minimaliseren over meerdere gelijktijdige taken binnen een cluster. De belangrijkste kenmerken omvatten in-band foutdetectie voor realtime foutidentificatie zonder extra overhead, een dynamisch kostenbewust plan-generatiemechanisme voor optimale herconfiguratie, en een efficiënte overgangsstrategie om uitvaltijd tijdens staatsovergangen te verminderen. Geïmplementeerd op een gedistribueerd cluster van 128 GPU's, toont Unicron een verbetering van tot 1,9x in trainings efficiëntie vergeleken met state-of-the-art methoden, waardoor de kosten voor storingsherstel aanzienlijk worden verlaagd en de betrouwbaarheid van het trainen van grootschalige taalmodelen wordt verbeterd.
Grote taalmodellen (LLMs) hebben enorm succes geboekt vanwege hun algemene kennis en het vermogen om een breed scala aan taken in natuurlijke taalverwerking (NLP) op te lossen. Vanwege hun indrukwekkende capaciteiten hebben LLMs licht geworpen op potentiële interdisciplinaire toepassingen om wetenschappelijke ontdekkingen in een specifiek domein te bevorderen door middel van kunstmatige intelligentie (AI for science, AI4S). Tegelijkertijd is het gebruik van NLP-technieken in geowetenschappelijk onderzoek en praktijk breed en complex, variërend van kennis extractie en documentclassificatie tot vraagbeantwoording en kennisontdekking. In dit werk zetten we de eerste stap om LLM voor wetenschap te benutten, via een vrij eenvoudige aanpak. We proberen een LLM te specialiseren in de geowetenschappen, door het model verder voor te trainen met een grote hoeveelheid teksten in de geowetenschappen, evenals door het resulterende model te verfijnen met behulp van ons zelf samengestelde instructieafstemmingsdataset (supervised fine-tuning, SFT). Deze inspanningen resulteren in een model genaamd GeoGalactica, bestaande uit 30 miljard parameters. Voor zover wij weten, is dit het grootste taalmodel voor het domein van de geowetenschappen. Meer specifiek is GeoGalactica het resultaat van verdere voor training van Galactica. We trainen GeoGalactica over een geowetenschappelijk tekstcorpus met 65 miljard tokens, samengesteld uit uitgebreide databronnen in het big science-project Deep-time Digital Earth (DDE), wat het grootste geowetenschappelijk-specifieke tekstcorpus vormt. Vervolgens verfijnen we het model met 1 miljoen paren van instructieafstemmingsdata bestaande uit vragen die professionele geowetenschappelijke kennis vereisen om te beantwoorden. In dit technische rapport zullen we alle aspecten van GeoGalactica gedetailleerd illustreren, inclusief dataverzameling, datareiniging, selectie van het basismodel, voor training, SFT en evaluatie. We maken onze data-curatietools en de checkpoints van GeoGalactica tijdens de eerste 3/4 van de voor training openbaar.
Met de snelle evolutie van het Text-to-Image (T2I)-model in recente jaren is hun onbevredigende generatieresultaat een uitdaging geworden. Het uniform verfijnen van AI-gegenereerde afbeeldingen (AIGIs) van verschillende kwaliteiten beperkt echter niet alleen de optimalisatiemogelijkheden voor AIGIs van lage kwaliteit, maar brengt ook negatieve optimalisatie met zich mee voor AIGIs van hoge kwaliteit. Om dit probleem aan te pakken, is een kwaliteitsbelonende verfijner genaamd Q-Refine voorgesteld. Gebaseerd op de voorkeur van het menselijk visuele systeem (HVS), gebruikt Q-Refine voor het eerst de Image Quality Assessment (IQA)-metriek om het verfijningsproces te sturen en past het afbeeldingen van verschillende kwaliteiten aan via drie adaptieve pijplijnen. Experimenten tonen aan dat Q-Refine voor mainstream T2I-modellen effectieve optimalisatie kan uitvoeren op AIGIs van verschillende kwaliteiten. Het kan een algemene verfijner zijn om AIGIs te optimaliseren op zowel het niveau van trouwheid als esthetische kwaliteit, waardoor de toepassing van T2I-generatiemodellen wordt uitgebreid.
Score-distillatie is naar voren gekomen als een van de meest voorkomende benaderingen voor tekst-naar-3D-asset-synthese. In essentie werkt score-distillatie door 3D-parameters bij te werken door scores die gemiddeld zijn over verschillende aanzichten te liften en terug te propageren. In dit artikel laten we zien dat de schattingsgradiënt in score-distillatie inherent is aan een hoge variantie. Door de lens van variantiereductie kan de effectiviteit van SDS en VSD worden geïnterpreteerd als toepassingen van verschillende controle-variabelen op de Monte Carlo-schatter van de gedistilleerde score. Gemotiveerd door deze herziening en gebaseerd op Stein's identiteit, stellen we een meer algemene oplossing voor om de variantie voor score-distillatie te verminderen, genaamd Stein Score Distillatie (SSD). SSD integreert controle-variabelen die zijn geconstrueerd met Stein's identiteit, waardoor willekeurige basislijnfuncties mogelijk zijn. Dit stelt ons in staat om flexibele begeleidingsprioriteiten en netwerkarchitecturen op te nemen om expliciet te optimaliseren voor variantiereductie. In onze experimenten wordt de algehele pipeline, genaamd SteinDreamer, geïmplementeerd door de controle-variabele te instantiëren met een monocular diepteschatter. De resultaten suggereren dat SSD effectief de distillatievariantie kan verminderen en consistent de visuele kwaliteit verbetert voor zowel object- als scèneniveau-generatie. Bovendien tonen we aan dat SteinDreamer snellere convergentie bereikt dan bestaande methoden dankzij stabielere gradiëntupdates.