Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren Magicoder, een reeks volledig open-source (code, gewichten en data) Large Language Models (LLMs) voor code die de kloof met de beste codemodellen aanzienlijk verkleinen, terwijl ze niet meer dan 7B parameters hebben. Magicoder-modellen zijn getraind op 75K synthetische instructiedata met behulp van OSS-Instruct, een nieuwe benadering om LLMs te verlichten met open-source codefragmenten om hoogwaardige instructiedata voor code te genereren. Onze belangrijkste motivatie is om de inherente bias van de synthetische data die door LLMs wordt gegenereerd te verminderen, door ze te voorzien van een overvloed aan open-source referenties voor het produceren van meer diverse, realistische en controleerbare data. De orthogonaliteit van OSS-Instruct en andere datageneratiemethoden zoals Evol-Instruct stelt ons in staat om een verbeterde MagicoderS te bouwen. Zowel Magicoder als MagicoderS presteren aanzienlijk beter dan state-of-the-art codemodellen van vergelijkbare of zelfs grotere omvang op een breed scala aan codeerbenchmarks, waaronder Python tekst-naar-code generatie, meertalig coderen en data-science programma-afronding. Opmerkelijk is dat MagicoderS-CL-7B, gebaseerd op CodeLlama, zelfs de prominente ChatGPT overtreft op HumanEval+ (66,5 vs. 65,9 in pass@1). Over het algemeen opent OSS-Instruct een nieuwe richting voor instructieafstemming met lage bias en hoge kwaliteit door gebruik te maken van overvloedige open-source referenties.
Text-to-video diffusiemodellen hebben de videogeneratie aanzienlijk vooruitgebracht. Het aanpassen van deze modellen om video's met op maat gemaakte bewegingen te genereren, vormt echter een aanzienlijke uitdaging. Specifiek lopen ze tegen problemen aan bij (a) het nauwkeurig reproduceren van bewegingen uit een doelvideo, en (b) het creëren van diverse visuele variaties. Zo leiden eenvoudige uitbreidingen van methoden voor het aanpassen van statische afbeeldingen aan video vaak tot ingewikkelde verstrengelingen van uiterlijk en bewegingsdata. Om dit aan te pakken, presenteren wij hier het Video Motion Customization (VMC) framework, een nieuwe one-shot afstemmingsmethode ontworpen om tijdelijke aandachtslagen binnen videodiffusiemodellen aan te passen. Onze aanpak introduceert een nieuw bewegingsdistillatiedoel met behulp van restvectoren tussen opeenvolgende frames als bewegingsreferentie. Het diffusieproces behoudt vervolgens laagfrequente bewegingsbanen terwijl hoogfrequente bewegingsonafhankelijke ruis in de beeldruimte wordt verminderd. We valideren onze methode tegen state-of-the-art videogeneratieve modellen in diverse real-world bewegingen en contexten. Onze codes, data en de projectdemo zijn te vinden op https://video-motion-customization.github.io.
Dit onderzoek richt zich op identiteit-behoudende beeld synthese, een intrigerende taak binnen beeldgeneratie die streeft naar het behouden van de identiteit van een onderwerp terwijl er een gepersonaliseerde, stijlvolle toets wordt toegevoegd. Traditionele methoden, zoals Textual Inversion en DreamBooth, hebben vooruitgang geboekt in het maken van aangepaste beelden, maar ze hebben aanzienlijke nadelen. Deze omvatten de behoefte aan uitgebreide middelen en tijd voor fine-tuning, evenals de vereiste van meerdere referentiebeelden. Om deze uitdagingen te overwinnen, introduceert ons onderzoek een nieuwe aanpak voor identiteit-behoudende synthese, met een specifieke focus op menselijke beelden. Ons model maakt gebruik van een direct feed-forward mechanisme, waardoor de noodzaak voor intensieve fine-tuning wordt omzeild, wat snelle en efficiënte beeldgeneratie mogelijk maakt. Centraal in onze innovatie staat een hybride begeleidingsraamwerk, dat gestileerde beelden, gezichtsbeelden en tekstuele prompts combineert om het beeldgeneratieproces te sturen. Deze unieke combinatie stelt ons model in staat om een verscheidenheid aan toepassingen te produceren, zoals artistieke portretten en identiteit-gemengde beelden. Onze experimentele resultaten, inclusief zowel kwalitatieve als kwantitatieve evaluaties, tonen de superioriteit van onze methode aan ten opzichte van bestaande basislijnmodellen en eerdere werken, met name in zijn opmerkelijke efficiëntie en het vermogen om de identiteit van het onderwerp met hoge trouw te behouden.
Het afstemmingsproces van grote taalmodellen (LLMs) omvat doorgaans instructie-aanleren via supervised fine-tuning (SFT) en voorkeursafstemming via reinforcement learning from human feedback (RLHF). Een recente studie, LIMA (Zhou et al. 2023), toont aan dat het gebruik van slechts 1K voorbeelden voor SFT ook een aanzienlijke afstemmingsprestatie kan bereiken, wat suggereert dat het effect van afstemming mogelijk "oppervlakkig" is. Dit roept vragen op over hoe precies de afstemming een basis-LLM transformeert. Wij analyseren het effect van afstemming door de verschuiving in tokenverdeling tussen basis-LLMs en hun afgestemde tegenhangers te onderzoeken. Onze bevindingen laten zien dat basis-LLMs en hun afgestemde versies vrijwel identiek presteren bij het decoderen van de meeste tokenposities. De meeste verschuivingen in verdeling treden op bij stijltokens. Dit directe bewijs ondersteunt sterk de Superficial Alignment Hypothesis die door LIMA wordt gesuggereerd. Op basis van deze bevindingen heroverwegen we de afstemming van LLMs door de onderzoeksvraag te stellen: hoe effectief kunnen we basis-LLMs afstemmen zonder SFT of RLHF? Om dit aan te pakken, introduceren we een eenvoudige, afstemmingsvrije methode, URIAL. URIAL bereikt effectieve afstemming puur door in-context learning (ICL) met basis-LLMs, waarbij slechts drie constante stijlvoorbeelden en een systeemprompt nodig zijn. We voeren een fijnmazige en interpreteerbare evaluatie uit op een diverse set voorbeelden, genaamd JUST-EVAL-INSTRUCT. De resultaten tonen aan dat basis-LLMs met URIAL de prestaties van LLMs die zijn afgestemd met SFT of SFT+RLHF kunnen evenaren of zelfs overtreffen. We laten zien dat het verschil tussen afstemmingsvrije en afstemmingsgebaseerde methoden aanzienlijk kan worden verkleind door strategische prompting en ICL. Onze bevindingen over de oppervlakkige aard van afstemming en de resultaten met URIAL suggereren dat een diepere analyse en theoretisch begrip van afstemming cruciaal is voor toekomstig LLM-onderzoek.
Diffusiemodellen hebben recentelijk ongekende aandacht gekregen op het gebied van beeldgeneratie vanwege hun opmerkelijke generatieve capaciteiten. Ondanks hun kracht brengen deze modellen vaak aanzienlijke rekenkosten met zich mee, voornamelijk toe te schrijven aan het sequentiële ruisverwijderingsproces en de omvangrijke modelgrootte. Traditionele methoden voor het comprimeren van diffusiemodellen vereisen doorgaans uitgebreide hertraining, wat kosten- en haalbaarheidsuitdagingen met zich meebrengt. In dit artikel introduceren we DeepCache, een nieuw trainingsvrij paradigma dat diffusiemodellen versnelt vanuit het perspectief van modelarchitectuur. DeepCache maakt gebruik van de inherente temporele redundantie die wordt waargenomen in de sequentiële ruisverwijderingsstappen van diffusiemodellen, waarbij kenmerken worden opgeslagen en opgehaald tussen aangrenzende ruisverwijderingsfasen, waardoor overbodige berekeningen worden beperkt. Door gebruik te maken van de eigenschappen van de U-Net, hergebruiken we de hoogwaardige kenmerken terwijl we de laagwaardige kenmerken op een zeer efficiënte manier bijwerken. Deze innovatieve strategie maakt een versnellingsfactor van 2,3 keer mogelijk voor Stable Diffusion v1.5 met slechts een daling van 0,05 in de CLIP Score, en 4,1 keer voor LDM-4-G met een lichte afname van 0,22 in FID op ImageNet. Onze experimenten tonen ook de superioriteit van DeepCache aan ten opzichte van bestaande pruning- en distillatiemethoden die hertraining vereisen, evenals de compatibiliteit met huidige samplingtechnieken. Bovendien blijkt dat bij dezelfde doorvoer DeepCache effectief vergelijkbare of zelfs licht verbeterde resultaten behaalt met DDIM of PLMS. De code is beschikbaar op https://github.com/horseee/DeepCache.
Huidige op diffusie gebaseerde videobewerking richt zich voornamelijk op structuurbehoudende bewerking door gebruik te maken van diverse dichte correspondenties om tijdelijke consistentie en bewegingsuitlijning te waarborgen. Deze benaderingen zijn echter vaak niet effectief wanneer de doelbewerking een vormverandering inhoudt. Om videobewerking met vormverandering aan te pakken, onderzoeken we in dit werk het op maat maken van videosubjectverwisseling, waarbij we ernaar streven het hoofdonderwerp in een bronvideo te vervangen door een doelonderwerp met een afwijkende identiteit en mogelijk een andere vorm. In tegenstelling tot eerdere methoden die afhankelijk zijn van dichte correspondenties, introduceren we het VideoSwap-framework dat gebruikmaakt van semantische puntcorrespondenties, geïnspireerd door onze observatie dat slechts een klein aantal semantische punten nodig is om de bewegingsbaan van het onderwerp uit te lijnen en de vorm ervan aan te passen. We introduceren ook diverse gebruikerspuntinteracties (\bijvoorbeeld punten verwijderen en punten verslepen) om verschillende semantische puntcorrespondenties aan te pakken. Uitgebreide experimenten tonen state-of-the-art resultaten voor videosubjectverwisseling aan in een verscheidenheid aan real-world video's.
We stellen een methode voor om het Segment Anything Model (SAM) efficiënt uit te rusten met de mogelijkheid om regionale bijschriften te genereren. SAM toont een sterke generaliseerbaarheid om alles te segmenteren, maar is beperkt in semantisch begrip. Door een lichtgewicht, query-gebaseerde feature mixer te introduceren, aligneren we de regiospecifieke features met de embeddingruimte van taalmodellen voor latere bijschriftgeneratie. Omdat het aantal trainbare parameters klein is (meestal in de orde van tientallen miljoenen), kost het minder rekenkracht, minder geheugengebruik en minder communicatiebandbreedte, wat resulteert in zowel snelle als schaalbare training. Om het tekort aan regionale bijschriftdata aan te pakken, stellen we voor om ons model eerst voor te trainen op objectdetectie- en segmentatietaken. We noemen deze stap zwakke supervisie voorpretraining, aangezien de voorpretrainingdata alleen categorienamen bevat in plaats van volledige zinbeschrijvingen. De zwakke supervisie voorpretraining stelt ons in staat om veel openbaar beschikbare objectdetectie- en segmentatiedatasets te benutten. We voeren uitgebreide experimenten uit om de superioriteit van onze methode aan te tonen en elke ontwerpkeuze te valideren. Dit werk dient als een stapsteen naar het opschalen van regionale bijschriftdata en werpt licht op het verkennen van efficiënte manieren om SAM aan te vullen met regionale semantiek. De projectpagina, samen met de bijbehorende code, is toegankelijk via de volgende link: https://xk-huang.github.io/segment-caption-anything/.
Reinforcement learning from human feedback (RLHF) is naar voren gekomen als het belangrijkste paradigma voor het afstemmen van grote taalmodelen (LLMs) op menselijke voorkeuren. Typisch omvat RLHF de eerste stap van het leren van een beloningsmodel op basis van menselijke feedback, vaak uitgedrukt als voorkeuren tussen paren van tekstgeneraties geproduceerd door een vooraf getraind LLM. Vervolgens wordt het beleid van het LLM verfijnd door het te optimaliseren om het beloningsmodel te maximaliseren via een reinforcement learning-algoritme. Een inherente beperking van huidige beloningsmodellen is echter hun onvermogen om de rijkdom van menselijke voorkeuren volledig te representeren en hun afhankelijkheid van de steekproefverdeling. In deze studie introduceren we een alternatieve pijplijn voor het verfijnen van LLMs met behulp van gepaarde menselijke feedback. Onze aanpak omvat het initieel leren van een voorkeursmodel, dat is geconditioneerd op twee invoeren gegeven een prompt, gevolgd door het nastreven van een beleid dat consistent reacties genereert die de voorkeur genieten boven die gegenereerd door enig concurrerend beleid, waardoor het Nash-evenwicht van dit voorkeursmodel wordt gedefinieerd. We noemen deze aanpak Nash learning from human feedback (NLHF). In de context van een tabelvormige beleidsrepresentatie presenteren we een nieuwe algoritmische oplossing, Nash-MD, gebaseerd op de principes van mirror descent. Dit algoritme produceert een reeks beleidsmaatregelen, waarbij de laatste iteratie convergeert naar het geregulariseerde Nash-evenwicht. Daarnaast onderzoeken we parametrische representaties van beleidsmaatregelen en introduceren we gradient descent-algoritmen voor deep learning-architecturen. Om de effectiviteit van onze aanpak aan te tonen, presenteren we experimentele resultaten met betrekking tot het verfijnen van een LLM voor een tekstsamenvattings-taak. Wij geloven dat NLHF een overtuigende weg biedt voor voorkeursleren en beleidsoptimalisatie met het potentieel om het veld van het afstemmen van LLMs op menselijke voorkeuren vooruit te helpen.
Ondanks de recente vooruitgang in tekst-naar-video-generatie, negeren bestaande studies meestal het probleem dat alleen ruimtelijke inhoud, maar niet temporele bewegingen in gesynthetiseerde video's onder controle van tekst staan. Om deze uitdaging aan te gaan, presenteert dit werk een praktisch systeem, genaamd LivePhoto, waarmee gebruikers een afbeelding van hun interesse kunnen animeren met tekstbeschrijvingen. We stellen eerst een sterke basislijn op die een goed getrainde tekst-naar-afbeelding-generator (d.w.z. Stable Diffusion) helpt om een afbeelding als een extra invoer te nemen. Vervolgens rusten we de verbeterde generator uit met een bewegingsmodule voor temporele modellering en stellen we een zorgvuldig ontworpen trainingspijplijn voor om teksten en bewegingen beter te verbinden. Gezien de feiten dat (1) tekst bewegingen slechts grofweg kan beschrijven (bijv. ongeacht de bewegingssnelheid) en (2) tekst zowel inhouds- als bewegingsbeschrijvingen kan bevatten, introduceren we een module voor het schatten van bewegingsintensiteit en een tekstherwegingingsmodule om de ambiguïteit van tekst-naar-beweging-mapping te verminderen. Empirisch bewijs suggereert dat onze aanpak goed in staat is om bewegingsgerichte tekstuele instructies te decoderen in video's, zoals acties, camerabewegingen, of zelfs het toveren van nieuwe inhoud uit het niets (bijv. water in een leeg glas gieten). Interessant genoeg biedt ons systeem, dankzij het voorgestelde intensiteitsleermechanisme, gebruikers een extra controlesignaal (d.w.z. de bewegingsintensiteit) naast tekst voor videopersonalizatie.
Diffusiemodellen, met hun krachtige expressiviteit en hoge kwaliteit van gegenereerde samples, hebben vele nieuwe toepassingen en use-cases in verschillende domeinen mogelijk gemaakt. Voor het genereren van samples vertrouwen deze modellen op een denoiserend neuraal netwerk dat afbeeldingen produceert door iteratieve ruisverwijdering. Toch is de rol van de architectuur van het denoiserende netwerk niet goed bestudeerd, waarbij de meeste inspanningen zich baseren op convolutionele resterende U-Nets. In dit artikel onderzoeken we de effectiviteit van vision transformers in diffusiegebaseerd generatief leren. Specifiek stellen we een nieuw model voor, genaamd Diffusion Vision Transformers (DiffiT), dat bestaat uit een hybride hiërarchische architectuur met een U-vormige encoder en decoder. We introduceren een nieuw tijdafhankelijk self-attention-module dat aandachtslagen in staat stelt hun gedrag aan te passen tijdens verschillende fasen van het denoiseringsproces op een efficiënte manier. We introduceren ook latent DiffiT, dat bestaat uit een transformermodel met de voorgestelde self-attention-lagen, voor het genereren van afbeeldingen met hoge resolutie. Onze resultaten tonen aan dat DiffiT verrassend effectief is in het genereren van afbeeldingen met hoge kwaliteit, en het behaalt state-of-the-art (SOTA) benchmarks op een verscheidenheid aan klasse-conditionele en onvoorwaardelijke synthesetaken. In de latente ruimte behaalt DiffiT een nieuwe SOTA FID-score van 1,73 op de ImageNet-256 dataset. Repository: https://github.com/NVlabs/DiffiT
Hoe verschillen twee sets afbeeldingen van elkaar? Het onderscheiden van verschillen op setniveau is cruciaal voor het begrijpen van modelgedrag en het analyseren van datasets, maar het handmatig doorzoeken van duizenden afbeeldingen is onpraktisch. Om dit ontdekkingproces te ondersteunen, onderzoeken we de taak om automatisch de verschillen tussen twee sets afbeeldingen te beschrijven, wat we Set Difference Captioning noemen. Deze taak neemt afbeeldingssets D_A en D_B als invoer en produceert een beschrijving die vaker waar is voor D_A dan voor D_B. We schetsen een tweestapsbenadering die eerst kandidaatverschilbeschrijvingen voorstelt uit de afbeeldingssets en deze kandidaten vervolgens herrangschikt door te controleren hoe goed ze de twee sets kunnen onderscheiden. We introduceren VisDiff, dat eerst de afbeeldingen van bijschriften voorziet en een taalmodel aanzet om kandidaatbeschrijvingen voor te stellen, waarna deze beschrijvingen worden herrangschikt met behulp van CLIP. Om VisDiff te evalueren, verzamelen we VisDiffBench, een dataset met 187 gepaarde afbeeldingssets met grondwaarheid-verschilbeschrijvingen. We passen VisDiff toe op verschillende domeinen, zoals het vergelijken van datasets (bijv. ImageNet vs. ImageNetV2), het vergelijken van classificatiemodellen (bijv. zero-shot CLIP vs. supervised ResNet), het samenvatten van model-faalmethoden (supervised ResNet), het karakteriseren van verschillen tussen generatieve modellen (bijv. StableDiffusionV1 en V2), en het ontdekken wat afbeeldingen memorabel maakt. Met VisDiff kunnen we interessante en voorheen onbekende verschillen in datasets en modellen vinden, wat het nut ervan aantoont in het onthullen van genuanceerde inzichten.
Listwise rerankers gebaseerd op grote taalmodellen (LLM) vormen de state-of-the-art in zero-shot benaderingen. Echter, huidige werken in deze richting zijn allemaal afhankelijk van de GPT-modellen, wat een enkelvoudig faalpunt vormt voor wetenschappelijke reproduceerbaarheid. Bovendien roept dit de zorg op dat de huidige onderzoeksbevindingen alleen gelden voor GPT-modellen en niet voor LLM in het algemeen. In dit werk heffen we deze voorwaarde op en bouwen we voor het eerst effectieve listwise rerankers zonder enige vorm van afhankelijkheid van GPT. Onze experimenten met passageretrieval tonen aan dat onze beste listwise reranker de listwise rerankers gebaseerd op GPT-3.5 met 13% overtreft en 97% effectiviteit bereikt van die gebouwd op GPT-4. Onze resultaten laten ook zien dat de bestaande trainingsdatasets, die specifiek zijn geconstrueerd voor pointwise ranking, onvoldoende zijn voor het bouwen van dergelijke listwise rerankers. In plaats daarvan is hoogwaardige listwise ranking data vereist en cruciaal, wat oproept tot verder werk aan het opbouwen van door mensen geannoteerde listwise databronnen.
Met de recente significante vooruitgang in grote multimodale modellen (LMMs) wordt het belang van hun verankeringsvermogen in visuele chat steeds meer erkend. Ondanks recente inspanningen om LMMs in staat te stellen verankering te ondersteunen, zijn hun mogelijkheden voor verankering en chat meestal gescheiden, en daalt hun chatprestatie aanzienlijk wanneer ze worden gevraagd om te verankeren. Het probleem is het ontbreken van een dataset voor verankerde visuele chat (GVC). Bestaande verankeringsdatasets bevatten alleen korte bijschriften. Om dit probleem aan te pakken, hebben we GVC-data gecreëerd die de combinatie van verankerings- en chatmogelijkheden mogelijk maakt. Om de GVC-mogelijkheden beter te evalueren, hebben we een benchmark geïntroduceerd genaamd Grounding-Bench. Daarnaast hebben we een modelontwerp voorgesteld dat GVC en verschillende soorten visuele prompts kan ondersteunen door segmentatiemodellen te verbinden met taalmodellen. Experimentele resultaten tonen aan dat ons model andere LMMs overtreft op Grounding-Bench. Bovendien behaalt ons model competitieve prestaties op klassieke verankeringsbenchmarks zoals RefCOCO/+/g en Flickr30K Entities. Onze code zal worden vrijgegeven op https://github.com/UX-Decoder/LLaVA-Grounding.
We presenteren een benadering om objectherkenning te formuleren als voorspelling van de volgende token. Het idee is om een taaldecodeur toe te passen die auto-regressief teksttokens voorspelt op basis van beeldembeddingen om labels te vormen. Om dit voorspellingsproces te verankeren in auto-regressie, passen we een niet-causaal aandachtmasker aan voor de decodeur, waarbij twee belangrijke kenmerken worden geïntegreerd: het modelleren van tokens van verschillende labels als onafhankelijk, en het behandelen van beeldtokens als een prefix. Dit maskeringsmechanisme inspireert een efficiënte methode - one-shot sampling - om tokens van meerdere labels parallel te bemonsteren en gegenereerde labels te rangschikken op basis van hun waarschijnlijkheid tijdens inferentie. Om de efficiëntie verder te verbeteren, stellen we een eenvoudige strategie voor om een compacte decodeur te construeren door simpelweg de tussenliggende blokken van een voorgetraind taalmodel te verwijderen. Deze benadering resulteert in een decodeur die de prestaties van het volledige model evenaart, terwijl deze aanzienlijk efficiënter is. De code is beschikbaar op https://github.com/kaiyuyue/nxtp.
We presenteren een nieuwe aanpak, genaamd GPS-Gaussian, voor het synthetiseren van nieuwe aanzichten van een karakter in realtime. De voorgestelde methode maakt rendering in 2K-resolutie mogelijk onder een sparse-view camera-instelling. In tegenstelling tot de originele Gaussian Splatting of neurale impliciete renderingmethoden die per onderwerp optimalisaties vereisen, introduceren we Gaussian parameter maps gedefinieerd op de bronaanzichten en regresseren we direct Gaussian Splatting eigenschappen voor directe synthese van nieuwe aanzichten zonder fine-tuning of optimalisatie. Hiertoe trainen we onze Gaussian parameter regressiemodule op een grote hoeveelheid menselijke scan data, samen met een diepteschattingsmodule om 2D parameter maps naar 3D ruimte te tillen. Het voorgestelde raamwerk is volledig differentieerbaar en experimenten op verschillende datasets tonen aan dat onze methode state-of-the-art methoden overtreft terwijl het een uitzonderlijke renderingsnelheid bereikt.
Tekst-naar-video-generatie heeft veelbelovende resultaten laten zien. Door echter alleen natuurlijke taal als invoer te gebruiken, hebben gebruikers vaak moeite om gedetailleerde informatie te verstrekken om de uitvoer van het model nauwkeurig te beheersen. In dit werk stellen we fijnmazig beheerbare videogeneratie (FACTOR) voor om gedetailleerde controle te bereiken. Specifiek streeft FACTOR ernaar om het uiterlijk en de context van objecten, inclusief hun locatie en categorie, in samenhang met de tekstprompt te beheersen. Om gedetailleerde controle te bereiken, stellen we een uniform raamwerk voor om gezamenlijk controlesignalen in het bestaande tekst-naar-video-model te injecteren. Ons model bestaat uit een gezamenlijke encoder en adaptieve cross-attentielagen. Door de encoder en de ingevoegde laag te optimaliseren, passen we het model aan om video's te genereren die zijn afgestemd op zowel tekstprompts als fijnmazige controle. In vergelijking met bestaande methoden die vertrouwen op dichte controlesignalen zoals edge maps, bieden we een meer intuïtieve en gebruiksvriendelijke interface om objectniveau fijnmazige controle mogelijk te maken. Onze methode bereikt beheersbaarheid van objectuiterlijk zonder fine-tuning, wat de optimalisatie-inspanningen per onderwerp voor gebruikers vermindert. Uitgebreide experimenten op standaard benchmarkdatasets en door gebruikers verstrekte invoer valideren dat ons model een verbetering van 70% behaalt in beheersbaarheidsmetrieken ten opzichte van concurrerende basislijnen.
We introduceren generatieve transformatoren met een oneindig vocabulaire (GIVT) die vectorreeksen met reële waarden genereren, in plaats van discrete tokens uit een eindig vocabulaire. Hiertoe stellen we twee verrassend eenvoudige aanpassingen voor aan decoder-only transformatoren: 1) aan de invoer vervangen we de lookup-tabel voor het eindige vocabulaire door een lineaire projectie van de invoervectoren; en 2) aan de uitvoer vervangen we de voorspelling van logits (meestal gemapt naar een categorische verdeling) door de parameters van een multivariate Gaussische mengselmodel. Geïnspireerd door het beeldgeneratieparadigma van VQ-GAN en MaskGIT, waarbij transformatoren worden gebruikt om de discrete latente reeksen van een VQ-VAE te modelleren, gebruiken we GIVT om de ongekwantiseerde reële latente reeksen van een VAE te modelleren. Bij het toepassen van GIVT op klasse-conditionele beeldgeneratie met iteratieve gemaskeerde modellering, laten we competitieve resultaten zien met MaskGIT, terwijl onze aanpak zowel VQ-GAN als MaskGIT overtreft wanneer we deze gebruiken voor causaal modelleren. Tot slot behalen we competitieve resultaten buiten beeldgeneratie bij het toepassen van onze aanpak op panoptische segmentatie en diepteschatting met een VAE-gebaseerde variant van het UViM-framework.
Het synthetiseren van nieuwe aanzichten vanuit een video in de echte wereld is uitdagend vanwege problemen zoals scènedynamiek en een gebrek aan parallax. Hoewel bestaande methoden veelbelovende resultaten hebben laten zien met impliciete neurale stralingsvelden, zijn ze traag om te trainen en te renderen. Dit artikel heronderzoekt expliciete videorepresentaties om hoogwaardige nieuwe aanzichten efficiënt te synthetiseren vanuit een monoscopische video. We behandelen statische en dynamische video-inhoud afzonderlijk. Specifiek bouwen we een globaal statisch scènemodel met behulp van een uitgebreide op vlakken gebaseerde scèneweergave om temporeel coherente nieuwe video's te synthetiseren. Onze op vlakken gebaseerde scèneweergave is uitgebreid met sferische harmonischen en verplaatsingskaarten om afhankelijke effecten te vangen en complexe niet-vlakke oppervlaktegeometrie te modelleren. We kiezen ervoor om de dynamische inhoud efficiënt weer te geven als puntenwolken per frame. Hoewel dergelijke representaties gevoelig zijn voor inconsistenties, worden kleine temporele inconsistenties perceptueel gemaskeerd door beweging. We ontwikkelen een methode om snel zo'n hybride videorepresentatie te schatten en nieuwe aanzichten in realtime te renderen. Onze experimenten tonen aan dat onze methode hoogwaardige nieuwe aanzichten kan renderen vanuit een video in de echte wereld met een vergelijkbare kwaliteit als state-of-the-art methoden, terwijl het 100x sneller is in training en realtime rendering mogelijk maakt.
Traditionele tools voor 3D-contentcreatie stellen gebruikers in staat om hun verbeelding tot leven te brengen door hen directe controle te geven over de geometrie, het uiterlijk, de beweging en het camerapad van een scène. Het maken van computergegenereerde video's is echter een tijdrovend handmatig proces, dat geautomatiseerd kan worden door opkomende tekst-naar-video-diffusiemodellen. Ondanks hun grote potentie zijn videodiffusiemodellen moeilijk te controleren, wat het voor een gebruiker belemmert om hun eigen creativiteit toe te passen in plaats van deze te versterken. Om deze uitdaging aan te pakken, presenteren we een nieuwe aanpak die de bestuurbaarheid van dynamische 3D-meshes combineert met de expressiviteit en bewerkbaarheid van opkomende diffusiemodellen. Hiervoor neemt onze aanpak een geanimeerde, low-fidelity gerenderde mesh als invoer en injecteert de grondwaarheidscorrespondentie-informatie die is verkregen uit de dynamische mesh in verschillende fasen van een vooraf getraind tekst-naar-beeldgeneratiemodel om hoogwaardige en temporeel consistente frames te produceren. We demonstreren onze aanpak aan de hand van verschillende voorbeelden waarbij beweging kan worden verkregen door geanimeerde gerigde assets of door het camerapad te wijzigen.
Grote taalmodellen (LLMs) lossen problemen nauwkeuriger en interpreteerbaarder op wanneer ze worden geïnstrueerd om het antwoord stap voor stap uit te werken met behulp van een "chain-of-thought" (CoT) prompt. Men kan ook de prestaties van LLMs op een specifieke taak verbeteren door supervised fine-tuning, d.w.z. door gebruik te maken van gradient ascent op enkele afstelbare parameters om de gemiddelde log-waarschijnlijkheid van correcte antwoorden uit een gelabelde trainingsset te maximaliseren. Het naïef combineren van CoT met supervised tuning vereist niet alleen supervisie van de correcte antwoorden, maar ook van gedetailleerde redeneringen die tot die antwoorden leiden; deze redeneringen zijn kostbaar om handmatig te produceren. In plaats daarvan stellen we een fine-tuning strategie voor die probeert de marginale log-waarschijnlijkheid van het genereren van een correct antwoord met behulp van CoT prompting te maximaliseren, waarbij ongeveer gemiddeld wordt over alle mogelijke redeneringen. De kernuitdaging is het bemonsteren van de posterior over redeneringen geconditioneerd op het correcte antwoord; we pakken dit aan met een eenvoudig Markov-chain Monte Carlo (MCMC) expectation-maximization (EM) algoritme geïnspireerd door de self-taught reasoner (STaR), memoized wake-sleep, Markovian score climbing, en persistent contrastive divergence. Dit algoritme maakt ook gebruik van een nieuwe controle-variabele techniek die de variantie van onze gradient schattingen naar nul drijft naarmate het model verbetert. Door onze techniek toe te passen op GSM8K en de taken in BIG-Bench Hard, ontdekken we dat deze MCMC-EM fine-tuning techniek doorgaans de nauwkeurigheid van het model op achtergehouden voorbeelden meer verbetert dan STaR of prompt-tuning met of zonder CoT.
In het domein van tekst-naar-3D-generatie leidt het gebruik van 2D-diffusiemodellen via score-distillatie-sampling (SDS) vaak tot problemen zoals vervaagde verschijningen en veelvlakkige geometrieën, voornamelijk vanwege de inherent ruizige aard van het SDS-verlies. Onze analyse identificeert de kern van deze uitdagingen als de interactie tussen ruisniveaus in het 2D-diffusieproces, de architectuur van het diffusienetwerk en de 3D-modelrepresentatie. Om deze beperkingen te overwinnen, presenteren we StableDreamer, een methodologie die drie vooruitgangen omvat. Ten eerste, geïnspireerd door InstructNeRF2NeRF, formaliseren we de gelijkwaardigheid van de SDS-generatieve prior en een eenvoudig gesuperviseerd L2-reconstructieverlies. Deze bevinding biedt een nieuw hulpmiddel om SDS te debuggen, waarmee we het effect van tijd-annealing-ruisniveaus op het verminderen van veelvlakkige geometrieën aantonen. Ten tweede laat onze analyse zien dat hoewel beeldruimte-diffusie bijdraagt aan geometrische precisie, latentieruimte-diffusie cruciaal is voor levendige kleurweergave. Op basis van deze observatie introduceert StableDreamer een tweefasige trainingsstrategie die deze aspecten effectief combineert, wat resulteert in hoogwaardige 3D-modellen. Ten derde nemen we een anisotrope 3D-Gaussiaanse representatie aan, die Neural Radiance Fields (NeRFs) vervangt, om de algehele kwaliteit te verbeteren, het geheugengebruik tijdens de training te verminderen, de renderingsnelheden te versnellen en semi-transparante objecten beter vast te leggen. StableDreamer vermindert veelvlakkige geometrieën, genereert fijne details en convergeert stabiel.
Grootschalige Text-to-Image (T2I) modellen hebben snel aan populariteit gewonnen in creatieve vakgebieden, waarbij ze visueel aantrekkelijke resultaten genereren op basis van tekstuele prompts. Het blijft echter een uitdaging om deze modellen te beheersen om een consistente stijl te garanderen, waarbij bestaande methoden fine-tuning en handmatige interventie vereisen om inhoud en stijl te ontwarren. In dit artikel introduceren we StyleAligned, een nieuwe techniek die is ontworpen om stijlaanpassing te realiseren tussen een reeks gegenereerde afbeeldingen. Door minimale `attention sharing' toe te passen tijdens het diffusieproces, handhaaft onze methode stijlconsistentie tussen afbeeldingen binnen T2I-modellen. Deze aanpak maakt het mogelijk om stijlconsistente afbeeldingen te creëren met behulp van een referentiestijl via een eenvoudige inversiebewerking. De evaluatie van onze methode over diverse stijlen en tekstprompts toont hoogwaardige synthese en trouw aan de stijl, wat de effectiviteit ervan onderstreept in het bereiken van een consistente stijl bij verschillende inputs.
Interactieve 3D-segmentatie in radiance fields is een aantrekkelijke taak vanwege het belang ervan in 3D-scènebegrip en -manipulatie. Bestaande methoden kampen echter met uitdagingen, zoals het bereiken van fijnmazige, multi-granulariteit segmentatie of het omgaan met aanzienlijke rekenkosten, wat real-time interactie belemmert. In dit artikel introduceren we Segment Any 3D GAussians (SAGA), een nieuwe benadering voor interactieve 3D-segmentatie die naadloos een 2D-segmentatie foundation model combineert met 3D Gaussian Splatting (3DGS), een recente doorbraak in radiance fields. SAGA integreert efficiënt multi-granulariteit 2D-segmentatieresultaten, gegenereerd door het segmentatie foundation model, in 3D Gaussiaanse puntkenmerken via goed ontworpen contrastieve training. Evaluatie op bestaande benchmarks toont aan dat SAGA competitieve prestaties kan bereiken met state-of-the-art methoden. Bovendien bereikt SAGA multi-granulariteit segmentatie en ondersteunt het diverse prompts, waaronder punten, krabbels en 2D-maskers. Opmerkelijk is dat SAGA de 3D-segmentatie binnen milliseconden kan voltooien, wat een versnelling van bijna 1000x oplevert vergeleken met eerdere SOTA. De projectpagina is te vinden op https://jumpat.github.io/SAGA.
Multimodale Large Language Models (MLLMs) hebben uitstekende prestaties geleverd op het gebied van 2D beeld-tekstbegrip en beeldgeneratie, maar hun begrip van de 3D-wereld is opvallend beperkt, wat de vooruitgang in 3D taalbegrip en -generatie belemmert. Om dit probleem op te lossen, introduceren we GPT4Point, een innovatief en baanbrekend punt-taal multimodaal model dat specifiek is ontworpen voor uniform 3D-objectbegrip en -generatie binnen het MLLM-framework. GPT4Point, als een krachtige 3D MLLM, kan naadloos een verscheidenheid aan punt-tekst referentietaken uitvoeren, zoals point-cloud beschrijvingen en vraag-en-antwoord. Daarnaast is GPT4Point uitgerust met geavanceerde mogelijkheden voor controleerbare 3D-generatie, waarbij het hoogwaardige resultaten kan behalen via een laagwaardige punt-tekst feature, waarbij de geometrische vormen en kleuren behouden blijven. Om aan de uitgebreide behoeften van 3D object-tekst paren te voldoen, ontwikkelen we Pyramid-XL, een punt-taal dataset annotatie-engine. Het construeert een grootschalige database met meer dan 1 miljoen objecten van verschillende tekstgranulariteitsniveaus uit de Objaverse-XL dataset, essentieel voor het trainen van GPT4Point. Een uitgebreide benchmark is voorgesteld om de 3D punt-taalbegripcapaciteiten te evalueren. In uitgebreide evaluaties heeft GPT4Point superieure prestaties getoond in begrip en generatie.
De opmerkelijke vaardigheden van grote taalmodelen (LLMs) zoals GPT-4 zijn deels te danken aan post-trainingsprocessen zoals Reinforcement Learning from Human Feedback (RLHF), waarbij menselijke voorkeuren worden vastgelegd in een beloningsmodel. Deze beloningsmodellen (RMs) hebben echter vaak geen directe kennis van de redenen of principes achter de voorkeursannotaties. In deze studie identificeren we principes die RMs beter laten aansluiten bij menselijke voorkeuren, en ontwikkelen we vervolgens een axiomatisch kader om een breed scala aan voorkeurssignalen te genereren die deze principes ondersteunen. We gebruiken deze axiomatische signalen om een model te trainen dat antwoorden op langlopende vragen beoordeelt. Onze aanpak resulteert in een Voorkeursmodel met slechts ongeveer 220M parameters dat vaker overeenkomt met door mensen geannoteerde voorkeurslabels dan GPT-4. De bijdragen van dit werk omvatten: het trainen van een zelfstandig voorkeursmodel dat zowel door mensen als door LLM gegenereerde antwoorden op dezelfde schaal kan beoordelen; het ontwikkelen van een axiomatisch kader voor het genereren van trainingsdataparen die zijn afgestemd op bepaalde principes; en het aantonen dat een kleine hoeveelheid axiomatische signalen kleine modellen kan helpen GPT-4 te overtreffen in voorkeursbeoordeling. We hebben ons model vrijgegeven op huggingface: https://huggingface.co/corbyrosset/axiomatic_preference_model.
Neural Radiance Fields (NeRFs) blinken uit in het fotorealistisch renderen van statische scènes. Het renderen van dynamische, langdurige radiance fields op alledaagse apparaten blijft echter een uitdaging, vanwege beperkingen in gegevensopslag en rekenkracht. In dit artikel introduceren we VideoRF, de eerste aanpak die real-time streaming en rendering van dynamische radiance fields op mobiele platforms mogelijk maakt. De kern bestaat uit een geserialiseerde 2D feature image stream die het 4D radiance field volledig in één geheel weergeeft. We introduceren een op maat gemaakt trainingsschema dat rechtstreeks op dit 2D-domein wordt toegepast om de temporele en ruimtelijke redundantie van de feature image stream te benadrukken. Door gebruik te maken van deze redundantie tonen we aan dat de feature image stream efficiënt kan worden gecomprimeerd met 2D videocodecs, wat ons in staat stelt om video-hardwareversnellers te benutten voor real-time decodering. Aan de andere kant stellen we, gebaseerd op de feature image stream, een nieuwe renderpijplijn voor VideoRF voor, die gespecialiseerde ruimtelijke mapping gebruikt om radiance-eigenschappen efficiënt op te vragen. In combinatie met een deferred shading model beschikt VideoRF over de mogelijkheid tot real-time rendering op mobiele apparaten dankzij zijn efficiëntie. We hebben een real-time interactieve speler ontwikkeld die online streaming en rendering van dynamische scènes mogelijk maakt, wat een naadloze en meeslepende free-viewpoint ervaring biedt op een reeks apparaten, van desktops tot mobiele telefoons.
We presenteren een methode die een tekst-naar-beeldmodel gebruikt om consistente inhoud te genereren over meerdere beeldschalen, waardoor extreme semantische zoomen in een scène mogelijk worden, bijvoorbeeld variërend van een breedhoekig landschapsbeeld van een bos tot een macro-opname van een insect dat op een van de takken zit. Dit bereiken we door middel van een gezamenlijke multi-schaal diffusie-steekproefbenadering die consistentie over verschillende schalen bevordert, terwijl de integriteit van elk individueel steekproefproces behouden blijft. Omdat elke gegenereerde schaal wordt geleid door een andere tekstprompt, maakt onze methode diepere zoomniveaus mogelijk dan traditionele superresolutiemethoden die moeite kunnen hebben om nieuwe contextuele structuren te creëren op sterk verschillende schalen. We vergelijken onze methode kwalitatief met alternatieve technieken in beeld-superresolutie en uitbreiding, en tonen aan dat onze methode het meest effectief is in het genereren van consistente multi-schaal inhoud.
Training op meerdere modaliteiten van invoer kan de mogelijkheden van een taalmodel vergroten. Hier onderzoeken we of een dergelijk trainingsregime ook de kwaliteit en efficiëntie van deze systemen kan verbeteren. We richten ons op tekst--audio en introduceren Whisbert, dat geïnspireerd is op de tekst--beeldbenadering van FLAVA singh_flava_2022. In overeenstemming met de richtlijnen van Babylm warstadt2023papers pretrainen we Whisbert op een dataset die slechts 100 miljoen woorden bevat, plus de bijbehorende spraak uit de woord-uitgelijnde versie van de People's Speech dataset galvez_peoples_2021. Om de impact van multimodaliteit te beoordelen, vergelijken we versies van het model die alleen op tekst zijn getraind en op zowel audio als tekst tegelijkertijd. We constateren dat Whisbert goed presteert op multimodale gemaskeerde modellering en de Babylm-baselines in de meeste benchmarktaken overtreft, maar moeite heeft om zijn complexe doelstelling te optimaliseren en zijn tekst-only Whisbert-baseline te overtreffen.
Dit artikel verbetert image-GPT (iGPT), een van de baanbrekende werken die autoregressieve voorafgaande training introduceren om volgende pixels te voorspellen voor visuele representatieleer. Er worden twee eenvoudige maar essentiële wijzigingen aangebracht. Ten eerste verschuiven we het voorspeldoel van ruwe pixels naar semantische tokens, wat een hoger niveau van begrip van visuele inhoud mogelijk maakt. Ten tweede vullen we het autoregressieve model aan door het model te instrueren om niet alleen de volgende tokens te voorspellen, maar ook de zichtbare tokens. Deze pijplijn is bijzonder effectief wanneer semantische tokens worden gecodeerd door discriminerend getrainde modellen, zoals CLIP. We introduceren deze nieuwe aanpak als D-iGPT. Uitgebreide experimenten tonen aan dat D-iGPT uitblinkt als een sterke leerder van visuele representaties: een opmerkelijk resultaat van D-iGPT is de overtuigende prestatie op de ImageNet-1K dataset -- door training op publiek beschikbare datasets bereikt D-iGPT een top-1 nauwkeurigheid van 89,5% met een standaard ViT-Large model. Dit model toont ook sterke generalisatie op de downstream taak en robuustheid op out-of-distribution voorbeelden. De code is beschikbaar op https://github.com/OliverRensu/D-iGPT{https://github.com/OliverRensu/D-iGPT}.
Onlangs heeft het Segment Anything Model (SAM) opmerkelijke mogelijkheden getoond voor zero-shot segmentatie, terwijl NeRF (Neural Radiance Fields) populair is geworden als methode voor diverse 3D-problemen die verder gaan dan nieuwe beeldweergave. Hoewel er initiële pogingen zijn gedaan om deze twee methoden te integreren in 3D-segmentatie, worden ze geconfronteerd met de uitdaging om objecten in complexe scenario's nauwkeurig en consistent te segmenteren. In dit artikel introduceren we Segment Anything for NeRF in High Quality (SANeRF-HQ) om hoogwaardige 3D-segmentatie van elk object in een gegeven scène te bereiken. SANeRF-HQ maakt gebruik van SAM voor open-wereld objectsegmentatie, geleid door door de gebruiker aangeleverde prompts, terwijl het NeRF benut om informatie uit verschillende gezichtspunten te aggregeren. Om de eerder genoemde uitdagingen te overwinnen, gebruiken we een dichtheidsveld en RGB-gelijkenis om de nauwkeurigheid van de segmentatiegrens tijdens de aggregatie te verbeteren. Met de nadruk op segmentatienauwkeurigheid evalueren we onze methode kwantitatief op meerdere NeRF-datasets waar hoogwaardige grondwaarheden beschikbaar zijn of handmatig zijn geannoteerd. SANeRF-HQ toont een aanzienlijke kwaliteitsverbetering ten opzichte van eerdere state-of-the-art methoden in NeRF-objectsegmentatie, biedt meer flexibiliteit voor objectlokalisatie en maakt consistentere objectsegmentatie over meerdere weergaven mogelijk. Aanvullende informatie is te vinden op https://lyclyc52.github.io/SANeRF-HQ/.
Grote taalmodellen (LLMs) hebben enorme interesse gewekt voor praktische toepassingen vanwege hun steeds nauwkeurigere antwoorden en coherente redeneervaardigheden. Gezien hun aard als black-boxen die complexe redeneerprocessen toepassen op hun invoer, is het onvermijdelijk dat de vraag naar schaalbare en betrouwbare verklaringen voor de gegenereerde inhoud van LLMs zal blijven groeien. Er zijn de afgelopen decennia grote ontwikkelingen geweest op het gebied van de verklaarbaarheid van neurale netwerkmodellen. Daarbij hebben post-hoc verklaringsmethoden, met name Shapley-waarden, hun effectiviteit bewezen bij het interpreteren van deep learning-modellen. Er zijn echter grote uitdagingen bij het opschalen van Shapley-waarden voor LLMs, vooral bij het omgaan met lange invoercontexten die duizenden tokens bevatten en autoregressief gegenereerde uitvoerreeksen. Bovendien is het vaak onduidelijk hoe gegenereerde verklaringen effectief kunnen worden gebruikt om de prestaties van LLMs te verbeteren. In dit artikel introduceren we TextGenSHAP, een efficiënte post-hoc verklaringsmethode die LM-specifieke technieken integreert. We laten zien dat dit leidt tot een aanzienlijke snelheidswinst in vergelijking met conventionele Shapley-waardeberekeningen, waarbij de verwerkingstijden worden teruggebracht van uren naar minuten voor token-niveau verklaringen, en naar slechts seconden voor document-niveau verklaringen. Daarnaast demonstreren we hoe real-time Shapley-waarden kunnen worden gebruikt in twee belangrijke scenario's: het beter begrijpen van vraag-antwoordsystemen voor lange documenten door belangrijke woorden en zinnen te lokaliseren; en het verbeteren van bestaande documentretrievalsystemen door de nauwkeurigheid van geselecteerde passages en uiteindelijk de uiteindelijke antwoorden te vergroten.
In dit artikel richten we ons op de adaptieve bron-gestuurde 3D-scènebewerkingstaak door een CustomNeRF-model voor te stellen dat een tekstbeschrijving of een referentieafbeelding verenigt als bewerkingsprompt. Het verkrijgen van gewenste bewerkingsresultaten die overeenkomen met de bewerkingsprompt is echter niet triviaal, aangezien er twee belangrijke uitdagingen bestaan, waaronder nauwkeurige bewerking van alleen de voorgrondregio's en multi-view consistentie gegeven een single-view referentieafbeelding. Om de eerste uitdaging aan te pakken, stellen we een Local-Global Iterative Editing (LGIE) trainingsschema voor dat afwisselt tussen bewerking van de voorgrondregio en bewerking van de volledige afbeelding, gericht op manipulatie van alleen de voorgrond terwijl de achtergrond behouden blijft. Voor de tweede uitdaging ontwerpen we ook een klasse-gestuurde regularisatie die klasse-priors binnen het generatiemodel benut om het inconsistentieprobleem tussen verschillende views in beeld-gestuurde bewerking te verlichten. Uitgebreide experimenten tonen aan dat onze CustomNeRF precieze bewerkingsresultaten oplevert in verschillende realistische scènes voor zowel tekst- als beeld-gestuurde instellingen.
Het vinden van manieren om tekstinvoer te versnellen voor personen met ernstige motorische beperkingen is al lang een belangrijk onderzoeksgebied. Het dichten van de snelheidskloof voor hulpmiddelen voor augmentatieve en alternatieve communicatie (AAC), zoals oogvolgtoetsenborden, is cruciaal voor het verbeteren van de levenskwaliteit van deze personen. Recente vooruitgang in neurale netwerken voor natuurlijke taal biedt nieuwe mogelijkheden om strategieën en gebruikersinterfaces te herzien voor verbeterde tekstinvoer voor AAC-gebruikers. In dit artikel presenteren we SpeakFaster, dat bestaat uit grote taalmodelen (LLMs) en een mede-ontworpen gebruikersinterface voor tekstinvoer in een sterk afgekorte vorm, waardoor 57% meer motorische handelingen worden bespaard in vergelijking met traditionele voorspellende toetsenborden in offline simulaties. Een pilotstudie met 19 niet-AAC-deelnemers die op een mobiel apparaat typten met de hand, toonde besparingen in motorische handelingen die overeenkwamen met de offline simulatie, terwijl het effect op de algehele typsnelheid relatief klein was. Lab- en veldtesten met twee gebruikers van oogtyping met amyotrofische laterale sclerose (ALS) lieten tekstinvoersnelheden zien die 29-60% sneller waren dan traditionele basislijnen, dankzij aanzienlijke besparingen op kostbare toetsaanslagen door middel van zins- en woordvoorspellingen van contextbewuste LLMs. Deze bevindingen vormen een sterke basis voor verder onderzoek naar aanzienlijk versnelde tekstcommunicatie voor gebruikers met motorische beperkingen en tonen een richting voor het toepassen van LLMs op tekstgebaseerde gebruikersinterfaces.