Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De complexiteit van het uitlijningsprobleem komt voort uit het feit dat bestaande methoden instabiel zijn. Onderzoekers bedenken voortdurend verschillende trucs om dit tekort aan te pakken. Bijvoorbeeld, in de fundamentele techniek van Reinforcement Learning From Human Feedback (RLHF) voor het uitlijnen van taalmodel, wordt naast het maximaliseren van de beloning ook de Kullback-Leibler-divergentie tussen het trainbare beleid en het SFT-beleid geminimaliseerd. Deze toevoeging voorkomt dat het model overfit raakt op het Beloningsmodel (RM) en teksten genereert die buiten het domein van het RM vallen. De Direct Preference Optimization (DPO)-methode herformuleert de optimalisatietaak van RLHF en elimineert het Beloningsmodel, terwijl impliciet de eis wordt gehandhaafd dat het beleid dicht bij het SFT-beleid blijft. In ons artikel betogen we dat deze impliciete beperking in de DPO-methode leidt tot suboptimale resultaten. Wij stellen een nieuwe methode voor genaamd Trust Region DPO (TR-DPO), die het referentiebeleid tijdens de training bijwerkt. Met zo'n eenvoudige update demonstreren we de effectiviteit van TR-DPO ten opzichte van DPO op de Anthropic HH- en TLDR-datasets. We laten zien dat TR-DPO DPO met tot wel 19% overtreft, gemeten door automatische evaluatie met GPT-4. De nieuwe uitlijningsaanpak die wij voorstellen stelt ons in staat om de kwaliteit van modellen op verschillende parameters tegelijk te verbeteren, zoals samenhang, correctheid, detailniveau, behulpzaamheid en onschadelijkheid.
De kwadratische complexiteit en zwakke lengte-extrapolatie van Transformers beperken hun vermogen om op te schalen naar lange sequenties, en hoewel sub-kwadratische oplossingen zoals lineaire aandacht en state space-modellen bestaan, presteren ze empirisch minder goed dan Transformers in pretrainings-efficiëntie en nauwkeurigheid bij downstream-taken. Wij introduceren Megalodon, een neurale architectuur voor efficiënte sequentiemodellering met onbeperkte contextlengte. Megalodon erft de architectuur van Mega (exponentieel voortschrijdend gemiddelde met gated attention), en introduceert verder meerdere technische componenten om de capaciteit en stabiliteit te verbeteren, waaronder complex exponentieel voortschrijdend gemiddelde (CEMA), timestep-normalisatielaag, genormaliseerd aandachtmechanisme en pre-norm met een two-hop restconfiguratie. In een gecontroleerde head-to-head vergelijking met Llama2 behaalt Megalodon een betere efficiëntie dan Transformer op de schaal van 7 miljard parameters en 2 biljoen trainings-tokens. Megalodon bereikt een trainingsverlies van 1,70, wat halverwege ligt tussen Llama2-7B (1,75) en 13B (1,67). Code: https://github.com/XuezheMax/megalodon
Hoewel Transformers een revolutie teweeg hebben gebracht in deep learning, belemmert hun kwadratische aandachtcomplexiteit hun vermogen om oneindig lange invoer te verwerken. Wij stellen Feedback Attention Memory (FAM) voor, een nieuwe Transformer-architectuur die gebruikmaakt van een feedbacklus om het netwerk in staat te stellen zijn eigen latente representaties te benaderen. Dit ontwerp bevordert het ontstaan van werkgeheugen binnen de Transformer, waardoor deze oneindig lange sequenties kan verwerken. TransformerFAM vereist geen extra gewichten, wat een naadloze integratie met vooraf getrainde modellen mogelijk maakt. Onze experimenten tonen aan dat TransformerFAM de prestaties van Transformers aanzienlijk verbetert bij taken met lange contexten, over verschillende modelgroottes (1B, 8B en 24B). Deze resultaten laten het potentieel zien om Large Language Models (LLMs) in staat te stellen sequenties van onbeperkte lengte te verwerken.
Het creëren van hoogwaardige en interactieve virtuele omgevingen, zoals games en simulatoren, vereist vaak complexe en kostbare handmatige modelleringsprocessen. In dit artikel presenteren we Video2Game, een nieuwe aanpak die video's van real-world scènes automatisch omzet in realistische en interactieve game-omgevingen. De kern van ons systeem bestaat uit drie hoofdcomponenten: (i) een neural radiance fields (NeRF)-module die de geometrie en visuele verschijning van de scène effectief vastlegt; (ii) een mesh-module die de kennis van NeRF destilleert voor snellere rendering; en (iii) een physics-module die de interacties en fysieke dynamiek tussen de objecten modelleert. Door het zorgvuldig ontworpen pipeline te volgen, kan men een interactieve en actiegerichte digitale replica van de echte wereld construeren. We testen ons systeem op zowel binnen- als grootschalige buitenomgevingen. We tonen aan dat we niet alleen zeer realistische renderings in realtime kunnen produceren, maar ook interactieve games kunnen bouwen.
Er bestaat een overtuiging dat goed leren comprimeren tot intelligentie zal leiden. Recentelijk is aangetoond dat taalmodelvorming equivalent is aan compressie, wat een overtuigende verklaring biedt voor het succes van grote taalmodelen (LLM's): de ontwikkeling van geavanceerdere taalmodelen komt in essentie neer op het verbeteren van compressie, wat intelligentie bevordert. Ondanks deze aantrekkelijke discussies is er weinig empirisch bewijs voor de wisselwerking tussen compressie en intelligent. In dit werk onderzoeken we hun relatie in de context van LLM's, waarbij we LLM's behandelen als datacompressoren. Gezien het abstracte concept van "intelligent", nemen we de gemiddelde scores van downstream benchmarks als surrogaat, specifiek gericht op intelligentie gerelateerd aan kennis en gezond verstand, coderen en wiskundig redeneren. Over 12 benchmarks brengt onze studie 30 openbare LLM's samen die afkomstig zijn van diverse organisaties. Opmerkelijk genoeg vinden we dat de intelligentie van LLM's — weerspiegeld door gemiddelde benchmarkscores — bijna lineair correleert met hun vermogen om externe tekstcorpora te comprimeren. Deze resultaten bieden concreet bewijs ter ondersteuning van de overtuiging dat superieure compressie wijst op grotere intelligentie. Bovendien suggereren onze bevindingen dat compressie-efficiëntie, als een onbewaakte metriek afgeleid van ruwe tekstcorpora, dient als een betrouwbare evaluatiemaatstaf die lineair geassocieerd is met de modelcapaciteiten. We open-sourcen onze compressiedatasets evenals onze datacollectiepijplijnen om toekomstige onderzoekers in staat te stellen compressie op de juiste manier te beoordelen.
ControlNets worden veel gebruikt voor het toevoegen van ruimtelijke controle bij beeldgeneratie met verschillende voorwaarden, zoals dieptekaarten, canny edges en menselijke poses. Er zijn echter verschillende uitdagingen bij het benutten van vooraf getrainde ControlNets voor gecontroleerde videogeneratie. Ten eerste kunnen vooraf getrainde ControlNets niet direct worden aangesloten op nieuwe backbone-modellen vanwege de mismatch in kenmerkruimten, en de kosten van het trainen van ControlNets voor nieuwe backbones vormen een grote last. Ten tweede kunnen ControlNet-kenmerken voor verschillende frames mogelijk niet effectief omgaan met temporele consistentie. Om deze uitdagingen aan te pakken, introduceren we Ctrl-Adapter, een efficiënt en veelzijdig framework dat diverse controles toevoegt aan elk beeld/video-diffusiemodel, door vooraf getrainde ControlNets aan te passen (en temporele uitlijning voor video's te verbeteren). Ctrl-Adapter biedt diverse mogelijkheden, waaronder beeldcontrole, videocontrole, videocontrole met verspreide frames, multiconditiecontrole, compatibiliteit met verschillende backbones, aanpassing aan onbekende controlecondities en videobewerking. In Ctrl-Adapter trainen we adapterlagen die vooraf getrainde ControlNet-kenmerken integreren in verschillende beeld/video-diffusiemodellen, terwijl de parameters van de ControlNets en de diffusiemodellen bevroren blijven. Ctrl-Adapter bestaat uit temporele en ruimtelijke modules, zodat het effectief kan omgaan met de temporele consistentie van video's. We stellen ook latent skipping en inverse timestep sampling voor voor robuuste aanpassing en verspreide controle. Bovendien maakt Ctrl-Adapter controle vanuit meerdere condities mogelijk door simpelweg het (gewogen) gemiddelde van ControlNet-uitvoer te nemen. Met diverse beeld/video-diffusiebackbones (SDXL, Hotshot-XL, I2VGen-XL en SVD) evenaart Ctrl-Adapter ControlNet voor beeldcontrole en overtreft het alle baseline-methoden voor videocontrole (waarbij het de SOTA-nauwkeurigheid op de DAVIS 2017-dataset behaalt) met aanzienlijk lagere rekenkosten (minder dan 10 GPU-uren).
Dit onderzoek introduceert HQ-Edit, een hoogwaardige instructiegebaseerde dataset voor beeldbewerking met ongeveer 200.000 bewerkingen. In tegenstelling tot eerdere benaderingen die vertrouwen op attribuutbegeleiding of menselijke feedback voor het opbouwen van datasets, ontwikkelen we een schaalbare datacollectiepijplijn die gebruikmaakt van geavanceerde foundationmodellen, namelijk GPT-4V en DALL-E 3. Om de hoge kwaliteit te waarborgen, worden eerst diverse voorbeelden online verzameld, uitgebreid en vervolgens gebruikt om hoogwaardige diptieken te creëren met invoer- en uitvoerafbeeldingen en gedetailleerde tekstprompts, gevolgd door nauwkeurige uitlijning die wordt gegarandeerd door post-processing. Daarnaast stellen we twee evaluatiemetrics voor, Alignment en Coherence, om de kwaliteit van beeldbewerkingsparen kwantitatief te beoordelen met behulp van GPT-4V. De hoogwaardige afbeeldingen van HQ-Edit, rijk aan details en vergezeld van uitgebreide bewerkingsprompts, verbeteren de mogelijkheden van bestaande beeldbewerkingsmodellen aanzienlijk. Zo kan een met HQ-Edit gefinetuned InstructPix2Pix state-of-the-art prestaties leveren in beeldbewerking, zelfs modellen overtreffen die zijn gefinetuned met door mensen geannoteerde data. De projectpagina is te vinden op https://thefllood.github.io/HQEdit_web.
Inferentie met Multimodale Grote Taalmodellen (MLLMs) is traag vanwege hun grote-taalmodel-backbone, die te lijden heeft onder een geheugenbandbreedteknelpunt en tokens auto-regressief genereert. In dit artikel onderzoeken we de toepassing van speculatieve decodering om de inferentie-efficiëntie van MLLMs te verbeteren, specifiek het LLaVA 7B-model. We tonen aan dat een taal-only model kan dienen als een goed conceptmodel voor speculatieve decodering met LLaVA 7B, waardoor de noodzaak voor beeldtokens en hun bijbehorende verwerkingscomponenten in het conceptmodel wordt omzeild. Onze experimenten over drie verschillende taken tonen aan dat speculatieve decodering een geheugengebonden snelheidswinst van tot 2,37 keer kan bereiken met behulp van een 115M parameter taalmodel dat we vanaf nul hebben getraind. Daarnaast introduceren we een compact LLaVA-conceptmodel met een beeldadapter, dat marginale prestatieverbeteringen laat zien in beeldbeschrijving terwijl het vergelijkbare resultaten behoudt in andere taken.
Generatieve multimodale inhoud wordt steeds gebruikelijker in een groot deel van het contentcreatieveld, omdat het de potentie heeft om kunstenaars en mediamedewerkers in staat te stellen pre-productie mockups te maken door hun ideeën snel tot leven te brengen. Het genereren van audio op basis van tekstprompts is een belangrijk aspect van dergelijke processen in de muziek- en filmindustrie. Veel van de recente op diffusie gebaseerde tekst-naar-audio-modellen richten zich op het trainen van steeds geavanceerdere diffusiemodellen op een grote set datasets van prompt-audio-paren. Deze modellen richten zich niet expliciet op de aanwezigheid van concepten of gebeurtenissen en hun temporele volgorde in de uitvoeraudio ten opzichte van de invoerprompt. Onze hypothese is dat het focussen op deze aspecten van audiogeneratie de prestaties van audiogeneratie zou kunnen verbeteren bij beperkte data. Daarom creëren we in dit werk, met behulp van een bestaand tekst-naar-audio-model Tango, synthetisch een voorkeursdataset waarbij elke prompt een winnaar-audio-uitvoer en enkele verliezer-audio-uitvoeren heeft waar het diffusiemodel van kan leren. De verliezer-uitvoeren hebben in theorie enkele concepten uit de prompt gemist of in een verkeerde volgorde. We fine-tunen het publiek beschikbare Tango tekst-naar-audio-model met behulp van diffusie-DPO (direct preference optimization) verlies op onze voorkeursdataset en laten zien dat dit leidt tot verbeterde audio-uitvoer ten opzichte van Tango en AudioLDM2, zowel in termen van automatische als handmatige evaluatiemetrics.
Multimodale Large Language Models (MLLMs) hebben indrukwekkende resultaten laten zien bij diverse multimodale taken. De meeste bestaande MLLMs zijn echter niet goed geschikt voor documentgerichte taken, die fijnmazige beeldperceptie en informatiecompressie vereisen. In dit artikel presenteren we TextHawk, een MLLM die specifiek is ontworpen voor documentgerichte taken, terwijl de algemene capaciteiten van MLLMs behouden blijven. TextHawk is gericht op het verkennen van efficiënte fijnmazige perceptie door het ontwerpen van vier toegewijde componenten. Ten eerste wordt een ReSampling en ReArrangement (ReSA) module voorgesteld om de redundantie in de documentteksten te verminderen en de rekenkosten van de MLLM te verlagen. We onderzoeken het coderen van de posities van elk lokaal kenmerk door Scalable Positional Embeddings (SPEs) te presenteren, die de schaalbaarheid van verschillende beeldformaten kunnen behouden. Een Query Proposal Network (QPN) wordt vervolgens gebruikt om de queries dynamisch te initialiseren tussen verschillende sub-beelden. Om de fijnmazige visuele perceptuele vaardigheid van de MLLM verder te verbeteren, ontwerpen we een Multi-Level Cross-Attention (MLCA) mechanisme dat de hiërarchische structuur en semantische relaties van documentbeelden vastlegt. Bovendien creëren we een nieuwe instructie-afstemmingsdataset voor documentgerichte taken door multimodale documentgegevens te verrijken met Gemini Pro. We voeren uitgebreide experimenten uit op zowel algemene als documentgerichte MLLM benchmarks, en laten zien dat TextHawk de state-of-the-art methoden overtreft, wat de effectiviteit en superioriteit aantoont in fijnmazige documentperceptie en algemene vaardigheden.
Neural Radiance Field (NeRF) is een representatie voor 3D-reconstructie op basis van multi-view afbeeldingen. Ondanks enig recent werk dat voorlopig succes heeft laten zien bij het bewerken van een gereconstrueerde NeRF met een diffusieprior, blijven ze moeite hebben om redelijke geometrie te synthetiseren in volledig onbedekte regio's. Een belangrijke reden hiervoor is de hoge diversiteit van synthetische inhoud van het diffusiemodel, wat het stralingsveld belemmert om te convergeren naar een scherpe en deterministische geometrie. Bovendien leidt het toepassen van latente diffusiemodellen op echte data vaak tot een textuurverschuiving die niet coherent is met de beeldconditie vanwege auto-encoderingsfouten. Deze twee problemen worden verder versterkt door het gebruik van pixelafstandsverliezen. Om deze problemen aan te pakken, stellen we voor om de stochastiek van het diffusiemodel te temperen met per-scene-customisatie en de textuurverschuiving te verminderen met gemaskeerde adversariële training. Tijdens de analyses ontdekten we ook dat de veelgebruikte pixel- en perceptuele verliezen schadelijk zijn voor de NeRF-inpaintingtaak. Door middel van rigoureuze experimenten levert ons framework state-of-the-art NeRF-inpaintingresultaten op voor verschillende real-world scènes. Projectpagina: https://hubert0527.github.io/MALD-NeRF
Gaussian splatting, bekend om zijn uitzonderlijke renderkwaliteit en efficiëntie, is naar voren gekomen als een prominente techniek voor 3D-scèneweergave. Het aanzienlijke datavolume van Gaussian splatting belemmert echter het praktische nut ervan in real-world toepassingen. Hier stellen we een efficiënte 3D-scèneweergave voor, genaamd Compressed Gaussian Splatting (CompGS), die compacte Gaussian-primitieven benut voor nauwkeurige 3D-scènemodellering met een aanzienlijk gereduceerde datagrootte. Om de compactheid van Gaussian-primitieven te waarborgen, ontwerpen we een hybride primitiefstructuur die voorspellende relaties tussen elkaar vastlegt. Vervolgens gebruiken we een kleine set ankerprimitieven voor voorspelling, waardoor de meerderheid van de primitieven kan worden ingekapseld in zeer compacte restvormen. Bovendien ontwikkelen we een snelheidsbeperkt optimalisatieschema om redundantie binnen dergelijke hybride primitieven te elimineren, wat onze CompGS naar een optimale balans tussen bitrateverbruik en weergave-effectiviteit stuurt. Experimentele resultaten tonen aan dat de voorgestelde CompGS bestaande methoden aanzienlijk overtreft, met superieure compactheid in 3D-scèneweergave zonder in te leveren op modelnauwkeurigheid en renderkwaliteit. Onze code zal worden vrijgegeven op GitHub voor verder onderzoek.