Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren SUPIR (Scaling-UP Image Restoration), een baanbrekende methode voor beeldherstel die gebruikmaakt van generatieve prior en de kracht van modelschaling. Door gebruik te maken van multimodale technieken en geavanceerde generatieve prior, markeert SUPIR een significante vooruitgang in intelligent en realistisch beeldherstel. Als een cruciale katalysator binnen SUPIR, verbetert modelschaling de mogelijkheden aanzienlijk en toont het nieuwe potentieel voor beeldherstel. We hebben een dataset verzameld bestaande uit 20 miljoen hoogwaardige, hoogresolutiebeelden voor modeltraining, elk verrijkt met beschrijvende tekstannotaties. SUPIR biedt de mogelijkheid om beelden te herstellen onder begeleiding van tekstuele prompts, waardoor het toepassingsbereik en potentieel worden verbreed. Bovendien introduceren we negatieve-kwaliteit prompts om de perceptuele kwaliteit verder te verbeteren. We ontwikkelen ook een herstelgeleide bemonsteringsmethode om het trouwheidsprobleem dat wordt aangetroffen bij generatief gebaseerd herstel te onderdrukken. Experimenten tonen de uitzonderlijke hersteleffecten van SUPIR en de nieuwe capaciteit om herstel te manipuleren via tekstuele prompts.
Token-vrije taalmodellen leren rechtstreeks van ruwe bytes en verwijderen de bias van subwoord-tokenisatie. Werken op bytes resulteert echter in aanzienlijk langere sequenties, en standaard autoregressieve Transformers schalen slecht in dergelijke situaties. We experimenteren met MambaByte, een token-vrije aanpassing van het Mamba state space model, dat autoregressief getraind is op byte-sequenties. Onze experimenten wijzen op de computationele efficiëntie van MambaByte in vergelijking met andere byte-level modellen. We ontdekken ook dat MambaByte concurrerend is met en zelfs beter presteert dan state-of-the-art subwoord-Transformers. Bovendien profiteert MambaByte, dankzij lineaire schaling in lengte, van snellere inferentie in vergelijking met Transformers. Onze bevindingen bevestigen de haalbaarheid van MambaByte in het mogelijk maken van token-vrije taalmodellering.
In het afgelopen jaar hebben MultiModal Large Language Models (MM-LLMs) aanzienlijke vooruitgang geboekt, waarbij kant-en-klare LLMs zijn uitgebreid om multimodale invoer of uitvoer te ondersteunen via kosteneffectieve trainingsstrategieën. De resulterende modellen behouden niet alleen de inherente redeneer- en besluitvormingscapaciteiten van LLMs, maar maken ook een breed scala aan multimodale taken mogelijk. In dit artikel bieden we een uitgebreid overzicht dat gericht is op het faciliteren van verder onderzoek naar MM-LLMs. Specifiek schetsen we eerst algemene ontwerpformuleringen voor modelarchitectuur en trainingspijplijn. Vervolgens geven we korte introducties van 26 bestaande MM-LLMs, elk gekenmerkt door specifieke formuleringen. Daarnaast bespreken we de prestaties van MM-LLMs op gangbare benchmarks en vatten we belangrijke trainingsrecepten samen om de kracht van MM-LLMs te vergroten. Tot slot verkennen we veelbelovende richtingen voor MM-LLMs, terwijl we tegelijkertijd een real-time trackingwebsite onderhouden voor de nieuwste ontwikkelingen in het veld. We hopen dat dit overzicht bijdraagt aan de voortdurende vooruitgang van het MM-LLMs-domein.
De vooruitgang van grote taalmodelen (LLM's) markeert een nieuw tijdperk, gekenmerkt door de ontwikkeling van autonome toepassingen in de echte wereld, wat innovatie aanwakkert in het creëren van geavanceerde webgebaseerde agents. Bestaande webagents hanteren doorgaans slechts één invoermodaliteit en worden alleen geëvalueerd in vereenvoudigde websimulators of statische webmomentopnamen, wat hun toepasbaarheid in realistische scenario's sterk beperkt. Om deze kloof te overbruggen, introduceren we WebVoyager, een innovatieve webagent aangedreven door een groot multimodaal model (LMM) die gebruikersinstructies end-to-end kan uitvoeren door interactie met echte websites. Bovendien stellen we een nieuw evaluatieprotocol voor webagents voor om de uitdagingen van automatische evaluatie van open-ended webagenttaken aan te pakken, waarbij we gebruikmaken van de robuuste multimodale begripscapaciteiten van GPT-4V. We creëren een nieuwe benchmark door realistische taken te verzamelen van 15 veelgebruikte websites om onze agents te evalueren. We tonen aan dat WebVoyager een taaksuccespercentage van 55,7% behaalt, wat aanzienlijk beter is dan de prestaties van zowel GPT-4 (All Tools) als de WebVoyager (tekst-only) setups, wat de uitzonderlijke capaciteiten van WebVoyager in praktische toepassingen onderstreept. We ontdekten dat onze voorgestelde automatische evaluatie een overeenkomst van 85,3% bereikt met menselijk oordeel, wat de weg vrijmaakt voor verdere ontwikkeling van webagents in een realistische omgeving.
Recente tekst-naar-beeld generatiemodellen hebben ongelooflijk succes geboekt in het genereren van afbeeldingen die nauwkeurig de invoerprompts volgen. De vereiste om woorden te gebruiken om een gewenst concept te beschrijven, biedt echter beperkte controle over het uiterlijk van de gegenereerde concepten. In dit werk pakken we dit tekort aan door een benadering voor te stellen om personalisatiemogelijkheden in bestaande tekst-naar-beeld diffusiemodellen mogelijk te maken. We introduceren een nieuwe architectuur (BootPIG) die een gebruiker in staat stelt referentieafbeeldingen van een object te verstrekken om het uiterlijk van een concept in de gegenereerde afbeeldingen te sturen. De voorgestelde BootPIG-architectuur brengt minimale wijzigingen aan in een vooraf getraind tekst-naar-beeld diffusiemodel en maakt gebruik van een apart UNet-model om de generaties naar het gewenste uiterlijk te sturen. We introduceren een trainingsprocedure waarmee we personalisatiemogelijkheden in de BootPIG-architectuur kunnen bootstrappen met behulp van gegevens die gegenereerd zijn uit vooraf getrainde tekst-naar-beeld modellen, LLM-chatagents en beeldsegmentatiemodellen. In tegenstelling tot bestaande methoden die meerdere dagen van voorafgaande training vereisen, kan de BootPIG-architectuur in ongeveer 1 uur worden getraind. Experimenten op de DreamBooth-dataset tonen aan dat BootPIG bestaande zero-shot-methoden overtreft en vergelijkbaar is met test-time finetuning benaderingen. Door middel van een gebruikersstudie valideren we de voorkeur voor BootPIG-generaties boven bestaande methoden, zowel in het behouden van de trouw aan het uiterlijk van het referentieobject als in het afstemmen op tekstuele prompts.
Het vooraf trainen van grote taalmodellen staat bekend als extreem resource-intensief en vaak inefficiënt, waarbij de informatie in de trainings-tekstreeksen onderbenut blijft. In dit artikel presenteren we SpacTor, een nieuwe trainingsprocedure die bestaat uit (1) een hybride doelstelling die span corruption (SC) en token replacement detection (RTD) combineert, en (2) een tweefasen-curriculum dat de hybride doelstelling optimaliseert gedurende de eerste tau iteraties, waarna het overgaat op standaard SC-verlies. We tonen empirisch aan dat de effectiviteit van de hybride doelstelling verbonden is aan het tweefasen-trainingsschema en bieden uitgebreide analyse waarom dit het geval is. In onze experimenten met encoder-decoder-architecturen (T5) op een verscheidenheid aan NLP-taken, levert SpacTor-T5 dezelfde downstream-prestaties als standaard SC-vooraf-training, terwijl het een reductie van 50% in vooraf-trainingsiteraties en 40% in totale FLOPs mogelijk maakt. Als alternatief, bij hetzelfde rekenbudget, vinden we dat SpacTor resulteert in aanzienlijk verbeterde downstream-benchmarkprestaties.
Onlangs hebben tekst-naar-3D-benaderingen hoogwaardige 3D-inhoudgeneratie bereikt met behulp van tekstbeschrijvingen. De gegenereerde objecten zijn echter stochastisch en missen gedetailleerde controle. Schetsen bieden een goedkope manier om dergelijke gedetailleerde controle in te voeren. Desondanks is het uitdagend om flexibele controle te bereiken vanuit deze schetsen vanwege hun abstractie en ambiguïteit. In dit artikel presenteren we een multi-view schets-gestuurde tekst-naar-3D-generatieframework (genaamd Sketch2NeRF) om schetscontrole toe te voegen aan 3D-generatie. Specifiek maakt onze methode gebruik van vooraf getrainde 2D-diffusiemodellen (bijvoorbeeld Stable Diffusion en ControlNet) om de optimalisatie van een 3D-scène, gerepresenteerd door een neural radiance field (NeRF), te begeleiden. We stellen een nieuwe gesynchroniseerde generatie- en reconstructiemethode voor om de NeRF effectief te optimaliseren. In de experimenten hebben we twee soorten multi-view schetsdatasets verzameld om de voorgestelde methode te evalueren. We tonen aan dat onze methode 3D-consistente inhoud kan synthetiseren met gedetailleerde schetscontrole, terwijl het hoogwaardig blijft ten opzichte van tekstprompts. Uitgebreide resultaten laten zien dat onze methode state-of-the-art prestaties bereikt op het gebied van schetsgelijkenis en tekstuitlijning.
Grote taalmodellen hebben de stand van de techniek in natuurlijke taalverwerking vooruitgebracht. Hun overheersende ontwerp voor Engels of een beperkte set talen creëert echter een aanzienlijke kloof in hun effectiviteit voor talen met weinig bronnen. Om deze kloof te overbruggen, introduceren we MaLA-500, een nieuw groot taalmodel dat is ontworpen om een uitgebreid bereik van 534 talen te bestrijken. Om MaLA-500 te trainen, gebruiken we vocabulaire-uitbreiding en voortgezet vooraf trainen op LLaMA 2 met Glot500-c. Onze experimenten op SIB-200 tonen aan dat MaLA-500 state-of-the-art resultaten behaalt in contextueel leren. We maken MaLA-500 beschikbaar op https://huggingface.co/MaLA-LM.
Recente vooruitgang in AI heeft geleid tot de ontwikkeling van grote multimodale modellen (LMMs) die in staat zijn complexe taken te verwerken die gezamenlijke redenering over tekst en visuele inhoud in afbeeldingen vereisen (bijvoorbeeld het navigeren van kaarten in openbare ruimtes). Dit artikel introduceert ConTextual, een nieuwe benchmark bestaande uit instructies die expliciet zijn ontworpen om het vermogen van LMMs te evalueren om contextgevoelige, tekstrijke visuele redeneringen uit te voeren. ConTextual legt de nadruk op diverse realistische scenario's (bijvoorbeeld tijdsaanduiding, navigatie, winkelen en meer) die een dieper begrip vereisen van de interacties tussen tekstuele en visuele elementen. Onze bevindingen tonen een significant prestatieverschil van 30,8% tussen het best presterende LMM, GPT-4V(ision), en menselijke capaciteiten bij gebruik van menselijke evaluatie, wat wijst op aanzienlijke ruimte voor verbetering in contextgevoelige, tekstrijke visuele redeneringen. Opmerkelijk is dat GPT-4V weliswaar uitblonk in abstracte categorieën zoals meme- en citateninterpretatie, maar dat de algehele prestaties nog steeds achterbleven bij die van mensen. Naast menselijke evaluaties hebben we ook automatische evaluatiemetrics gebruikt met GPT-4, waarbij vergelijkbare trends in prestatieverschillen werden ontdekt. We voeren ook een gedetailleerde evaluatie uit in diverse visuele contexten en bieden een kwalitatieve analyse, wat een robuust kader biedt voor toekomstige vooruitgang in het ontwerp van LMMs. https://con-textual.github.io/
Bestaande tekst-naar-beeld diffusiemodellen genereren voornamelijk afbeeldingen op basis van tekstprompts. De inherente beknoptheid van tekstuele beschrijvingen brengt echter uitdagingen met zich mee bij het nauwkeurig synthetiseren van afbeeldingen met gedetailleerde elementen, zoals specifieke entiteiten of scènes. Dit artikel presenteert UNIMO-G, een eenvoudig multimodaal conditioneel diffusiekader dat werkt met multimodale prompts die afwisselend tekstuele en visuele invoer bevatten, en dat een verenigd vermogen demonstreert voor zowel tekstgestuurde als onderwerpgestuurde beeldgeneratie. UNIMO-G bestaat uit twee kerncomponenten: een Multimodaal Taalmodel op Grote Schaal (MLLM) voor het coderen van multimodale prompts, en een conditioneel denoiserend diffusienetwerk voor het genereren van afbeeldingen op basis van de gecodeerde multimodale invoer. We maken gebruik van een tweefasige trainingsstrategie om het kader effectief te trainen: eerst pre-training op grootschalige tekst-beeldparen om conditionele beeldgeneratiecapaciteiten te ontwikkelen, en vervolgens instructieafstemming met multimodale prompts om een verenigde beeldgeneratievaardigheid te bereiken. Een goed ontworpen gegevensverwerkingspijplijn met taalverankering en beeldsegmentatie wordt gebruikt om multimodale prompts te construeren. UNIMO-G blinkt uit in zowel tekst-naar-beeldgeneratie als zero-shot onderwerpgestuurde synthese, en is bijzonder effectief in het genereren van hoogwaardige afbeeldingen vanuit complexe multimodale prompts die meerdere beeldentiteiten omvatten.
Grootschalige tekst-naar-beeld generatieve modellen hebben indrukwekkende vooruitgang geboekt, waarbij ze hun vermogen hebben getoond om een breed scala aan hoogwaardige afbeeldingen te synthetiseren. Het aanpassen van deze modellen voor artistieke beeldbewerking brengt echter twee belangrijke uitdagingen met zich mee. Ten eerste hebben gebruikers moeite met het formuleren van tekstuele prompts die visuele elementen van de invoerafbeelding nauwkeurig detailleren. Ten tweede verstoren veelvoorkomende modellen, bij het aanbrengen van wijzigingen in specifieke zones, vaak de algehele artistieke stijl, wat het bereiken van samenhangende en esthetisch verenigde kunstwerken bemoeilijkt. Om deze obstakels te overwinnen, hebben we het innovatieve unified framework CreativeSynth ontwikkeld, dat gebaseerd is op een diffusiemodel met de mogelijkheid om multimodale invoer te coördineren en multitasken op het gebied van artistieke beeldgeneratie. Door multimodale kenmerken te integreren met aangepaste aandachtmechanismen, vergemakkelijkt CreativeSynth het importeren van real-world semantische inhoud in het domein van kunst door inversie en real-time stijloverdracht. Hierdoor wordt een nauwkeurige manipulatie van beeldstijl en -inhoud mogelijk gemaakt, terwijl de integriteit van de oorspronkelijke modelparameters behouden blijft. Uitvoerige kwalitatieve en kwantitatieve evaluaties benadrukken dat CreativeSynth uitblinkt in het verbeteren van de getrouwheid van artistieke afbeeldingen en hun inherente esthetische essentie behoudt. Door de kloof tussen generatieve modellen en artistiek vakmanschap te overbruggen, wordt CreativeSynth een op maat gemaakt digitaal palet.