Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het trainen van tekst-naar-beeldmodellen met web-schaal beeld-tekstparen maakt het mogelijk om een breed scala aan visuele concepten uit tekst te genereren. Deze vooraf getrainde modellen hebben echter vaak moeite met het genereren van zeer esthetische beelden. Dit creëert de behoefte aan esthetische afstemming na de voorafgaande training. In dit artikel stellen we kwaliteitsafstemming voor om een vooraf getraind model effectief te begeleiden bij het uitsluitend genereren van zeer visueel aantrekkelijke beelden, terwijl de algemeenheid over visuele concepten behouden blijft. Onze belangrijkste inzicht is dat supervised fine-tuning met een verrassend kleine maar extreem visueel aantrekkelijke set beelden de generatiekwaliteit aanzienlijk kan verbeteren. We trainen een latent diffusiemodel vooraf op 1,1 miljard beeld-tekstparen en stemmen het af met slechts enkele duizenden zorgvuldig geselecteerde hoogwaardige beelden. Het resulterende model, Emu, behaalt een winstpercentage van 82,9% in vergelijking met zijn alleen vooraf getrainde tegenhanger. Vergeleken met de state-of-the-art SDXLv1.0, wordt Emu 68,4% en 71,3% van de tijd verkozen op visuele aantrekkelijkheid op de standaard PartiPrompts en onze Open User Input-benchmark, gebaseerd op het real-world gebruik van tekst-naar-beeldmodellen. Daarnaast tonen we aan dat kwaliteitsafstemming een generieke aanpak is die ook effectief is voor andere architecturen, waaronder pixel-diffusie en gemaskerde generatieve transformermodellen.
Wij stellen voor om vectorquantisatie (VQ) in de latente representatie van VQ-VAEs te vervangen door een eenvoudig schema genaamd eindige scalaire quantisatie (FSQ), waarbij we de VAE-representatie terugbrengen tot een beperkt aantal dimensies (meestal minder dan 10). Elke dimensie wordt gequantiseerd naar een kleine set vaste waarden, wat resulteert in een (impliciet) codeboek dat wordt gevormd door het product van deze sets. Door het aantal dimensies en de waarden die elke dimensie kan aannemen zorgvuldig te kiezen, verkrijgen we dezelfde codeboekgrootte als bij VQ. Op basis van dergelijke discrete representaties kunnen we dezelfde modellen trainen die zijn getraind op VQ-VAE-representaties. Bijvoorbeeld autoregressieve en gemaskeerde transformermodellen voor beeldgeneratie, multimodale generatie en dichte voorspellingscomputer vision-taken. Concreet gebruiken we FSQ met MaskGIT voor beeldgeneratie en met UViM voor diepteschatting, inkleuring en panoptische segmentatie. Ondanks het veel eenvoudigere ontwerp van FSQ behalen we competitieve prestaties in al deze taken. Wij benadrukken dat FSQ niet lijdt onder codeboekcollaps en niet de complexe mechanismen nodig heeft die bij VQ worden gebruikt (commitmentverliezen, codeboekherinitialisatie, codesplitsing, entropiestraffen, etc.) om expressieve discrete representaties te leren.
We stellen een neuraal taalmodelleersysteem voor op basis van low-rank adaptatie (LoRA) voor het herscoren van spraakherkenningsuitvoer. Hoewel voorgetrainde taalmmodellen (LMs) zoals BERT superieure prestaties hebben getoond bij tweede-pass herscoring, beperken de hoge rekenkosten van het opschalen van de voorafgaande trainingsfase en het aanpassen van de voorgetrainde modellen aan specifieke domeinen hun praktische bruikbaarheid bij herscoring. Hier presenteren we een methode gebaseerd op low-rank decompositie om een herscorings-BERT-model te trainen en aan te passen aan nieuwe domeinen met slechts een fractie (0,08%) van de voorgetrainde parameters. Deze ingevoegde matrices worden geoptimaliseerd via een discriminatief trainingsdoel samen met een correlatiegebaseerde regularisatieverlies. De voorgestelde low-rank adaptatie Rescore-BERT (LoRB) architectuur wordt geëvalueerd op LibriSpeech en interne datasets met verminderde trainingstijden met factoren tussen 5,4 en 3,6.
Er zijn aanzienlijke vooruitgangen geboekt op het gebied van grootschalige, vooraf getrainde tekst-naar-video Diffusion Models (VDMs). Eerdere methoden vertrouwen echter uitsluitend op pixelgebaseerde VDMs, die gepaard gaan met hoge rekenkosten, of op latent-gebaseerde VDMs, die vaak moeite hebben met een precieze tekst-video-afstemming. In dit artikel introduceren wij als eerste een hybride model, genaamd Show-1, dat pixelgebaseerde en latent-gebaseerde VDMs combineert voor tekst-naar-video-generatie. Ons model gebruikt eerst pixelgebaseerde VDMs om een video met lage resolutie te produceren die een sterke tekst-video-correlatie vertoont. Vervolgens stellen wij een nieuwe expertvertaal-methode voor die latent-gebaseerde VDMs inzet om de video met lage resolutie verder op te schalen naar hoge resolutie. In vergelijking met latent VDMs kan Show-1 hoogwaardige video's produceren met een precieze tekst-video-afstemming; in vergelijking met pixel VDMs is Show-1 veel efficiënter (het GPU-geheugengebruik tijdens inferentie is 15G versus 72G). Wij valideren ons model ook op standaard benchmarks voor videogeneratie. Onze code en modelgewichten zijn openbaar beschikbaar op https://github.com/showlab/Show-1.
We presenteren een nieuw type neurale velden dat gebruikmaakt van algemene radiale basisfuncties voor signaalrepresentatie. State-of-the-art neurale velden vertrouwen doorgaans op rastergebaseerde representaties voor het opslaan van lokale neurale kenmerken en N-dimensionale lineaire kernels voor het interpoleren van kenmerken op continue querypunten. De ruimtelijke posities van hun neurale kenmerken zijn vastgelegd op rasterknooppunten en kunnen zich niet goed aanpassen aan doelsignalen. Onze methode bouwt daarentegen voort op algemene radiale basisfuncties met flexibele kernelposities en -vormen, die een hogere ruimtelijke aanpassingsvermogen hebben en doelsignalen nauwkeuriger kunnen benaderen. Om de kanaalgewijze capaciteit van radiale basisfuncties verder te verbeteren, stellen we voor om ze te combineren met multifrequente sinusfuncties. Deze techniek breidt een radiale basisfunctie uit naar meerdere Fourier-radiale basisfuncties van verschillende frequentiebanden zonder extra parameters te vereisen, wat de representatie van details vergemakkelijkt. Bovendien erft onze hybride combinatie, door adaptieve radiale basisfuncties te combineren met rastergebaseerde, zowel aanpassingsvermogen als interpolatiegladheid. We hebben zorgvuldig gewichtingsschema's ontworpen om radiale basisfuncties effectief te laten aanpassen aan verschillende soorten signalen. Onze experimenten met 2D-beeld- en 3D-ondertekende afstandsveldrepresentatie demonstreren de hogere nauwkeurigheid en compactheid van onze methode in vergelijking met eerdere technieken. Wanneer toegepast op neurale stralingsveldreconstructie, bereikt onze methode state-of-the-art renderkwaliteit, met een klein modelformaat en vergelijkbare trainingssnelheid.
De afgelopen jaren hebben vooruitgangen in grootschalige voorafgaande training van taal- en tekst-naar-beeldmodellen een revolutie teweeggebracht in het veld van machine learning. Het integreren van deze twee modaliteiten in één robuust model dat naadloze multimodale uitvoer kan genereren, blijft echter een aanzienlijke uitdaging. Om deze kloof te overbruggen, presenteren we het Joint Autoregressive Mixture (JAM)-framework, een modulaire aanpak die bestaande tekst- en beeldgeneratiemodellen systematisch samenvoegt. We introduceren ook een gespecialiseerde, data-efficiënte instructie-afstemmingsstrategie, afgestemd op gemengde modale generatietaken. Ons uiteindelijke instructie-afgestemde model toont ongeëvenaarde prestaties in het genereren van hoogwaardige multimodale uitvoer en vertegenwoordigt het eerste model dat expliciet voor dit doel is ontworpen.
Het begrijpen van hoe mensen fysiek contact gebruiken om te interageren met de wereld is essentieel voor het ontwikkelen van mensgerichte kunstmatige intelligentie. Hoewel het afleiden van 3D-contact cruciaal is voor het modelleren van realistische en fysisch plausibele mens-objectinteracties, richten bestaande methodes zich ofwel op 2D, beschouwen ze lichaamsgewrichten in plaats van het oppervlak, gebruiken ze grove 3D-lichaamsregio's, of generaliseren ze niet naar afbeeldingen uit de echte wereld. Daarentegen richten wij ons op het afleiden van dicht, 3D-contact tussen het volledige lichaamsoppervlak en objecten in willekeurige afbeeldingen. Om dit te bereiken, verzamelen we eerst DAMON, een nieuwe dataset die dichte, vertexniveau contactannotaties bevat, gekoppeld aan RGB-afbeeldingen met complexe mens-object- en mens-scènecontacten. Ten tweede trainen we DECO, een nieuwe 3D-contactdetector die zowel lichaamsdeelgedreven als scènecontextgedreven aandacht gebruikt om vertexniveau contact op het SMPL-lichaam te schatten. DECO bouwt voort op het inzicht dat menselijke waarnemers contact herkennen door te redeneren over de contactmakende lichaamsdelen, hun nabijheid tot scèneobjecten en de omringende scènecontext. We voeren uitgebreide evaluaties uit van onze detector op DAMON, evenals op de RICH- en BEHAVE-datasets. We overtreffen aanzienlijk de bestaande state-of-the-art methodes op alle benchmarks. We tonen ook kwalitatief aan dat DECO goed generaliseert naar diverse en uitdagende real-world menselijke interacties in natuurlijke afbeeldingen. De code, data en modellen zijn beschikbaar op https://deco.is.tue.mpg.de.
Recentelijk is er een toestroom van studies die claimen dat grote taalmmodellen (LLMs) opkomende cognitieve vaardigheden vertonen. Toch baseren de meeste zich op anekdotes, negeren ze mogelijke contaminatie van trainingssets, of ontbreekt het aan systematische evaluatie met meerdere taken, controlecondities, meerdere iteraties en statistische robuustheidstests. Hier doen we twee belangrijke bijdragen. Ten eerste stellen we CogEval voor, een protocol geïnspireerd op de cognitieve wetenschap voor de systematische evaluatie van cognitieve capaciteiten in grote taalmmodellen. Het CogEval-protocol kan worden gevolgd voor de evaluatie van diverse vaardigheden. Ten tweede passen we CogEval hier toe om systematisch cognitieve kaarten en planningsvaardigheden te evalueren in acht LLMs (OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B en Alpaca-7B). Onze taakprompts zijn gebaseerd op menselijke experimenten, die zowel gevestigde constructvaliditeit bieden voor het evalueren van planning, als afwezig zijn in de trainingssets van LLMs. We constateren dat, hoewel LLMs schijnbare competentie vertonen in enkele plannings taken met eenvoudigere structuren, systematische evaluatie opvallende foutmodi in plannings taken aan het licht brengt, waaronder hallucinaties van ongeldige trajecten en vastlopen in loops. Deze bevindingen ondersteunen niet het idee van opkomende out-of-the-box planningsvaardigheden in LLMs. Dit zou kunnen komen doordat LLMs de onderliggende relationele structuren van planningsproblemen, bekend als cognitieve kaarten, niet begrijpen en falen in het uitrollen van doelgerichte trajecten op basis van de onderliggende structuur. Implicaties voor toepassingen en toekomstige richtingen worden besproken.
Textuele prompt-tuning heeft aanzienlijke prestatieverbeteringen aangetoond bij het aanpassen van natuurlijke-taalverwerkingsmodellen aan een verscheidenheid van downstream taken, door handmatig ontworpen prompts als trainbare parameters te behandelen. Geïnspireerd door het succes van textuele prompting, hebben verschillende studies de effectiviteit van visuele prompt-tuning onderzocht. In dit werk presenteren we Visual Prompt Adaptation (VPA), het eerste raamwerk dat visuele prompting generaliseert met test-time aanpassing. VPA introduceert een klein aantal leerbare tokens, waardoor volledige test-time en opslag-efficiënte aanpassing mogelijk wordt zonder informatie uit het brondomein nodig te hebben. We onderzoeken ons VPA-ontwerp onder diverse aanpassingsinstellingen, waaronder aanpassing van enkele afbeeldingen, batchgewijze afbeeldingen en pseudo-label aanpassing. We evalueren VPA op meerdere taken, waaronder out-of-distribution (OOD) generalisatie, robuustheid tegen corruptie en domeinaanpassing. Experimentele resultaten laten zien dat VPA de OOD-generalisatie effectief verbetert met 3,3% over verschillende modellen, wat eerdere test-time benaderingen overtreft. Bovendien tonen we aan dat VPA de robuustheid tegen corruptie met 6,5% verbetert in vergelijking met sterke baseline-methoden. Ten slotte demonstreren we dat VPA ook de prestaties van domeinaanpassing relatief met 5,2% verhoogt. Onze VPA toont ook een opmerkelijke effectiviteit in het verbeteren van de robuustheid van zero-shot herkenning voor visie-taalmodellen.