Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Dit werk presenteert Depth Anything V2. Zonder gebruik te maken van ingewikkelde technieken, streven we ernaar cruciale bevindingen te onthullen om de weg te effenen naar het bouwen van een krachtig model voor monocular depth estimation. Opmerkelijk is dat deze versie, vergeleken met V1, veel fijnere en robuustere dieptevoorspellingen produceert door drie belangrijke praktijken: 1) het vervangen van alle gelabelde echte afbeeldingen door synthetische afbeeldingen, 2) het opschalen van de capaciteit van ons leraarmodel, en 3) het onderwijzen van studentmodellen via de brug van grootschalige pseudo-gelabelde echte afbeeldingen. Vergeleken met de nieuwste modellen gebaseerd op Stable Diffusion, zijn onze modellen aanzienlijk efficiënter (meer dan 10x sneller) en nauwkeuriger. We bieden modellen van verschillende schalen (variërend van 25M tot 1.3B parameters) om uitgebreide scenario's te ondersteunen. Dankzij hun sterke generalisatievermogen, fine-tunen we ze met metrische dieptelabels om onze metrische dieptemodellen te verkrijgen. Naast onze modellen, en gezien de beperkte diversiteit en frequente ruis in huidige test sets, construeren we een veelzijdige evaluatiebenchmark met precieze annotaties en diverse scènes om toekomstig onderzoek te faciliteren.
Dit werk introduceert geen nieuwe methode. In plaats daarvan presenteren we een interessante bevinding die de noodzaak van de inductieve bias – localiteit in moderne computer vision-architecturen – in twijfel trekt. Concreet ontdekken we dat standaard Transformers kunnen functioneren door elk individueel pixel direct als een token te behandelen en zeer presterende resultaten te behalen. Dit verschilt aanzienlijk van het populaire ontwerp in Vision Transformer, dat de inductieve bias van ConvNets ten aanzien van lokale omgevingen behoudt (bijvoorbeeld door elk 16x16 patch als een token te behandelen). We demonstreren vooral de effectiviteit van pixels-als-tokens in drie goed bestudeerde taken binnen computer vision: supervised learning voor objectclassificatie, self-supervised learning via gemaskeerde auto-encodering, en beeldgeneratie met diffusiemodellen. Hoewel het direct werken met individuele pixels minder computationeel praktisch is, geloven we dat de gemeenschap zich bewust moet zijn van deze verrassende kennis bij het ontwerpen van de volgende generatie neurale architecturen voor computer vision.
Transformers hebben een revolutie teweeggebracht in machine learning met hun eenvoudige maar effectieve architectuur. Het vooraf trainen van Transformers op enorme tekstdatasets van het internet heeft geleid tot ongeëvenaarde generalisatie voor taken op het gebied van natuurlijke taalverwerking (NLU). Echter, dergelijke taalmodellen blijven kwetsbaar wanneer ze worden ingezet voor algoritmische vormen van redeneren, waarbij berekeningen precies en robuust moeten zijn. Om deze beperking aan te pakken, stellen we een nieuwe aanpak voor die het taalbegrip van de Transformer combineert met de robuustheid van grafische neuraal netwerk (GNN)-gebaseerde neurale algoritmische redenaars (NARs). Dergelijke NARs hebben zich bewezen als effectieve generieke oplossers voor algoritmische taken, wanneer deze in grafische vorm worden gespecificeerd. Om hun embeddings toegankelijk te maken voor een Transformer, stellen we een hybride architectuur voor met een tweefasig trainingsproces, waardoor de tokens in het taalmodel kunnen cross-attenden naar de node embeddings van de NAR. We evalueren ons resulterende TransNAR-model op CLRS-Text, de tekstgebaseerde versie van de CLRS-30 benchmark, en tonen significante verbeteringen aan ten opzichte van Transformer-only modellen voor algoritmisch redeneren, zowel binnen als buiten de distributie.
Grote beleidsmodellen die vooraf zijn getraind op een combinatie van internet-schaal visueel-taalkundige gegevens en diverse robotdemonstraties, hebben het potentieel om te veranderen hoe we robots nieuwe vaardigheden aanleren: in plaats van nieuwe gedragingen vanaf nul te trainen, kunnen we dergelijke visueel-taalkundige-actie (VLA) modellen finetunen om robuuste, generaliseerbare beleidsmodellen voor visuomotorische controle te verkrijgen. Toch is de brede adoptie van VLA's voor robotica uitdagend gebleken, omdat 1) bestaande VLA's grotendeels gesloten en ontoegankelijk zijn voor het publiek, en 2) eerder werk er niet in slaagt methoden te verkennen voor het efficiënt finetunen van VLA's voor nieuwe taken, een sleutelcomponent voor adoptie. Om deze uitdagingen aan te pakken, introduceren we OpenVLA, een open-source VLA met 7B parameters, getraind op een diverse verzameling van 970k real-world robotdemonstraties. OpenVLA bouwt voort op een Llama 2 taalmodel gecombineerd met een visuele encoder die vooraf getrainde kenmerken van DINOv2 en SigLIP integreert. Als gevolg van de toegevoegde gegevensdiversiteit en nieuwe modelcomponenten, toont OpenVLA sterke resultaten voor generalistische manipulatie, waarbij het gesloten modellen zoals RT-2-X (55B) overtreft met 16,5% in absolute taaksuccesratio over 29 taken en meerdere robotembodiments, met 7x minder parameters. We tonen verder aan dat we OpenVLA effectief kunnen finetunen voor nieuwe instellingen, met vooral sterke generalisatieresultaten in multi-task omgevingen met meerdere objecten en sterke taalkundige grondingsvaardigheden, en overtreffen expressieve imitatieleermethoden vanaf nul, zoals Diffusion Policy, met 20,4%. We onderzoeken ook rekenefficiëntie; als een aparte bijdrage tonen we aan dat OpenVLA gefinetuned kan worden op consumenten-GPU's via moderne low-rank aanpassingsmethoden en efficiënt kan worden bediend via kwantisatie zonder verlies van downstream-succesratio. Tot slot geven we modelcheckpoints, finetuning-notebooks en onze PyTorch-codebase vrij met ingebouwde ondersteuning voor het trainen van VLA's op schaal op Open X-Embodiment datasets.
Het efficiënt modelleren van sequenties met een oneindige contextlengte is een lang bestaand probleem. Eerdere werken lijden onder ofwel de kwadratische rekencomplexiteit ofwel de beperkte extrapolatiecapaciteit bij lengtegeneralisatie. In dit werk presenteren we Samba, een eenvoudige hybride architectuur die laagsgewijs Mamba, een selectief State Space Model (SSM), combineert met Sliding Window Attention (SWA). Samba comprimeert selectief een gegeven sequentie in recurrente verborgen toestanden, terwijl het nog steeds de mogelijkheid behoudt om herinneringen precies op te roepen met het aandachtmechanisme. We schalen Samba op tot 3,8B parameters met 3,2T trainings-tokens en laten zien dat Samba aanzienlijk beter presteert dan de state-of-the-art modellen gebaseerd op pure aandacht of SSM's op een breed scala aan benchmarks. Wanneer getraind op sequenties van 4K lengte, kan Samba efficiënt worden geëxtrapoleerd naar een contextlengte van 256K met perfect geheugenrecall en verbeterde tokenvoorspellingen tot 1M contextlengte. Als een lineair-tijdsequentiemodel geniet Samba van een 3,73x hogere doorvoersnelheid in vergelijking met Transformers met grouped-query attention bij het verwerken van gebruikersprompts van 128K lengte, en een 3,64x versnelling bij het genereren van 64K tokens met onbeperkte streaming. Een voorbeeldimplementatie van Samba is publiekelijk beschikbaar op https://github.com/microsoft/Samba.
Dit artikel presenteert innovatieve verbeteringen aan diffusiemodellen door de integratie van een nieuw multi-resolutie netwerk en tijdafhankelijke laagnormalisatie. Diffusiemodellen hebben aan populariteit gewonnen vanwege hun effectiviteit in het genereren van hoogwaardige afbeeldingen. Terwijl conventionele benaderingen vertrouwen op convolutionele U-Net-architecturen, hebben recente Transformer-gebaseerde ontwerpen superieure prestaties en schaalbaarheid getoond. Echter, Transformer-architecturen, die invoergegevens tokeniseren (via "patchificatie"), worden geconfronteerd met een afweging tussen visuele kwaliteit en rekencomplexiteit vanwege de kwadratische aard van zelf-attentiebewerkingen ten opzichte van de tokenlengte. Hoewel grotere patchgroottes de efficiëntie van attentieberekeningen bevorderen, hebben ze moeite met het vastleggen van fijnmazige visuele details, wat leidt tot beeldvervormingen. Om deze uitdaging aan te pakken, stellen we voor om het diffusiemodel aan te vullen met het Multi-Resolutie netwerk (DiMR), een raamwerk dat kenmerken verfijnt over meerdere resoluties, waarbij details progressief worden verbeterd van lage naar hoge resolutie. Daarnaast introduceren we Tijdafhankelijke Laagnormalisatie (TD-LN), een parameter-efficiënte benadering die tijdafhankelijke parameters integreert in laagnormalisatie om tijdsinformatie in te brengen en superieure prestaties te bereiken. De effectiviteit van onze methode wordt aangetoond op de klasse-conditionele ImageNet-generatiebenchmark, waar DiMR-XL-varianten eerdere diffusiemodellen overtreffen en nieuwe state-of-the-art FID-scores behalen van 1,70 op ImageNet 256 x 256 en 2,89 op ImageNet 512 x 512. Projectpagina: https://qihao067.github.io/projects/DiMR
Grote taalmodellen (LLMs) hebben opmerkelijke redeneervaardigheden getoond, maar ze blijven vatbaar voor fouten, met name bij temporele redeneertaken die complexe temporele logica omvatten. Bestaand onderzoek heeft de prestaties van LLMs op het gebied van temporeel redeneren onderzocht met behulp van diverse datasets en benchmarks. Deze studies baseren zich echter vaak op real-world data die LLMs mogelijk zijn tegengekomen tijdens de pre-training of maken gebruik van anonimiseringstechnieken die onbedoeld feitelijke inconsistenties kunnen introduceren. In dit werk gaan we deze beperkingen te lijf door nieuwe synthetische datasets te introduceren die specifiek zijn ontworpen om de temporele redeneervaardigheden van LLMs in verschillende scenario's te beoordelen. De diversiteit aan vraagtypen in deze datasets maakt een systematisch onderzoek mogelijk naar de impact van de probleemstructuur, grootte, vraagtype, feitenvolgorde en andere factoren op de prestaties van LLMs. Onze bevindingen bieden waardevolle inzichten in de sterke en zwakke punten van huidige LLMs bij temporele redeneertaken. Om verder onderzoek op dit gebied te stimuleren, maken we de datasets en het evaluatieraamwerk die in onze experimenten zijn gebruikt openbaar: https://huggingface.co/datasets/baharef/ToT.
Diffusion Transformers (DiT) blinken uit in beeld- en videogeneratie, maar kampen met computationele uitdagingen vanwege de kwadratische complexiteit van self-attention. Wij stellen DiTFastAttn voor, een nieuwe post-trainingscompressiemethode om het computationele knelpunt van DiT te verlichten. We identificeren drie belangrijke redundanties in de aandachtberekening tijdens DiT-inferentie: 1. ruimtelijke redundantie, waarbij veel aandachtkoppen zich richten op lokale informatie; 2. temporele redundantie, met een hoge gelijkenis tussen de aandachtuitvoer van opeenvolgende stappen; 3. conditionele redundantie, waarbij conditionele en unconditionele inferenties aanzienlijke overeenkomsten vertonen. Om deze redundanties aan te pakken, stellen we drie technieken voor: 1. Window Attention met Residual Caching om ruimtelijke redundantie te verminderen; 2. Temporele Gelijkenisreductie om de gelijkenis tussen stappen te benutten; 3. Conditionele Redundantie-eliminatie om overbodige berekeningen tijdens conditionele generatie over te slaan. Om de effectiviteit van DiTFastAttn aan te tonen, passen we het toe op DiT, PixArt-Sigma voor beeldgeneratietaken en OpenSora voor videogeneratietaken. Evaluatieresultaten tonen aan dat onze methode voor beeldgeneratie tot 88\% van de FLOPs reduceert en tot 1,6x versnelling bereikt bij generatie op hoge resolutie.
Mensen tekenen om het redeneren te vergemakkelijken: we tekenen hulplijnen bij het oplossen van geometrieproblemen; we markeren en omcirkelen bij het redeneren op kaarten; we gebruiken schetsen om onze ideeën te versterken en ons beperkte werkgeheugen te ontlasten. Dergelijke acties ontbreken echter in huidige multimodale taalmodellen (LMs). Huidige keten-van-gedachten- en gereedschapsgebruikparadigma's gebruiken alleen tekst als tussenstappen in het redeneren. In dit werk introduceren we Sketchpad, een raamwerk dat multimodale LMs een visueel schetsblok en gereedschappen geeft om op het schetsblok te tekenen. Het LM voert planning en redenering uit op basis van de visuele artefacten die het heeft getekend. In tegenstelling tot eerder werk, dat tekst-naar-beeldmodellen gebruikt om LMs te laten tekenen, stelt Sketchpad LMs in staat om te tekenen met lijnen, vakken, markeringen, enz., wat dichter bij menselijk schetsen ligt en het redeneren beter ondersteunt. Sketchpad kan ook gespecialiseerde visionmodellen gebruiken tijdens het schetsproces (bijvoorbeeld het tekenen van begrenzingsvakken met objectdetectiemodellen, het tekenen van maskers met segmentatiemodellen), om de visuele waarneming en redenering verder te verbeteren. We experimenteren met een breed scala aan wiskundetaken (inclusief geometrie, functies, grafieken en schaken) en complexe visuele redeneertaken. Sketchpad verbetert de prestaties op alle taken aanzienlijk ten opzichte van sterke basismodellen zonder schetsen, met een gemiddelde winst van 12,7% op wiskundetaken en 8,6% op visuele taken. GPT-4o met Sketchpad stelt een nieuwe standaard op alle taken, inclusief V*Bench (80,3%), BLINK ruimtelijk redeneren (83,9%) en visuele correspondentie (80,8%). Alle codes en gegevens zijn te vinden op https://visualsketchpad.github.io/.
We onderzoeken de ruimte van gewichten die wordt overspannen door een grote verzameling aangepaste diffusiemodellen. We vullen deze ruimte door een dataset te creëren van meer dan 60.000 modellen, waarbij elk model een basis model is dat is verfijnd om de visuele identiteit van een andere persoon in te voegen. We modelleren de onderliggende variëteit van deze gewichten als een deelruimte, die we weights2weights noemen. We demonstreren drie directe toepassingen van deze ruimte — bemonstering, bewerking en inversie. Ten eerste, omdat elk punt in de ruimte overeenkomt met een identiteit, resulteert het bemonsteren van een set gewichten hieruit in een model dat een nieuwe identiteit codeert. Vervolgens vinden we lineaire richtingen in deze ruimte die overeenkomen met semantische bewerkingen van de identiteit (bijvoorbeeld het toevoegen van een baard). Deze bewerkingen blijven consistent in uiterlijk over gegenereerde samples. Tot slot laten we zien dat het inverteren van een enkele afbeelding in deze ruimte een realistische identiteit reconstrueert, zelfs als de invoerafbeelding buiten de distributie valt (bijvoorbeeld een schilderij). Onze resultaten geven aan dat de gewichtsruimte van verfijnde diffusiemodellen zich gedraagt als een interpreteerbare latente ruimte van identiteiten.
Hoogwaardige voorkeursdatasets zijn essentieel voor het trainen van beloningsmodellen die grote taalmmodellen (LLM's) effectief kunnen begeleiden bij het genereren van hoogwaardige reacties die aansluiten bij menselijke voorkeuren. Naarmate LLM's krachtiger worden en beter afgestemd, moeten openbaar gelicentieerde voorkeursdatasets, zoals Open Assistant, HH-RLHF en HelpSteer, worden bijgewerkt om effectief te blijven voor beloningsmodellering. Methoden die voorkeursdata destilleren uit propriëtaire LLM's zoals GPT-4 hebben beperkingen op commercieel gebruik die worden opgelegd door modelaanbieders. Om zowel de gegenereerde reacties als de kwaliteit van attribuutlabeling te verbeteren, brengen wij HelpSteer2 uit, een openbaar gelicentieerde voorkeursdataset (CC-BY-4.0). Met behulp van een krachtig intern basismodel getraind op HelpSteer2, zijn wij in staat om de SOTA-score (92,0%) te behalen op de primaire dataset van Reward-Bench, waarmee wij de momenteel vermelde open en propriëtaire modellen overtreffen, vanaf 12 juni 2024. Opmerkelijk is dat HelpSteer2 slechts uit tienduizend reactieparen bestaat, een orde van grootte minder dan bestaande voorkeursdatasets (bijv. HH-RLHF), wat het zeer efficiënt maakt voor het trainen van beloningsmodellen. Onze uitgebreide experimenten tonen aan dat beloningsmodellen getraind met HelpSteer2 effectief zijn in het afstemmen van LLM's. In het bijzonder stellen wij SteerLM 2.0 voor, een modelafstemmingsbenadering die effectief gebruik kan maken van de rijke multi-attribuutscore die door onze beloningsmodellen wordt voorspeld. HelpSteer2 is beschikbaar op https://huggingface.co/datasets/nvidia/HelpSteer2 en de code is beschikbaar op https://github.com/NVIDIA/NeMo-Aligner.
We introduceren MuirBench, een uitgebreide benchmark die zich richt op robuuste multi-beeldbegripscapaciteiten van multimodale LLM's. MuirBench bestaat uit 12 diverse multi-beeldtaken (bijvoorbeeld scènebegrip, ordening) die 10 categorieën van multi-beeldrelaties omvatten (bijvoorbeeld multiview, temporele relaties). Met 11.264 afbeeldingen en 2.600 meerkeuzevragen is MuirBench op een paarsgewijze manier opgebouwd, waarbij elk standaardvoorbeeld wordt gekoppeld aan een onbeantwoordbare variant met minimale semantische verschillen, om een betrouwbare beoordeling mogelijk te maken. Geëvalueerd op 20 recente multimodale LLM's, tonen onze resultaten aan dat zelfs de best presterende modellen zoals GPT-4o en Gemini Pro het uitdagend vinden om MuirBench op te lossen, met een nauwkeurigheid van respectievelijk 68,0% en 49,3%. Open-source multimodale LLM's die getraind zijn op enkele afbeeldingen kunnen zich nauwelijks generaliseren naar multi-beeldvragen, met een nauwkeurigheid die onder de 33,3% blijft. Deze resultaten benadrukken het belang van MuirBench in het stimuleren van de gemeenschap om multimodale LLM's te ontwikkelen die verder kunnen kijken dan een enkele afbeelding, wat potentiële verbeteringsrichtingen voor de toekomst suggereert.
Multimodale Large Language Models (mLLMs) worden getraind op een grote hoeveelheid tekst- en beeldgegevens. Hoewel de meeste mLLMs alleen worden getraind op bijschriftachtige gegevens, toonden Alayrac et al. [2022] aan dat aanvullende training op afwisselende sequenties van tekst en afbeeldingen kan leiden tot het ontstaan van in-context leercapaciteiten. Het dataset dat zij gebruikten, M3W, is echter niet openbaar en is alleen beschikbaar in het Engels. Er zijn pogingen gedaan om hun resultaten te reproduceren, maar de vrijgegeven datasets zijn alleen in het Engels. In tegenstelling hiermee bestaan huidige meertalige en multimodale datasets uit ofwel alleen bijschriftachtige gegevens, ofwel middelgrote of volledig privé gegevens. Dit beperkt mLLM-onderzoek voor de 7.000 andere talen die wereldwijd worden gesproken. Daarom introduceren wij mOSCAR, voor zover wij weten het eerste grootschalige meertalige en multimodale documentencorpus dat van het web is gecrawld. Het omvat 163 talen, 315M documenten, 214B tokens en 1,2B afbeeldingen. We voeren zorgvuldig een reeks filter- en evaluatiestappen uit om ervoor te zorgen dat mOSCAR voldoende veilig, divers en van goede kwaliteit is. Daarnaast trainen we twee soorten meertalige modellen om de voordelen van mOSCAR aan te tonen: (1) een model getraind op een subset van mOSCAR en bijschriftgegevens en (2) een model getraind op alleen bijschriftgegevens. Het model dat aanvullend op mOSCAR is getraind, laat een sterke verbetering zien in few-shot leerprestaties over verschillende meertalige beeld-tekst taken en benchmarks, wat eerdere bevindingen voor alleen Engelstalige mLLMs bevestigt.
Informatica (CS) staat als een bewijs van de complexiteit van de menselijke intelligentie en draagt in belangrijke mate bij aan de ontwikkeling van kunstmatige intelligentie en de moderne samenleving. De huidige gemeenschap van grote taalmodellen (LLMs) richt zich echter te veel op benchmarks voor het analyseren van specifieke basisvaardigheden (bijvoorbeeld wiskunde en codegeneratie), waardoor een alomvattende evaluatie van het vakgebied informatica wordt verwaarloosd. Om deze kloof te overbruggen, introduceren we CS-Bench, de eerste tweetalige (Chinees-Engels) benchmark die specifiek is ontworpen om de prestaties van LLMs in de informatica te evalueren. CS-Bench bestaat uit ongeveer 5.000 zorgvuldig samengestelde testvoorbeelden, die 26 subgebieden bestrijken binnen 4 belangrijke domeinen van de informatica, en omvat diverse taakvormen en verdelingen van kennis en redenering. Met behulp van CS-Bench voeren we een uitgebreide evaluatie uit van meer dan 30 mainstream LLMs, waarbij we de relatie tussen CS-prestaties en modelschalen blootleggen. We analyseren ook kwantitatief de redenen voor falen in bestaande LLMs en benadrukken verbeteringsrichtingen, waaronder kennisaanvulling en CS-specifiek redeneren. Verdere experimenten met kruisvaardigheden tonen een hoge correlatie aan tussen de capaciteiten van LLMs in de informatica en hun vaardigheden in wiskunde en coderen. Bovendien laten expert-LLMs die gespecialiseerd zijn in wiskunde en coderen ook sterke prestaties zien in verschillende CS-subgebieden. Vooruitkijkend zien we CS-Bench als een hoeksteen voor LLM-toepassingen in het CS-veld en als een wegbereider voor nieuwe manieren om de diverse redeneervaardigheden van LLMs te beoordelen. De CS-Bench-gegevens en evaluatiecode zijn beschikbaar op https://github.com/csbench/csbench.
Huidige multimodale en multitask foundation-modellen zoals 4M of UnifiedIO laten veelbelovende resultaten zien, maar in de praktijk worden hun out-of-the-box mogelijkheden om diverse inputs te accepteren en diverse taken uit te voeren beperkt door het (meestal vrij kleine) aantal modaliteiten en taken waarop ze getraind zijn. In dit artikel breiden we de mogelijkheden van deze modellen uit door één model te trainen op tientallen zeer diverse modaliteiten en door co-training uit te voeren op grootschalige multimodale datasets en tekstcorpora. Dit omvat training op verschillende semantische en geometrische modaliteiten, feature maps van recente state-of-the-art modellen zoals DINOv2 en ImageBind, pseudo-labels van gespecialiseerde modellen zoals SAM en 4DHumans, en een reeks nieuwe modaliteiten die nieuwe manieren bieden om met het model te interacteren en de generatie te sturen, bijvoorbeeld beeldmetadata of kleurenpaletten. Een cruciale stap in dit proces is het uitvoeren van discrete tokenisatie op verschillende modaliteiten, of het nu gaat om beeldachtige data, feature maps van neurale netwerken, vectoren, gestructureerde data zoals instance segmentation of menselijke poses, of data die als tekst kunnen worden weergegeven. Hiermee breiden we de out-of-the-box mogelijkheden van multimodale modellen uit en tonen we specifiek de mogelijkheid aan om één model te trainen om minstens 3x meer taken/modaliteiten op te lossen dan bestaande modellen, en dit te doen zonder verlies van prestaties. Dit maakt meer fijnmazige en controleerbare multimodale generatiemogelijkheden mogelijk en stelt ons in staat om de destillatie van modellen die op diverse data en doelen zijn getraind, te bestuderen in één verenigd model. We schalen de training succesvol op naar een model met drie miljard parameters met behulp van tientallen modaliteiten en verschillende datasets. De resulterende modellen en trainingscode zijn open source beschikbaar op 4m.epfl.ch.
Recente vooruitgang in beeldgeneratie heeft het mogelijk gemaakt om hoogwaardige afbeeldingen te creëren op basis van tekstcondities. Wanneer echter wordt gewerkt met multimodale condities, zoals tekst gecombineerd met referentie-uitingen, hebben bestaande methoden moeite om meerdere condities effectief in balans te brengen, waarbij meestal de voorkeur wordt gegeven aan één modaliteit boven andere. Om deze uitdaging aan te pakken, introduceren we EMMA, een nieuw beeldgeneratiemodel dat multimodale prompts accepteert en is gebaseerd op het state-of-the-art tekst-naar-beeld (T2I) diffusiemodel, ELLA. EMMA integreert naadloos aanvullende modaliteiten naast tekst om beeldgeneratie te sturen via een innovatief Multi-modale Feature Connector-ontwerp, dat tekstuele en aanvullende modale informatie effectief integreert met behulp van een speciaal aandachtmechanisme. Door alle parameters in het originele T2I diffusiemodel te bevriezen en slechts enkele aanvullende lagen aan te passen, onthullen we een interessante bevinding dat het vooraf getrainde T2I diffusiemodel stiekem multimodale prompts kan accepteren. Deze interessante eigenschap vergemakkelijkt de aanpassing aan verschillende bestaande frameworks, waardoor EMMA een flexibel en effectief hulpmiddel wordt voor het produceren van gepersonaliseerde en contextbewuste afbeeldingen en zelfs video's. Daarnaast introduceren we een strategie om geleerde EMMA-modules te assembleren om afbeeldingen te produceren die zijn geconditioneerd op meerdere modaliteiten tegelijk, waardoor extra training met gemengde multimodale prompts overbodig wordt. Uitgebreide experimenten tonen de effectiviteit van EMMA aan in het behouden van hoge trouw en detail in gegenereerde afbeeldingen, wat het potentieel ervan aantoont als een robuuste oplossing voor geavanceerde multimodale conditionele beeldgeneratietaken.
Wij stellen voor om omni-modale intelligentie te ontwikkelen, die in staat is om elke modaliteit te begrijpen en universele representaties te leren. Specifiek stellen wij een schaalbare voorafgaande trainingsparadigma voor, genaamd Multimodale Context (MiCo), dat het aantal modaliteiten en de hoeveelheid data, samen met de modelparameters, kan opschalen tijdens het voorafgaande trainingsproces. Met MiCo vertonen de vooraf getrainde modellen aanzienlijke opkomende vermogens in multimodaal leren, die worden geëvalueerd op de volgende taken: i) enkelvoudige modaliteitsperceptiebenchmarks van 10 verschillende modaliteiten, ii) 25 kruismodale begripstaken van retrieval, vraag-beantwoording en captioning, en iii) 18 multimodale grote taalmodelbenchmarks. Onze modellen vestigen 37 nieuwe records voor state-of-the-art prestaties. Wij hopen dat ons onderzoek kan bijdragen aan de ontwikkeling van omni-modale intelligentie. Code en modellen zijn beschikbaar op https://github.com/invictus717/MiCo.
Een van de overheersende methoden voor het trainen van wereldmodellen is autoregressieve voorspelling in de uitvoerruimte van het volgende element in een reeks. In Natural Language Processing (NLP) neemt dit de vorm aan van Large Language Models (LLMs) die het volgende token voorspellen; in Computer Vision (CV) neemt dit de vorm aan van autoregressieve modellen die het volgende frame/token/pixel voorspellen. Deze benadering verschilt echter op verschillende punten van de menselijke cognitie. Ten eerste beïnvloeden menselijke voorspellingen over de toekomst actief interne cognitieve processen. Ten tweede evalueren mensen van nature de plausibiliteit van voorspellingen over toekomstige toestanden. Op basis van deze capaciteit, en ten derde, door te beoordelen wanneer voorspellingen voldoende zijn, besteden mensen een dynamische hoeveelheid tijd aan het maken van een voorspelling. Dit adaptieve proces is analoog aan Systeem 2-denken in de psychologie. Al deze capaciteiten zijn fundamenteel voor het succes van mensen bij hoogwaardig redeneren en plannen. Om daarom de beperkingen van traditionele autoregressieve modellen die deze mensachtige capaciteiten missen aan te pakken, introduceren we Energy-Based World Models (EBWM). EBWM omvat het trainen van een Energy-Based Model (EBM) om de compatibiliteit van een gegeven context en een voorspelde toekomstige toestand te voorspellen. Hierdoor stelt EBWM modellen in staat om alle drie de aspecten van de menselijke cognitie te bereiken die hierboven zijn beschreven. Bovendien hebben we een variant van de traditionele autoregressieve transformer ontwikkeld, speciaal afgestemd op Energy-Based modellen, genaamd de Energy-Based Transformer (EBT). Onze resultaten tonen aan dat EBWM beter schaalt met data en GPU-uren dan traditionele autoregressieve transformers in CV, en dat EBWM veelbelovende vroege schaalbaarheid biedt in NLP. Als gevolg hiervan biedt deze benadering een spannend pad naar het trainen van toekomstige modellen die in staat zijn tot Systeem 2-denken en intelligente zoekacties in toestandsruimten.
Ondanks de vooruitgang in Large Language Models (LLM's), geïllustreerd door modellen zoals GPT-4 en Claude, hebben kleinere LLM's zoals Llama en Mistral vaak moeite met het genereren van diepgaande en coherente dialogen. Dit artikel presenteert een nieuw tweestaps Coarse-to-Fine Actor-model om de inherente beperkingen in conversatie- en analytische vaardigheden van kleinschalige LLM's aan te pakken. Onze aanpak begint met de Policy-based Coarse Actor, waarbij we een techniek gebruiken die we "Continuous Maximization" noemen. De Coarse Actor creëert een verrijkte, kennisrijke pool die goed is in het afstemmen op menselijke voorkeuren in analyse en redenering. Via het RLHF-proces past het Continuous Maximization toe, een strategie die dynamisch en adaptief de uitvoerlengtelimiet uitbreidt, waardoor meer gedetailleerde en analytische inhoud kan worden gegenereerd. Vervolgens verfijnt de Fine Actor deze analytische inhoud en gaat het in op de generatie van overmatig redundante informatie van de Coarse Actor. We introduceren een "Knowledge Residue Merger"-benadering, waarbij de inhoud van de Coarse Actor wordt verfijnd en samengevoegd met een bestaand Instructie-model om de kwaliteit en correctheid te verbeteren en redundantie te verminderen. We hebben onze methodologie toegepast op het populaire Mistral-model, waardoor Mistral-C2F is ontstaan, dat uitzonderlijke prestaties heeft laten zien in 11 algemene taaltaken en de MT-Bench Dialogue-taak, en daarbij vergelijkbare modellen en zelfs grotere modellen met 13B en 30B parameters overtreft. Ons model heeft de conversatie- en analytische redeneervaardigheden aanzienlijk verbeterd.
We presenteren een nieuwe taak en benchmark voor het evalueren van het vermogen van tekst-naar-beeld (T2I) generatiemodellen om afbeeldingen te produceren die aansluiten bij het gezond verstand in het dagelijks leven, wat we Commonsense-T2I noemen. Gegeven twee tegenstrijdige tekstprompts die een identieke set actiewoorden bevatten met kleine verschillen, zoals "een gloeilamp zonder elektriciteit" versus "een gloeilamp met elektriciteit", evalueren we of T2I-modellen visueel gezond verstand kunnen toepassen, bijvoorbeeld door afbeeldingen te produceren die passen bij "de gloeilamp is uit" versus "de gloeilamp is aan". Commonsense-T2I biedt een tegenstrijdige uitdaging door gepaarde tekstprompts te leveren samen met verwachte uitkomsten. De dataset is zorgvuldig handmatig samengesteld door experts en voorzien van gedetailleerde labels, zoals het type gezond verstand en de waarschijnlijkheid van de verwachte uitkomsten, om het analyseren van modelgedrag te ondersteunen. We testen een verscheidenheid aan state-of-the-art (sota) T2I-modellen en vinden verrassend genoeg dat er nog steeds een grote kloof bestaat tussen beeldsynthese en foto's uit het echte leven—zelfs het DALL-E 3-model behaalde slechts 48,92% op Commonsense-T2I, en het Stable Diffusion XL-model behaalde slechts 24,92% nauwkeurigheid. Onze experimenten tonen aan dat GPT-verrijkte prompts deze uitdaging niet kunnen oplossen, en we voegen een gedetailleerde analyse toe over mogelijke redenen voor dit tekort. Ons doel is dat Commonsense-T2I dient als een hoogwaardige evaluatiebenchmark voor het controleren van gezond verstand in T2I, wat vooruitgang bevordert in het genereren van realistische afbeeldingen.
Videogeneratie kent veel unieke uitdagingen die verder gaan dan die van beeldgeneratie. De temporele dimensie introduceert uitgebreide mogelijke variaties tussen frames, waarbij consistentie en continuïteit kunnen worden geschonden. In deze studie gaan we verder dan het evalueren van eenvoudige acties en beargumenteren we dat gegenereerde video's de opkomst van nieuwe concepten en hun relatieovergangen moeten omvatten, zoals in echte video's naarmate de tijd vordert. Om de Temporele Compositionaliteit van videogeneratiemodellen te beoordelen, stellen we TC-Bench voor, een benchmark van zorgvuldig ontworpen tekstprompts, bijbehorende grondwaarheidvideo's en robuuste evaluatiemetrics. De prompts articuleren de initiële en finale toestanden van scènes, waardoor ambiguïteiten voor frameontwikkeling effectief worden verminderd en de beoordeling van overgangsvoltooiing wordt vereenvoudigd. Daarnaast breiden we, door het verzamelen van uitgelijnde real-world video's die overeenkomen met de prompts, de toepasbaarheid van TC-Bench uit van tekst-conditionele modellen naar beeld-conditionele modellen die generatieve frame-interpolatie kunnen uitvoeren. We ontwikkelen ook nieuwe metrics om de volledigheid van componentovergangen in gegenereerde video's te meten, die aanzienlijk hogere correlaties met menselijke oordelen vertonen dan bestaande metrics. Onze uitgebreide experimentele resultaten onthullen dat de meeste videogeneratoren minder dan 20% van de compositionele veranderingen bereiken, wat een enorme ruimte voor toekomstige verbetering benadrukt. Onze analyse geeft aan dat huidige videogeneratiemodellen moeite hebben met het interpreteren van beschrijvingen van compositionele veranderingen en het synthetiseren van verschillende componenten over verschillende tijdstappen.
Dit werk gaat over het schatten van de hallucinatiegraad bij in-context learning (ICL) met generatieve AI. Bij ICL wordt een conditioneel generatief model (CGM) geprompt met een dataset en gevraagd om een voorspelling te doen op basis van die dataset. De Bayesiaanse interpretatie van ICL veronderstelt dat het CGM een posterior predictive distribution berekent over een onbekend Bayesiaans model van een latente parameter en data. Vanuit dit perspectief definiëren we een hallucinatie als een gegenereerde voorspelling die een lage waarschijnlijkheid heeft onder de werkelijke latente parameter. We ontwikkelen een nieuwe methode die een ICL-probleem neemt – dat wil zeggen, een CGM, een dataset en een voorspellingsvraag – en de waarschijnlijkheid schat dat een CGM een hallucinatie zal genereren. Onze methode vereist alleen het genereren van queries en antwoorden van het model en het evalueren van de log-waarschijnlijkheid van zijn antwoord. We evalueren onze methode empirisch op synthetische regressie- en natuurlijke taal-ICL-taken met behulp van grote taalmodellen.
De standaardstrategie voor het trainen van single-view Large Reconstruction Models (LRMs) volgt de volledig gesuperviseerde aanpak met behulp van grootschalige datasets van synthetische 3D-assets of multi-view opnames. Hoewel deze bronnen het trainingsproces vereenvoudigen, zijn ze moeilijk op te schalen buiten de bestaande datasets en zijn ze niet noodzakelijk representatief voor de werkelijke verdeling van objectvormen. Om deze beperkingen aan te pakken, introduceren we in dit artikel Real3D, het eerste LRM-systeem dat getraind kan worden met single-view real-world afbeeldingen. Real3D introduceert een nieuw zelf-trainingsraamwerk dat kan profiteren van zowel de bestaande synthetische data als diverse single-view realistische afbeeldingen. We stellen twee ongecontroleerde verliesfuncties voor die het mogelijk maken om LRMs te superviseren op pixelniveau en semantisch niveau, zelfs voor trainingsvoorbeelden zonder grondwaarheid 3D of nieuwe views. Om de prestaties verder te verbeteren en de beelddata op te schalen, ontwikkelen we een automatische datacuratiebenadering om hoogwaardige voorbeelden te verzamelen uit in-the-wild afbeeldingen. Onze experimenten tonen aan dat Real3D consistent beter presteert dan eerder werk in vier diverse evaluatieomgevingen die zowel realistische als synthetische data omvatten, evenals zowel in-domein als out-of-domein vormen. Code en model zijn hier te vinden: https://hwjiang1510.github.io/Real3D/
Auto-regressieve inferentie van transformers profiteert sterk van Key-Value (KV)-caching, maar kan leiden tot grote geheugenproblemen naarmate de modelgrootte, batchgrootte en sequentielengte op schaal toenemen. We introduceren Multi-Layer Key-Value (MLKV)-deling, een nieuwe aanpak die KV-deling uitbreidt over transformer-lagen om het geheugengebruik verder te verminderen dan mogelijk was met Multi-Query Attention (MQA) en Grouped-Query Attention (GQA). Evaluaties op verschillende NLP-benchmarks en inferentiemetrieken met behulp van bijgetrainde Pythia-160M-varianten tonen aan dat MLKV het geheugengebruik aanzienlijk vermindert met minimaal prestatieverlies, waarbij de KV-cachegrootte wordt teruggebracht tot een factor 6x vergeleken met MQA. Deze resultaten onderstrepen het potentieel van MLKV voor efficiënte implementatie van transformer-modellen op schaal. We bieden code aan op https://github.com/zaydzuhri/pythia-mlkv.
Ultra-laag bitrate beeldcompressie is een uitdagend en veeleisend onderwerp. Met de ontwikkeling van Large Multimodal Models (LMMs) is een Cross Modality Compression (CMC) paradigma van Beeld-Text-Beeld ontstaan. In vergelijking met traditionele codecs kan deze semantische compressie de beelddatagrootte reduceren tot 0,1\% of zelfs lager, wat sterke potentiële toepassingen heeft. Echter, CMC heeft bepaalde tekortkomingen in consistentie met het originele beeld en perceptuele kwaliteit. Om dit probleem aan te pakken, introduceren we CMC-Bench, een benchmark van de samenwerkende prestaties van Image-to-Text (I2T) en Text-to-Image (T2I) modellen voor beeldcompressie. Deze benchmark omvat respectievelijk 18.000 en 40.000 beelden om 6 mainstream I2T en 12 T2I modellen te verifiëren, inclusief 160.000 subjectieve voorkeursscores geannoteerd door menselijke experts. Bij ultra-lage bitrates bewijst dit artikel dat de combinatie van sommige I2T en T2I modellen de meest geavanceerde visuele signaalcodecs heeft overtroffen; tegelijkertijd benadrukt het waar LMMs verder geoptimaliseerd kunnen worden richting de compressietaak. We moedigen LMM-ontwikkelaars aan om deel te nemen aan deze test om de evolutie van visuele signaalcodecprotocollen te bevorderen.
Visuele Vraag Beantwoording (VQA) is een belangrijke taak binnen multimodale AI, en wordt vaak gebruikt om het vermogen van visueel-taalmodelen te testen om kennis in zowel visuele als tekstuele data te begrijpen en te redeneren. De meeste huidige VQA-modellen gebruiken echter datasets die voornamelijk gericht zijn op Engels en een paar grote wereldtalen, met afbeeldingen die typisch westers georiënteerd zijn. Hoewel recente inspanningen hebben geprobeerd het aantal talen in VQA-datasets uit te breiden, ontbreekt het nog steeds aan diversiteit in talen met beperkte bronnen. Belangrijker is dat, hoewel deze datasets vaak hun linguïstische bereik uitbreiden via vertaling of andere benaderingen, ze meestal dezelfde afbeeldingen behouden, wat resulteert in een beperkte culturele representatie. Om deze beperkingen aan te pakken, hebben we CVQA geconstrueerd, een nieuwe cultureel diverse meertalige Visual Question Answering benchmark, ontworpen om een rijke set van talen en culturen te bestrijken, waarbij we moedertaalsprekers en culturele experts betrekken in het datacollectieproces. Als resultaat omvat CVQA cultureel gedreven afbeeldingen en vragen uit 28 landen op vier continenten, die 26 talen met 11 schriften bestrijken, en biedt het in totaal 9k vragen. We hebben vervolgens verschillende Multimodale Grote Taalmodellen (MLLMs) op CVQA gebenchmarkt, en laten zien dat de dataset uitdagend is voor de huidige state-of-the-art modellen. Deze benchmark kan dienen als een evaluatiesuite om de culturele capaciteit en bias van multimodale modellen te beoordelen en hopelijk meer onderzoeksinspanningen aanmoedigen om het culturele bewustzijn en de linguïstische diversiteit in dit veld te vergroten.
De snelle vooruitgang van Large Language Models (LLM's) vereist robuuste en uitdagende benchmarks. Leaderboards zoals Chatbot Arena rangschikken LLM's op basis van hoe goed hun reacties aansluiten bij menselijke voorkeuren. Echter, veel taken, zoals die gerelateerd aan emotionele intelligentie, creatief schrijven of overtuigingskracht, zijn zeer subjectief en missen vaak een meerderheidsconsensus onder mensen. Beoordelaars kunnen onverzoenlijke meningsverschillen hebben over wat een betere reactie vormt. Om de uitdaging van het rangschikken van LLM's op zeer subjectieve taken aan te pakken, stellen we een nieuw benchmarkframework voor, de Language Model Council (LMC). De LMC werkt via een democratisch proces om: 1) een testset op te stellen door gelijke deelname, 2) de test uit te voeren onder raadsleden, en 3) reacties te evalueren als een collectieve jury. We zetten een raad van 20 nieuwste LLM's in voor een open-ended taak op het gebied van emotionele intelligentie: het reageren op interpersoonlijke dilemma's. Onze resultaten tonen aan dat de LMC rangschikkingen produceert die beter te onderscheiden, robuuster en minder bevooroordeeld zijn dan die van individuele LLM-beoordelaars, en die consistenter zijn met een door mensen vastgestelde leaderboard in vergelijking met andere benchmarks.
In de volksmond wordt vaak gezegd dat beeldgeneratiemodellen gebaseerd op diffusieprocessen "hallucinaties" vertonen, samples die nooit in de trainingsdata zouden kunnen voorkomen. Maar waar komen deze hallucinaties vandaan? In dit artikel onderzoeken we een specifiek falingsmechanisme in diffusiemodellen, dat we mode-interpolatie noemen. Concreet ontdekken we dat diffusiemodellen soepel "interpoleren" tussen nabijgelegen datamodes in de trainingsset, waardoor samples worden gegenereerd die volledig buiten het bereik van de oorspronkelijke trainingsdistributie vallen; dit fenomeen leidt ertoe dat diffusiemodellen artefacten genereren die nooit in echte data voorkwamen (d.w.z. hallucinaties). We bestuderen systematisch de oorzaken en de manifestatie van dit fenomeen. Door experimenten met 1D- en 2D-Gaussiaanse verdelingen laten we zien hoe een discontinu verlieslandschap in de decoder van het diffusiemodel leidt tot een regio waar elke soepele benadering dergelijke hallucinaties veroorzaakt. Via experimenten met kunstmatige datasets van verschillende vormen tonen we aan hoe hallucinatie leidt tot het genereren van combinaties van vormen die nooit bestonden. Tot slot laten we zien dat diffusiemodellen feitelijk weten wanneer ze buiten het ondersteuningsbereik gaan en hallucineren. Dit wordt vastgelegd door de hoge variantie in het traject van het gegenereerde sample tijdens de laatste paar stappen van het backward sampling-proces. Door een eenvoudige metriek te gebruiken om deze variantie te meten, kunnen we meer dan 95% van de hallucinaties verwijderen tijdens het generatieproces, terwijl 96% van de binnen-ondersteuningsbereik samples behouden blijft. We sluiten onze verkenning af door de implicaties van dergelijke hallucinatie (en de verwijdering ervan) te laten zien op het instorten (en stabiliseren) van recursieve training op synthetische data, met experimenten op de MNIST- en 2D-Gaussiaanse datasets. We hebben onze code vrijgegeven op https://github.com/locuslab/diffusion-model-hallucination.
In onderwerpgestuurde tekst-naar-beeldgeneratie hebben recente werken superieure prestaties bereikt door het model te trainen op synthetische datasets die talrijke beeldparen bevatten. Getraind op deze datasets kunnen generatieve modellen tekst-uitgelijnde beelden produceren voor een specifiek onderwerp vanuit een willekeurige testafbeelding op een zero-shot-manier. Ze overtreffen zelfs methoden die aanvullende fine-tuning op testafbeeldingen vereisen. De kosten voor het creëren van dergelijke datasets zijn echter voor de meeste onderzoekers onoverkomelijk. Om één trainingspaar te genereren, fine-tunen huidige methoden een vooraf getraind tekst-naar-beeldmodel op de onderwerpafbeelding om fijne details vast te leggen, waarna het gefinetunede model wordt gebruikt om afbeeldingen voor hetzelfde onderwerp te creëren op basis van creatieve tekstprompts. Hierdoor kan het opbouwen van een grootschalige dataset met miljoenen onderwerpen honderdduizenden GPU-uren vergen. Om dit probleem aan te pakken, stellen we Toffee voor, een efficiënte methode om datasets te construeren voor onderwerpgestuurde bewerking en generatie. Specifiek vereist onze datasetconstructie geen fine-tuning op onderwerpniveau. Na het vooraf trainen van twee generatieve modellen, kunnen we een oneindig aantal hoogwaardige samples genereren. We construeren de eerste grootschalige dataset voor onderwerpgestuurde beeldbewerking en -generatie, die 5 miljoen beeldparen, tekstprompts en maskers bevat. Onze dataset is 5 keer zo groot als de vorige grootste dataset, terwijl onze kosten tienduizenden GPU-uren lager zijn. Om de voorgestelde dataset te testen, stellen we ook een model voor dat zowel onderwerpgestuurde beeldbewerking als -generatie kan uitvoeren. Door het model simpelweg te trainen op onze voorgestelde dataset, behaalt het competitieve resultaten, wat de effectiviteit van het voorgestelde datasetconstructieframework illustreert.
We presenteren LRM-Zero, een Large Reconstruction Model (LRM) dat volledig is getraind op gesynthetiseerde 3D-data, en dat hoogwaardige sparse-view 3D-reconstructie bereikt. De kern van LRM-Zero is onze procedurele 3D-dataset, Zeroverse, die automatisch wordt gesynthetiseerd uit eenvoudige primitieve vormen met willekeurige texturering en augmentaties (bijv. hoogtevelden, booleaanse verschillen en wireframes). In tegenstelling tot eerdere 3D-datasets (bijv. Objaverse), die vaak door mensen zijn vastgelegd of gemaakt om echte 3D-data te benaderen, negeert Zeroverse realistische globale semantiek volledig, maar is het rijk aan complexe geometrische en textuurdetails die lokaal vergelijkbaar zijn met of zelfs ingewikkelder dan echte objecten. We tonen aan dat onze LRM-Zero, getraind met onze volledig gesynthetiseerde Zeroverse, een hoge visuele kwaliteit kan bereiken in de reconstructie van objecten uit de echte wereld, wat concurrerend is met modellen die zijn getraind op Objaverse. We analyseren ook verschillende kritieke ontwerpkeuzes van Zeroverse die bijdragen aan de capaciteit en trainingsstabiliteit van LRM-Zero. Ons werk toont aan dat 3D-reconstructie, een van de kerntaken in 3D-visie, mogelijk kan worden aangepakt zonder de semantiek van objecten uit de echte wereld. De procedurele synthesencode van Zeroverse en de interactieve visualisatie zijn beschikbaar op: https://desaixie.github.io/lrm-zero/.