Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij presenteren het eerste Large Reconstruction Model (LRM) dat een 3D-model van een object voorspelt vanuit een enkele invoerafbeelding in slechts 5 seconden. In tegenstelling tot veel eerdere methoden die getraind zijn op kleinschalige datasets zoals ShapeNet op een categorie-specifieke manier, maakt LRM gebruik van een zeer schaalbare transformer-gebaseerde architectuur met 500 miljoen leerbare parameters om direct een neural radiance field (NeRF) te voorspellen vanuit de invoerafbeelding. We trainen ons model end-to-end op massale multi-view data die ongeveer 1 miljoen objecten bevat, waaronder zowel synthetische renderings van Objaverse als echte opnames van MVImgNet. Deze combinatie van een model met hoge capaciteit en grootschalige trainingsdata stelt ons model in staat om zeer generaliseerbaar te zijn en hoogwaardige 3D-reconstructies te produceren vanuit verschillende testinvoeren, waaronder real-world in-the-wild opnames en afbeeldingen van generatieve modellen. Videodemo's en interactieve 3D-meshes zijn te vinden op deze website: https://yiconghong.me/LRM/.
Ondanks dat Multi-modale Large Language Models (MM-LLMs) recentelijk opwindende vooruitgang hebben geboekt, hebben ze nog steeds moeite om de interacties tussen multi-modale invoer en de generatie in niet-tekstuele modaliteiten efficiënt te modelleren. In dit werk stellen we TEAL (Tokenize and Embed ALl) voor, een benadering waarbij de invoer van elke modaliteit wordt behandeld als een tokenreeks en een gezamenlijke inbeddingsruimte voor alle modaliteiten wordt geleerd. Specifiek discretiseert TEAL voor de invoer van elke modaliteit deze eerst tot een tokenreeks met behulp van een standaard tokenizer en embedt de tokenreeks in een gezamenlijke inbeddingsruimte met een leerbare inbeddingsmatrix. MM-LLMs hoeven alleen de multi-modale tokens autoregressief te voorspellen, zoals tekstuele LLMs doen. Ten slotte wordt de corresponderende de-tokenizer toegepast om de uitvoer in elke modaliteit te genereren op basis van de voorspelde tokenreeks. Met de gezamenlijke inbeddingsruimte stelt TEAL bevroren LLMs in staat om zowel begrips- als generatietaken uit te voeren die niet-tekstuele modaliteiten betreffen, zoals beeld en audio. Hierdoor kan de tekstuele LLM gewoon fungeren als een interface en zijn hoge prestaties in tekstueel begrip en generatie behouden. Experimenten tonen aan dat TEAL aanzienlijke verbeteringen bereikt in multi-modale begripsvaardigheden en een eenvoudig schema implementeert voor multi-modale generaties.
De indrukwekkende kwalitatieve verbetering van recente tekst-naar-beeldmodellen heeft geleid tot brede aandacht en adoptie. Echter, ontbreekt het ons aan een uitgebreid kwantitatief inzicht in hun mogelijkheden en risico's. Om deze leemte te vullen, introduceren we een nieuwe benchmark: Holistische Evaluatie van Tekst-naar-Beeldmodellen (HEIM). Waar eerdere evaluaties zich vooral richtten op tekst-beeldovereenstemming en beeldkwaliteit, identificeren wij 12 aspecten, waaronder tekst-beeldovereenstemming, beeldkwaliteit, esthetiek, originaliteit, redenering, kennis, bias, toxiciteit, eerlijkheid, robuustheid, meertaligheid en efficiëntie. We hebben 62 scenario's samengesteld die deze aspecten omvatten en evalueren 26 state-of-the-art tekst-naar-beeldmodellen op deze benchmark. Onze resultaten laten zien dat geen enkel model uitblinkt in alle aspecten, waarbij verschillende modellen verschillende sterke punten vertonen. We publiceren de gegenereerde afbeeldingen en de resultaten van de menselijke evaluatie voor volledige transparantie op https://crfm.stanford.edu/heim/v1.1.0 en de code op https://github.com/stanford-crfm/helm, die is geïntegreerd met de HELM-codebase.
De ontwikkeling van grote taalmodelen (LLMs) heeft het vakgebied van multimodale begripsvorming aanzienlijk vooruitgebracht, wat heeft geleid tot de opkomst van grote multimodale modellen (LMMs). Om het niveau van visueel begrip te verbeteren, hebben recente studies LMMs uitgerust met begripscapaciteiten op regioniveau door de coördinaten van objectbegrenzingsvakken weer te geven als een reeks tekstsequenties (pixel2seq). In dit artikel introduceren we een nieuw paradigma voor het modelleren van objectlocaties, genaamd de pixel2emb-methode, waarbij we het LMM vragen om locatie-embeddingen uit te voeren die vervolgens worden gedecodeerd door verschillende decoders. Dit paradigma maakt het mogelijk om verschillende locatieformaten (zoals begrenzingsvakken en maskers) te gebruiken in multimodale gesprekken. Bovendien maakt dit soort op embedding gebaseerde locatiemodellering het mogelijk om bestaande praktijken in lokalisatietaken, zoals detectie en segmentatie, te benutten. In scenario's met beperkte middelen toont onze pixel2emb superieure prestaties in vergelijking met bestaande state-of-the-art (SOTA) benaderingen, zowel in locatie-invoer- als uitvoertaken onder eerlijke vergelijking. Door gebruik te maken van de voorgestelde pixel2emb-methode, trainen we een LMM genaamd NExT-Chat en demonstreren we de mogelijkheid om meerdere taken aan te kunnen, zoals visuele verankering, regiobeschrijving en gegrond redeneren.
We presenteren 3DiffTection, een state-of-the-art methode voor 3D-objectdetectie vanuit enkele afbeeldingen, waarbij gebruik wordt gemaakt van kenmerken uit een 3D-bewust diffusiemodel. Het annoteren van grootschalige beeldgegevens voor 3D-detectie is resource-intensief en tijdrovend. Onlangs zijn vooraf getrainde grote beelddiffusiemodellen prominent geworden als effectieve kenmerkextractors voor 2D-waarnemingstaken. Deze kenmerken zijn echter aanvankelijk getraind op gepaarde tekst- en beeldgegevens, die niet zijn geoptimaliseerd voor 3D-taken, en vertonen vaak een domeinkloof wanneer ze worden toegepast op de doelgegevens. Onze aanpak overbrugt deze kloven door twee gespecialiseerde afstemmingsstrategieën: geometrisch en semantisch. Voor geometrische afstemming fine-tunen we een diffusiemodel om nieuwe weergavesynthese uit te voeren, geconditioneerd op een enkele afbeelding, door een nieuwe epipolaire warp-operator te introduceren. Deze taak voldoet aan twee essentiële criteria: de noodzaak voor 3D-bewustzijn en de afhankelijkheid van alleen geposeerde beeldgegevens, die gemakkelijk beschikbaar zijn (bijvoorbeeld uit video's) en geen handmatige annotatie vereisen. Voor semantische verfijning trainen we het model verder op doelgegevens met detectietoezicht. Beide afstemmingsfasen gebruiken ControlNet om de integriteit van de oorspronkelijke kenmerkmogelijkheden te behouden. In de laatste stap benutten we deze verbeterde mogelijkheden om een testtijdvoorspellingsensemble uit te voeren over meerdere virtuele gezichtspunten. Door onze methodologie verkrijgen we 3D-bewuste kenmerken die zijn afgestemd op 3D-detectie en uitblinken in het identificeren van kruisgezichtspuntcorrespondenties. Hierdoor komt ons model naar voren als een krachtige 3D-detector, die eerdere benchmarks aanzienlijk overtreft, bijvoorbeeld Cube-RCNN, een precedent in enkelvoudige 3D-detectie met 9,43% in AP3D op de Omni3D-ARkitscene dataset. Bovendien toont 3DiffTection robuuste data-efficiëntie en generalisatie naar cross-domeingegevens.
Recente studies hebben aangetoond dat Large Language Models (LLMs) traditionele neuro-symbolische modellen kunnen versterken door programmeerfunctionaliteiten om taal om te zetten in modulebeschrijvingen, waardoor sterke visuele redeneerresultaten worden bereikt terwijl de transparantie en efficiëntie van het model behouden blijven. Deze modellen genereren echter meestal uitgebreid het volledige codefragment voor elke nieuwe instantie van een taak, wat extreem inefficiënt is. Wij stellen generatief neuro-symbolisch visueel redeneren voor door modules te laten groeien en te hergebruiken. Specifiek bestaat ons model uit drie unieke fasen: module-initialisatie, module-generatie en module-uitvoering. Eerst, gegeven een visie-taak, gebruiken we LLMs om te onderzoeken of we gevestigde modules kunnen hergebruiken en laten groeien om deze nieuwe taak aan te pakken. Zo niet, initialiseren we een nieuwe module die nodig is voor de taak en specificeren we de invoer en uitvoer van deze nieuwe module. Daarna wordt de nieuwe module gecreëerd door LLMs te bevragen om overeenkomstige codefragmenten te genereren die aan de vereisten voldoen. Om een beter inzicht te krijgen in de mogelijkheden van de nieuwe module, behandelen we few-shot trainingsvoorbeelden als testgevallen om te zien of onze nieuwe module deze gevallen kan doorstaan. Indien ja, wordt de nieuwe module toegevoegd aan de modulebibliotheek voor toekomstig hergebruik. Ten slotte evalueren we de prestaties van ons model op de testset door de geparseerde programma's uit te voeren met de nieuw gemaakte visuele modules om de resultaten te verkrijgen. We ontdekken dat het voorgestelde model verschillende voordelen heeft. Ten eerste presteert het competitief op standaardtaken zoals visuele vraagbeantwoording en verwijzende expressiebegrip; ten tweede kunnen de modules die van één taak zijn geleerd naadloos worden overgedragen naar nieuwe taken; en last but not least is het in staat zich aan te passen aan nieuwe visuele redeneertaken door enkele trainingsvoorbeelden te observeren en modules te hergebruiken.