Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren Magic123, een tweestapsbenadering van grof naar fijn voor de generatie van hoogwaardige, getextureerde 3D-meshes vanuit een enkele ongeposeerde afbeelding in de wild, waarbij zowel 2D- als 3D-priors worden gebruikt. In de eerste fase optimaliseren we een neurale radiance field om een grove geometrie te produceren. In de tweede fase gebruiken we een geheugenefficiënte differentieerbare mesh-representatie om een hoogresolutie mesh met een visueel aantrekkelijke textuur te genereren. In beide fasen wordt de 3D-inhoud geleerd door referentieweergave-supervisie en nieuwe weergaven die worden geleid door een combinatie van 2D- en 3D-diffusiepriors. We introduceren een enkele afwegingparameter tussen de 2D- en 3D-priors om de exploratie (meer fantasierijk) en exploitatie (nauwkeuriger) van de gegenereerde geometrie te controleren. Daarnaast passen we tekstuele inversie en monoculaire diepteregularisatie toe om consistente verschijningen tussen weergaven te bevorderen en om degeneratieve oplossingen te voorkomen, respectievelijk. Magic123 toont een significante verbetering ten opzichte van eerdere beeld-naar-3D-technieken, zoals gevalideerd door uitgebreide experimenten op synthetische benchmarks en diverse real-world afbeeldingen. Onze code, modellen en gegenereerde 3D-assets zijn beschikbaar op https://github.com/guochengqian/Magic123.
Grote taalmodellen (LLM's) bieden een veelbelovend hulpmiddel waarmee robots complexe redeneertaken kunnen uitvoeren. Het beperkte contextvenster van hedendaagse LLM's maakt het echter moeilijk om over lange tijdsperioden te redeneren. Belichaamde taken, zoals die men van een huishoudrobot zou verwachten, vereisen doorgaans dat de planner informatie in overweging neemt die lang geleden is verkregen (bijvoorbeeld eigenschappen van de vele objecten die de robot eerder in de omgeving is tegengekomen). Pogingen om de wereldtoestand vast te leggen met behulp van de impliciete interne representatie van een LLM worden bemoeilijkt door het gebrek aan taak- en omgevingsrelevante informatie in de actiegeschiedenis van een robot, terwijl methoden die vertrouwen op het vermogen om informatie via de prompt aan het LLM door te geven, beperkt worden door het beperkte contextvenster. In dit artikel stellen we Statler voor, een raamwerk dat LLM's voorziet van een expliciete representatie van de wereldtoestand als een vorm van 'geheugen' dat in de tijd wordt onderhouden. Centraal in Statler staat het gebruik van twee instanties van algemene LLM's – een wereldmodel-lezer en een wereldmodel-schrijver – die communiceren met en de wereldtoestand onderhouden. Door toegang te bieden tot dit wereldtoestand-'geheugen', verbetert Statler het vermogen van bestaande LLM's om over langere tijdsperioden te redeneren zonder de beperking van contextlengte. We evalueren de effectiviteit van onze aanpak in drie gesimuleerde tafelbladmanipulatiedomeinen en een echt robotdomein, en tonen aan dat het de stand van de techniek in LLM-gebaseerd robotredeneren verbetert. Projectwebsite: https://statler-lm.github.io/
Vision transformers (ViTs) hebben het landschap van computervisie aanzienlijk veranderd en hebben periodiek superieure prestaties getoond in visuele taken in vergelijking met convolutionele neurale netwerken (CNN's). Hoewel het nog niet definitief is welk modeltype superieur is, heeft elk unieke inductieve biases die hun leer- en generalisatieprestaties vormgeven. ViTs hebben bijvoorbeeld interessante eigenschappen met betrekking tot niet-lokale kenmerkafhankelijkheid in vroege lagen, evenals self-attention-mechanismen die de leerflexibiliteit vergroten, waardoor ze informatie buiten de context van een beeld effectiever kunnen negeren. We veronderstellen dat dit vermogen om informatie buiten de context te negeren (wat we patchselectiviteit noemen), terwijl informatie binnen de context op een niet-lokale manier in vroege lagen wordt geïntegreerd, ViTs in staat stelt om occlusie gemakkelijker te hanteren. In deze studie is ons doel om te onderzoeken of we CNN's dit vermogen van patchselectiviteit kunnen laten simuleren door deze inductieve bias effectief in te bouwen met behulp van Patch Mixing data-augmentatie, wat bestaat uit het invoegen van patches van een ander beeld in een trainingsbeeld en het interpoleren van labels tussen de twee beeldklassen. Specifiek gebruiken we Patch Mixing om state-of-the-art ViTs en CNN's te trainen, waarbij we de impact ervan beoordelen op hun vermogen om patches buiten de context te negeren en natuurlijke occlusies te hanteren. We ontdekken dat ViTs niet verbeteren of verslechteren wanneer ze worden getraind met Patch Mixing, maar CNN's verwerven nieuwe mogelijkheden om informatie buiten de context te negeren en verbeteren op occlusiebenchmarks, wat ons doet concluderen dat deze trainingsmethode een manier is om in CNN's de vaardigheden te simuleren die ViTs al bezitten. We zullen onze Patch Mixing-implementatie en voorgestelde datasets vrijgeven voor publiek gebruik. Projectpagina: https://arielnlee.github.io/PatchMixing/
In de diepgaande leerstheorie dient de covariantiematrix van de representaties als een benadering om de trainbaarheid van het netwerk te onderzoeken. Geïnspireerd door het succes van Transformers, bestuderen we de covariantiematrix van een aangepast Softmax-gebaseerd aandachtmodel met skip-verbindingen in de proportionele limiet van oneindige diepte en breedte. We tonen aan dat bij initialisatie de limietverdeling kan worden beschreven door een stochastische differentiaalvergelijking (SDE) geïndexeerd op de diepte-tot-breedte-verhouding. Om een goed gedefinieerde stochastische limiet te bereiken, wordt het aandachtmechanisme van de Transformer aangepast door de Softmax-uitvoer te centreren op de identiteit en de Softmax-logits te schalen met een breedteafhankelijke temperatuurparameter. We onderzoeken de stabiliteit van het netwerk via de bijbehorende SDE, waarbij we aantonen hoe zowel de schaal van de drift als de diffusie elegant kan worden geregeld met behulp van restverbindingen. Het bestaan van een stabiele SDE impliceert dat de covariantiestructuur goed gedrag vertoont, zelfs voor zeer grote diepte en breedte, waardoor de beruchte problemen van rangdegeneratie in diepe aandachtmodellen worden voorkomen. Tot slot tonen we, via simulaties, aan dat de SDE een verrassend goede beschrijving geeft van het corresponderende eindige-grootte-model. We introduceren de naam 'shaped Transformer' voor deze architecturale aanpassingen.
Dit artikel introduceert een nieuw mechanisme om de training van mask-transformatoren voor efficiënte panoptische segmentatie te vergemakkelijken, waardoor de implementatie ervan wordt gedemocratiseerd. We merken op dat vanwege de hoge complexiteit, het trainingsdoel van panoptische segmentatie onvermijdelijk leidt tot een veel hogere straf voor fout-positieven. Een dergelijk onevenwichtig verlies maakt het trainingsproces van end-to-end mask-transformatorgebaseerde architecturen moeilijk, vooral voor efficiënte modellen. In dit artikel presenteren we ReMaX, dat tijdens de training voor panoptische segmentatie ontspanning toevoegt aan maskvoorspellingen en klassevoorspellingen. We tonen aan dat via deze eenvoudige ontspanningstechnieken tijdens de training, ons model consistent met een duidelijke marge kan worden verbeterd zonder extra rekenkosten tijdens de inferentie. Door onze methode te combineren met efficiënte backbones zoals MobileNetV3-Small, behaalt onze methode nieuwe state-of-the-art resultaten voor efficiënte panoptische segmentatie op COCO, ADE20K en Cityscapes. Code en vooraf getrainde checkpoints zullen beschikbaar zijn op https://github.com/google-research/deeplab2.