Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Magic123, un approccio a due stadi da grossolano a fine per la generazione di mesh 3D di alta qualità e con texture a partire da una singola immagine non posata in contesti reali, utilizzando sia prior 2D che 3D. Nella prima fase, ottimizziamo un campo di radianza neurale per produrre una geometria grossolana. Nella seconda fase, adottiamo una rappresentazione differenziabile di mesh efficiente in termini di memoria per ottenere una mesh ad alta risoluzione con una texture visivamente accattivante. In entrambe le fasi, il contenuto 3D viene appreso attraverso la supervisione della vista di riferimento e viste nuove guidate da una combinazione di prior di diffusione 2D e 3D. Introduciamo un singolo parametro di compromesso tra i prior 2D e 3D per controllare l'esplorazione (più immaginativa) e lo sfruttamento (più preciso) della geometria generata. Inoltre, utilizziamo l'inversione testuale e la regolarizzazione della profondità monoculare per favorire una consistenza dell'aspetto tra le diverse viste e per prevenire soluzioni degenerate, rispettivamente. Magic123 dimostra un miglioramento significativo rispetto alle precedenti tecniche di conversione da immagine a 3D, come validato attraverso esperimenti estesi su benchmark sintetici e su una varietà di immagini del mondo reale. Il nostro codice, modelli e asset 3D generati sono disponibili all'indirizzo https://github.com/guochengqian/Magic123.
I grandi modelli linguistici (LLM) rappresentano uno strumento promettente che consente ai robot di eseguire compiti di ragionamento complessi. Tuttavia, la finestra di contesto limitata degli LLM contemporanei rende difficile il ragionamento su orizzonti temporali lunghi. Compiti incarnati, come quelli che ci si aspetterebbe da un robot domestico, richiedono tipicamente che il pianificatore consideri informazioni acquisite molto tempo prima (ad esempio, le proprietà dei numerosi oggetti che il robot ha incontrato precedentemente nell'ambiente). I tentativi di catturare lo stato del mondo utilizzando la rappresentazione interna implicita di un LLM sono complicati dalla scarsità di informazioni rilevanti per il compito e per l'ambiente disponibili nella cronologia delle azioni del robot, mentre i metodi che si basano sulla capacità di trasmettere informazioni tramite il prompt all'LLM sono soggetti alla sua finestra di contesto limitata. In questo articolo, proponiamo Statler, un framework che fornisce agli LLM una rappresentazione esplicita dello stato del mondo come forma di "memoria" che viene mantenuta nel tempo. Elemento integrante di Statler è l'uso di due istanze di LLM generici - un lettore del modello del mondo e uno scrittore del modello del mondo - che interagiscono con e mantengono lo stato del mondo. Fornendo accesso a questa "memoria" dello stato del mondo, Statler migliora la capacità degli LLM esistenti di ragionare su orizzonti temporali più lunghi senza il vincolo della lunghezza del contesto. Valutiamo l'efficacia del nostro approccio su tre domini simulati di manipolazione su tavolo e su un dominio robotico reale, dimostrando che esso migliora lo stato dell'arte nel ragionamento robotico basato su LLM. Sito del progetto: https://statler-lm.github.io/
I transformer per la visione (ViT) hanno radicalmente trasformato il panorama della computer vision e hanno periodicamente dimostrato prestazioni superiori nelle attività visive rispetto alle reti neurali convoluzionali (CNN). Sebbene non ci sia ancora un verdetto definitivo su quale tipo di modello sia superiore, ciascuno presenta pregiudizi induttivi unici che influenzano il loro apprendimento e le prestazioni di generalizzazione. Ad esempio, i ViT possiedono proprietà interessanti riguardo alla dipendenza non locale delle feature negli strati iniziali, nonché meccanismi di self-attention che migliorano la flessibilità di apprendimento, consentendo loro di ignorare in modo più efficace le informazioni fuori contesto presenti nelle immagini. Ipotesizziamo che questa capacità di ignorare le informazioni fuori contesto (che chiamiamo selettività delle patch), integrando al contempo le informazioni nel contesto in modo non locale negli strati iniziali, permetta ai ViT di gestire più facilmente l'occlusione. In questo studio, il nostro obiettivo è verificare se possiamo far simulare alle CNN questa capacità di selettività delle patch, incorporando efficacemente questo pregiudizio induttivo attraverso l'augmentazione dei dati con Patch Mixing, che consiste nell'inserire patch provenienti da un'altra immagine in un'immagine di addestramento e nell'interpolare le etichette tra le due classi di immagini. Nello specifico, utilizziamo Patch Mixing per addestrare ViT e CNN all'avanguardia, valutandone l'impatto sulla loro capacità di ignorare le patch fuori contesto e gestire le occlusioni naturali. Scopriamo che i ViT non migliorano né peggiorano quando addestrati con Patch Mixing, mentre le CNN acquisiscono nuove capacità di ignorare le informazioni fuori contesto e migliorano nei benchmark di occlusione, portandoci a concludere che questo metodo di addestramento è un modo per simulare nelle CNN le abilità che i ViT possiedono già. Rilasceremo la nostra implementazione di Patch Mixing e i dataset proposti per l'uso pubblico. Pagina del progetto: https://arielnlee.github.io/PatchMixing/
Nella teoria del deep learning, la matrice di covarianza delle rappresentazioni funge da proxy per esaminare l'addestrabilità della rete. Ispirati dal successo dei Transformer, studiamo la matrice di covarianza di un modello di attenzione basato su Softmax modificato con connessioni skip nel limite proporzionale di profondità e larghezza infinite. Dimostriamo che all'inizializzazione la distribuzione limite può essere descritta da un'equazione differenziale stocastica (SDE) indicizzata dal rapporto profondità-larghezza. Per ottenere un limite stocastico ben definito, il meccanismo di attenzione del Transformer viene modificato centrando l'output del Softmax sull'identità e scalando i logit del Softmax con un parametro di temperatura dipendente dalla larghezza. Esaminiamo la stabilità della rete attraverso la corrispondente SDE, mostrando come la scala sia della deriva che della diffusione possa essere elegantemente controllata con l'aiuto delle connessioni residue. L'esistenza di una SDE stabile implica che la struttura di covarianza sia ben comportata, anche per profondità e larghezza molto grandi, prevenendo così i noti problemi di degenerazione del rango nei modelli di attenzione profondi. Infine, mostriamo, attraverso simulazioni, che la SDE fornisce una descrizione sorprendentemente accurata del corrispondente modello a dimensione finita. Coniamo il nome shaped Transformer per queste modifiche architetturali.
Questo articolo presenta un nuovo meccanismo per facilitare l'addestramento di trasformatori basati su maschere per una segmentazione panottica efficiente, democratizzandone l'implementazione. Osserviamo che, a causa della sua elevata complessità, l'obiettivo di addestramento della segmentazione panottica porterà inevitabilmente a una penalizzazione molto più alta dei falsi positivi. Tale perdita sbilanciata rende difficile il processo di addestramento delle architetture end-to-end basate su trasformatori di maschere, specialmente per i modelli efficienti. In questo articolo, presentiamo ReMaX, che introduce un rilassamento delle previsioni delle maschere e delle classi durante l'addestramento per la segmentazione panottica. Dimostriamo che, attraverso queste semplici tecniche di rilassamento durante l'addestramento, il nostro modello può essere migliorato in modo consistente con un margine significativo senza alcun costo computazionale aggiuntivo durante l'inferenza. Combinando il nostro metodo con backbone efficienti come MobileNetV3-Small, il nostro metodo raggiunge nuovi risultati all'avanguardia per la segmentazione panottica efficiente su COCO, ADE20K e Cityscapes. Il codice e i checkpoint pre-addestrati saranno disponibili su https://github.com/google-research/deeplab2.