Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli linguistici (LLM) sono utili in molti compiti di NLP e diventano più capaci all'aumentare delle dimensioni, con i migliori modelli open-source che superano i 50 miliardi di parametri. Tuttavia, l'utilizzo di questi modelli da 50B+ richiede hardware di fascia alta, rendendoli inaccessibili alla maggior parte dei ricercatori. In questo lavoro, indaghiamo metodi per l'inferenza e il fine-tuning efficienti in termini di costi degli LLM, confrontando strategie locali e distribuite. Osserviamo che un modello sufficientemente grande (50B+) può funzionare in modo efficiente anche su dispositivi geodistribuiti in una rete di livello consumer. Ciò potrebbe consentire di eseguire LLM in modo efficiente aggregando risorse di calcolo inutilizzate di più gruppi di ricerca e volontari. Affrontiamo due problemi aperti: (1) come eseguire inferenza e fine-tuning in modo affidabile se qualsiasi dispositivo può disconnettersi bruscamente e (2) come partizionare gli LLM tra dispositivi con hardware disomogeneo, che si uniscono e lasciano il sistema a piacimento. Per fare ciò, sviluppiamo algoritmi di inferenza tolleranti ai guasti e protocolli di bilanciamento del carico che assegnano automaticamente i dispositivi per massimizzare la produttività totale del sistema. Mostriamo questi algoritmi in Petals, un sistema decentralizzato che esegue Llama 2 (70B) e BLOOM (176B) su Internet fino a 10 volte più velocemente rispetto all'offloading per la generazione interattiva. Valutiamo le prestazioni del nostro sistema in condizioni simulate e in un setup reale che copre due continenti.
I metodi esistenti per la segmentazione di immagini a vocabolario aperto richiedono un passaggio di fine-tuning su annotazioni di maschere e/o dataset immagine-testo. Le etichette delle maschere sono laboriose da ottenere, il che limita il numero di categorie nei dataset di segmentazione. Di conseguenza, la capacità a vocabolario aperto dei modelli di linguaggio visivo (VLM) pre-addestrati viene notevolmente ridotta dopo il fine-tuning. Tuttavia, senza fine-tuning, i VLM addestrati con supervisione debole immagine-testo tendono a fare previsioni di maschere subottimali quando ci sono query di testo che si riferiscono a concetti non presenti nell'immagine. Per alleviare questi problemi, introduciamo un nuovo framework ricorrente che filtra progressivamente i testi irrilevanti e migliora la qualità delle maschere senza sforzi di addestramento. L'unità ricorrente è un segmentatore a due stadi costruito su un VLM con pesi congelati. In questo modo, il nostro modello mantiene l'ampio spazio vocabolario del VLM e rafforza la sua capacità di segmentazione. I risultati sperimentali mostrano che il nostro metodo supera non solo le controparti senza addestramento, ma anche quelle sottoposte a fine-tuning con milioni di campioni di dati aggiuntivi, e stabilisce nuovi record state-of-the-art sia per i compiti di segmentazione semantica zero-shot che per la segmentazione di immagini con riferimenti testuali. In particolare, miglioriamo il record attuale di 28,8, 16,0 e 6,9 mIoU rispettivamente su Pascal VOC, COCO Object e Pascal Context.
Gli ambienti simulati in 3D svolgono un ruolo cruciale nell'AI incarnata, ma la loro creazione richiede competenze e un ampio sforzo manuale, limitandone la diversità e la portata. Per mitigare questa limitazione, presentiamo Holodeck, un sistema che genera ambienti 3D in modo completamente automatizzato in base a un prompt fornito dall'utente. Holodeck può generare scene diversificate, come sale giochi, spa e musei, adattare i design a diversi stili e catturare la semantica di query complesse come "appartamento per un ricercatore con un gatto" e "ufficio di un professore fan di Star Wars". Holodeck sfrutta un modello linguistico di grandi dimensioni (GPT-4) per acquisire conoscenze di senso comune su come potrebbe apparire la scena e utilizza una vasta raccolta di asset 3D da Objaverse per popolare la scena con oggetti diversificati. Per affrontare la sfida del posizionamento corretto degli oggetti, sollecitiamo GPT-4 a generare vincoli relazionali spaziali tra gli oggetti e poi ottimizziamo il layout per soddisfare tali vincoli. La nostra valutazione su larga scala condotta da esseri umani mostra che gli annotatori preferiscono Holodeck rispetto alle baseline procedurali progettate manualmente per scene residenziali e che Holodeck può produrre output di alta qualità per diversi tipi di scene. Dimostriamo inoltre un'applicazione entusiasmante di Holodeck nell'AI incarnata, addestrando agenti a navigare in scene nuove come stanze della musica e asili nido senza dati costruiti dall'uomo, rappresentando un significativo passo avanti nello sviluppo di agenti incarnati a scopo generale.
Questo lavoro mira a migliorare l'efficienza dei modelli di diffusione testo-immagine. Sebbene i modelli di diffusione utilizzino operazioni di denoising basate su UNet computazionalmente costose in ogni fase di generazione, abbiamo identificato che non tutte le operazioni sono ugualmente rilevanti per la qualità finale dell'output. In particolare, osserviamo che i livelli UNet che operano su mappe di caratteristiche ad alta risoluzione sono relativamente sensibili a piccole perturbazioni. Al contrario, le mappe di caratteristiche a bassa risoluzione influenzano il layout semantico dell'immagine finale e possono spesso essere perturbate senza cambiamenti evidenti nell'output. Sulla base di questa osservazione, proponiamo Clockwork Diffusion, un metodo che riutilizza periodicamente il calcolo delle precedenti fasi di denoising per approssimare le mappe di caratteristiche a bassa risoluzione in una o più fasi successive. Per molteplici baseline, sia per la generazione testo-immagine che per l'editing di immagini, dimostriamo che Clockwork porta a punteggi percettivi comparabili o migliorati con una complessità computazionale drasticamente ridotta. Ad esempio, per Stable Diffusion v1.5 con 8 passaggi DPM++, risparmiamo il 32% delle FLOP con cambiamenti trascurabili in FID e CLIP.
Presentiamo FoundationPose, un modello fondazionale unificato per la stima e il tracciamento della posa 6D di oggetti, che supporta sia configurazioni basate su modello che libere da modello. Il nostro approccio può essere applicato istantaneamente al momento del test a un nuovo oggetto senza necessità di fine-tuning, purché ne sia fornito il modello CAD o vengano acquisite un piccolo numero di immagini di riferimento. Colmiamo il divario tra queste due configurazioni con una rappresentazione neurale implicita che consente una sintesi efficace di nuove viste, mantenendo invariati i moduli di stima della posa a valle all'interno dello stesso framework unificato. Una forte generalizzabilità è ottenuta attraverso un addestramento su larga scala con dati sintetici, supportato da un modello linguistico di grandi dimensioni (LLM), una nuova architettura basata su transformer e una formulazione di apprendimento contrastivo. Una valutazione estensiva su più dataset pubblici che includono scenari e oggetti complessi indica che il nostro approccio unificato supera di gran lunga i metodi esistenti specializzati per ciascun compito. Inoltre, raggiunge risultati comparabili ai metodi a livello di istanza nonostante le ipotesi ridotte. Pagina del progetto: https://nvlabs.github.io/FoundationPose/
I modelli linguistici di grandi dimensioni (LLM) affrontano sfide nel risolvere problemi matematici complessi che richiedono capacità complete per analizzare le affermazioni, associare conoscenze di dominio, eseguire ragionamenti logici composti e integrare le motivazioni intermedie. Affrontare tutti questi problemi contemporaneamente potrebbe essere arduo per gli LLM, portando così a confusione nella generazione. In questo lavoro, esploriamo il potenziale di migliorare gli LLM con agenti attraverso una scomposizione e modellazione meticolosa del processo di ragionamento matematico. Nello specifico, proponiamo una descrizione formale della risoluzione matematica e estendiamo gli LLM con un framework zero-shot basato su agenti denominato Planner-Reasoner-Executor-Reflector (PRER). Inoltre, forniamo e implementiamo due MathAgents che definiscono le forme logiche e le relazioni intrinseche attraverso un insieme di azioni a diversi livelli di granularità e orientamenti: MathAgent-M adatta le sue azioni agli LLM, mentre MathAgent-H si allinea con il modo di ragionare umano. Gli esperimenti su miniF2F e MATH hanno dimostrato l'efficacia di PRER e dei MathAgents proposti, ottenendo un aumento del 12,3% (da 53,9% a 66,2%) su miniF2F, del 9,2% (da 49,8% a 59,0%) su MATH e del 13,2% (da 23,2% a 35,4%) per i problemi di livello 5 di MATH rispetto a GPT-4. Ulteriori risultati analitici forniscono prospettive più approfondite sullo sfruttamento dei comportamenti degli LLM come agenti.
La scoperta della razionalità è definita come l'individuazione di un sottoinsieme dei dati di input che supporta in modo massimale la previsione dei task downstream. Nel contesto dell'apprendimento automatico su grafi, la razionalità del grafo è definita come la localizzazione del sottografo critico nella topologia del grafo dato, che determina fondamentalmente i risultati della previsione. In contrasto con il sottografo razionale, il sottografo rimanente è denominato sottografo ambiente. La razionalizzazione del grafo può migliorare le prestazioni del modello poiché la mappatura tra il grafo razionale e l'etichetta di previsione è considerata invariante, per ipotesi. Per garantire il potere discriminativo dei sottografi razionali estratti, viene applicata una tecnica chiave denominata "intervento". L'idea centrale dell'intervento è che, dati sottografi ambiente in cambiamento, la semantica del sottografo razionale rimane invariante, garantendo così il risultato di previsione corretto. Tuttavia, la maggior parte, se non tutte, delle opere esistenti sulla razionalizzazione dei dati su grafi sviluppano le proprie strategie di intervento a livello di grafo, che è grossolano. In questo articolo, proponiamo strategie di intervento ben calibrate sui dati su grafi. La nostra idea è guidata dallo sviluppo dei modelli Transformer, il cui modulo di self-attention fornisce interazioni ricche tra i nodi di input. Basandoci sul modulo di self-attention, il nostro Transformer invariante su grafi (IGT) proposto può raggiungere un intervento fine, più specificamente, a livello di nodo e a livello di nodo virtuale. I nostri esperimenti completi coinvolgono 7 dataset del mondo reale, e il IGT proposto mostra significativi vantaggi prestazionali rispetto a 13 metodi di base.
I recenti progressi nel rendering neurale hanno dimostrato che, sebbene lenti, i modelli compatti impliciti possono apprendere le geometrie di una scena e le apparenze dipendenti dalla vista da più prospettive. Per mantenere un'impronta di memoria così ridotta ma ottenere tempi di inferenza più rapidi, lavori recenti hanno adottato reti "sampler" che campionano in modo adattivo un piccolo sottoinsieme di punti lungo ogni raggio nei campi di radianza neurale impliciti. Sebbene questi metodi raggiungano una riduzione fino a 10 volte nel tempo di rendering, soffrono comunque di un notevole degrado della qualità rispetto al NeRF classico. Al contrario, proponiamo ProNeRF, che offre un compromesso ottimale tra impronta di memoria (simile a NeRF), velocità (più veloce di HyperReel) e qualità (migliore di K-Planes). ProNeRF è dotato di una nuova rete di campionamento consapevole della proiezione (PAS) insieme a una nuova strategia di addestramento per l'esplorazione e lo sfruttamento dei raggi, consentendo un campionamento efficiente e fine delle particelle. Il nostro ProNeRF produce metriche all'avanguardia, essendo 15-23 volte più veloce con un PSNR più alto di 0,65 dB rispetto a NeRF e ottenendo un PSNR più alto di 0,95 dB rispetto al miglior metodo basato su sampler pubblicato, HyperReel. La nostra strategia di addestramento di esplorazione e sfruttamento consente a ProNeRF di apprendere le distribuzioni complete di colore e densità delle scene, apprendendo anche un campionamento efficiente dei raggi focalizzato sulle regioni a più alta densità. Forniamo ampi risultati sperimentali che supportano l'efficacia del nostro metodo sui dataset ampiamente adottati di prospettiva frontale e 360 gradi, rispettivamente LLFF e Blender.