Articoli di ricerca IA selezionati quotidianamente con traduzioni
Proponiamo MVDream, un modello di diffusione multi-vista in grado di generare immagini multi-vista geometricamente coerenti a partire da un prompt testuale. Sfruttando modelli di diffusione di immagini pre-addestrati su grandi dataset web e un dataset multi-vista renderizzato da asset 3D, il modello di diffusione multi-vista risultante può raggiungere sia la generalizzabilità della diffusione 2D che la coerenza dei dati 3D. Un tale modello può quindi essere applicato come prior multi-vista per la generazione 3D tramite Score Distillation Sampling, dove migliora notevolmente la stabilità dei metodi esistenti di sollevamento 2D risolvendo il problema della coerenza 3D. Infine, dimostriamo che il modello di diffusione multi-vista può anche essere fine-tuned in un contesto few-shot per la generazione 3D personalizzata, ovvero l'applicazione DreamBooth3D, dove la coerenza può essere mantenuta dopo aver appreso l'identità del soggetto.
I modelli di tipo Transformer per compiti visivi si sono recentemente dimostrati efficaci per un'ampia gamma di applicazioni downstream come la segmentazione e il rilevamento. Precedenti lavori hanno mostrato che le proprietà di segmentazione emergono nei vision transformer (ViT) addestrati utilizzando metodi auto-supervisionati come DINO, ma non in quelli addestrati su compiti di classificazione supervisionata. In questo studio, indaghiamo se la segmentazione emerge nei modelli basati su Transformer esclusivamente come risultato di meccanismi complessi di apprendimento auto-supervisionato, o se la stessa emergenza possa essere ottenuta in condizioni molto più ampie attraverso un corretto design dell'architettura del modello. Attraverso risultati sperimentali estesi, dimostriamo che quando si utilizza un'architettura di tipo Transformer nota come CRATE, il cui design modella e persegue esplicitamente strutture a bassa dimensione nella distribuzione dei dati, le proprietà di segmentazione, sia a livello globale che delle parti, emergono già con una ricetta di addestramento supervisionato minimalista. Un'analisi più granulare livello per livello rivela che le proprietà emergenti corroborano fortemente le funzioni matematiche progettate della rete white-box. I nostri risultati suggeriscono una strada per progettare modelli di base white-box che siano simultaneamente altamente performanti e matematicamente completamente interpretabili. Il codice è disponibile su https://github.com/Ma-Lab-Berkeley/CRATE.
I modelli linguistici pre-addestrati come ChatGPT hanno migliorato significativamente la generazione di codice. Man mano che questi modelli aumentano di scala, cresce la necessità che l'output sia in grado di gestire compiti più complessi. Inoltre, nel campo della bioinformatica, la generazione di programmi funzionali presenta ulteriori sfide notevoli a causa della quantità di conoscenza di dominio richiesta, della necessità di operazioni sui dati complesse e delle intricate dipendenze funzionali tra le operazioni. Qui presentiamo BioCoder, un benchmark sviluppato per valutare i modelli pre-addestrati esistenti nella generazione di codice bioinformatico. In relazione alla generazione di codice per funzioni, BioCoder copre le potenziali dipendenze da pacchetti, dichiarazioni di classi e variabili globali. Include 1026 funzioni e 1243 metodi in Python e Java provenienti da GitHub e 253 esempi dal Rosalind Project. BioCoder incorpora un framework di fuzz-testing per la valutazione, e lo abbiamo applicato per valutare molti modelli tra cui InCoder, CodeGen, CodeGen2, SantaCoder, StarCoder, StarCoder+, InstructCodeT5+ e ChatGPT. La nostra analisi dettagliata di questi modelli sottolinea l'importanza della conoscenza di dominio, della generazione pragmatica del codice e della comprensione contestuale. Il nostro dataset, benchmark, immagini Docker e script necessari per i test sono tutti disponibili su https://github.com/gersteinlab/biocoder.
Quando i programmatori umani hanno padroneggiato un linguaggio di programmazione, diventa più semplice per loro apprendere un nuovo linguaggio di programmazione. In questo rapporto, ci concentriamo sull'esplorare se i linguaggi di programmazione possano potenziarsi reciprocamente durante la fase di fine-tuning delle istruzioni nei modelli linguistici di grandi dimensioni per il codice. Abbiamo condotto esperimenti estesi su 8 linguaggi di programmazione popolari (Python, JavaScript, TypeScript, C, C++, Java, Go, HTML) su StarCoder. I risultati dimostrano che i linguaggi di programmazione possono migliorarsi significativamente a vicenda. Ad esempio, CodeM-Python 15B addestrato su Python è in grado di aumentare Java di un assoluto 17,95% pass@1 su HumanEval-X. Ancora più sorprendentemente, abbiamo scoperto che CodeM-HTML 7B addestrato sul corpus HTML può migliorare Java di un assoluto 15,24% pass@1. I nostri dati di addestramento sono rilasciati su https://github.com/NL2Code/CodeM.
Stable Diffusion, un modello generativo utilizzato nella sintesi di immagini da testo, incontra frequentemente problemi di composizione indotti dalla risoluzione quando genera immagini di dimensioni variabili. Questo problema deriva principalmente dal fatto che il modello è stato addestrato su coppie di immagini a scala singola e le relative descrizioni testuali. Inoltre, l'addestramento diretto su immagini di dimensioni illimitate è impraticabile, poiché richiederebbe un numero enorme di coppie testo-immagine e comporterebbe costi computazionali significativi. Per superare queste sfide, proponiamo una pipeline in due fasi denominata Any-Size-Diffusion (ASD), progettata per generare in modo efficiente immagini ben composte di qualsiasi dimensione, minimizzando la necessità di risorse GPU ad alta memoria. Nello specifico, la fase iniziale, chiamata Any Ratio Adaptability Diffusion (ARAD), sfrutta un insieme selezionato di immagini con un intervallo limitato di rapporti per ottimizzare il modello di diffusione condizionato al testo, migliorando così la sua capacità di adattare la composizione per accogliere dimensioni diverse delle immagini. Per supportare la creazione di immagini di qualsiasi dimensione desiderata, introduciamo ulteriormente una tecnica chiamata Fast Seamless Tiled Diffusion (FSTD) nella fase successiva. Questo metodo consente di ingrandire rapidamente l'output di ASD a qualsiasi dimensione ad alta risoluzione, evitando artefatti di cucitura o sovraccarichi di memoria. I risultati sperimentali sui benchmark LAION-COCO e MM-CelebA-HQ dimostrano che ASD può produrre immagini ben strutturate di dimensioni arbitrarie, riducendo il tempo di inferenza di 2x rispetto al tradizionale algoritmo a tasselli.
Affrontiamo il problema della mappatura attiva con una rappresentazione neurale della scena appresa in modo continuativo, denominata Mappatura Neurale Attiva. La chiave risiede nell'individuare attivamente lo spazio target da esplorare con movimenti efficienti dell'agente, minimizzando così l'incertezza della mappa in tempo reale all'interno di un ambiente precedentemente sconosciuto. In questo articolo, esaminiamo lo spazio dei pesi del campo neurale appreso in modo continuativo e dimostriamo empiricamente che la variabilità neurale, ovvero la robustezza della previsione rispetto a perturbazioni casuali dei pesi, può essere utilizzata direttamente per misurare l'incertezza istantanea della mappa neurale. Insieme alle informazioni geometriche continue ereditate nella mappa neurale, l'agente può essere guidato a trovare un percorso percorribile per acquisire gradualmente conoscenza dell'ambiente. Presentiamo per la prima volta un sistema di mappatura attiva con una rappresentazione neurale implicita basata su coordinate per la ricostruzione online della scena. Gli esperimenti negli ambienti visivamente realistici di Gibson e Matterport3D dimostrano l'efficacia del metodo proposto.
Presentiamo Belebele, un dataset di comprensione della lettura automatica (MRC) a scelta multipla che copre 122 varianti linguistiche. Ampliando significativamente la copertura linguistica dei benchmark per la comprensione del linguaggio naturale (NLU), questo dataset consente la valutazione di modelli di testo in lingue ad alta, media e bassa risorsa. Ogni domanda si basa su un breve passaggio tratto dal dataset Flores-200 e presenta quattro risposte a scelta multipla. Le domande sono state curate con attenzione per discriminare tra modelli con diversi livelli di comprensione linguistica generale. Il dataset in inglese, da solo, si dimostra sufficientemente difficile da mettere alla prova i modelli linguistici all'avanguardia. Essendo completamente parallelo, questo dataset consente un confronto diretto delle prestazioni dei modelli in tutte le lingue. Utilizziamo questo dataset per valutare le capacità dei modelli linguistici mascherati multilingue (MLM) e dei grandi modelli linguistici (LLM). Presentiamo risultati estesi e scopriamo che, nonostante un significativo trasferimento cross-linguale negli LLM centrati sull'inglese, MLM molto più piccoli pre-addestrati su dati multilingue bilanciati comprendono ancora molte più lingue. Osserviamo inoltre che una dimensione del vocabolario più ampia e una costruzione consapevole del vocabolario sono correlate a prestazioni migliori nelle lingue a bassa risorsa. Nel complesso, Belebele apre nuove strade per la valutazione e l'analisi delle capacità multilingue dei sistemi di elaborazione del linguaggio naturale (NLP).
È un problema di lunga data nella robotica sviluppare agenti in grado di eseguire una varietà di compiti di manipolazione basandosi su osservazioni visive in ambienti reali non strutturati. Per raggiungere questo obiettivo, il robot deve avere una comprensione completa della struttura 3D e della semantica della scena. In questo lavoro, presentiamo GNFactor, un agente di clonazione comportamentale visiva per la manipolazione robotica multi-task con Campi Neurali Generalizzabili (Generalizable Neural feature Fields). GNFactor ottimizza congiuntamente un campo neurale generalizzabile (GNF) come modulo di ricostruzione e un Perceiver Transformer come modulo decisionale, sfruttando una rappresentazione 3D profonda condivisa basata su voxel. Per incorporare la semantica in 3D, il modulo di ricostruzione utilizza un modello di fondazione visione-linguaggio (ad esempio, Stable Diffusion) per distillare ricche informazioni semantiche nel voxel 3D profondo. Valutiamo GNFactor su 3 compiti con robot reali e eseguiamo ablazioni dettagliate su 10 compiti di RLBench con un numero limitato di dimostrazioni. Osserviamo un miglioramento sostanziale di GNFactor rispetto ai metodi attuali all'avanguardia sia in compiti noti che sconosciuti, dimostrando la forte capacità di generalizzazione di GNFactor. Il sito web del nostro progetto è https://yanjieze.com/GNFactor/.
L'interpolazione di frame video centrata sull'essere umano ha un grande potenziale per migliorare le esperienze di intrattenimento delle persone e trovare applicazioni commerciali nel settore dell'analisi sportiva, ad esempio nella sintesi di video al rallentatore. Sebbene nella comunità siano disponibili diversi dataset di riferimento, nessuno di essi è dedicato a scenari incentrati sull'essere umano. Per colmare questa lacuna, introduciamo SportsSloMo, un benchmark composto da oltre 130K clip video e 1M frame di video sportivi al rallentatore ad alta risoluzione (≥720p) raccolti da YouTube. Abbiamo riaddestrato diversi metodi all'avanguardia sul nostro benchmark, e i risultati mostrano una diminuzione della loro accuratezza rispetto ad altri dataset. Ciò evidenzia la difficoltà del nostro benchmark e suggerisce che rappresenta una sfida significativa anche per i metodi più performanti, poiché i corpi umani sono altamente deformabili e le occlusioni sono frequenti nei video sportivi. Per migliorare l'accuratezza, introduciamo due termini di perdita che considerano i priori legati all'essere umano, aggiungendo una supervisione ausiliaria rispettivamente alla segmentazione panottica e al rilevamento dei punti chiave umani. I termini di perdita sono indipendenti dal modello e possono essere facilmente integrati in qualsiasi approccio di interpolazione di frame video. I risultati sperimentali convalidano l'efficacia dei nostri termini di perdita proposti, portando a un miglioramento consistente delle prestazioni su 5 modelli esistenti, che stabiliscono solidi modelli di riferimento sul nostro benchmark. Il dataset e il codice sono disponibili al seguente indirizzo: https://neu-vi.github.io/SportsSlomo/.