Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo articolo affronta una sfida significativa dei Vision Transformers (ViT): la loro scalabilità limitata su diverse risoluzioni di immagine. Tipicamente, i ViT subiscono un calo delle prestazioni quando elaborano risoluzioni diverse da quelle osservate durante l'addestramento. Il nostro lavoro introduce due innovazioni chiave per risolvere questo problema. In primo luogo, proponiamo un modulo innovativo per l'aggiustamento dinamico della risoluzione, progettato con un singolo blocco Transformer, specificamente per ottenere un'integrazione incrementale dei token altamente efficiente. In secondo luogo, introduciamo una codifica posizionale fuzzy nel Vision Transformer per fornire una consapevolezza posizionale coerente su più risoluzioni, prevenendo così l'overfitting su una singola risoluzione di addestramento. Il nostro modello risultante, ViTAR (Vision Transformer with Any Resolution), dimostra un'impressionante adattabilità, raggiungendo un'accuratezza top-1 dell'83,3% a una risoluzione di 1120x1120 e un'accuratezza dell'80,4% a una risoluzione di 4032x4032, riducendo al contempo i costi computazionali. ViTAR mostra anche ottime prestazioni in task downstream come la segmentazione istanziale e semantica e può essere facilmente combinato con tecniche di apprendimento auto-supervisionato come il Masked AutoEncoder. Il nostro lavoro fornisce una soluzione economica per migliorare la scalabilità della risoluzione dei ViT, aprendo la strada a un'elaborazione delle immagini ad alta risoluzione più versatile ed efficiente.
In questo lavoro, introduciamo Mini-Gemini, un framework semplice ed efficace per potenziare i modelli linguistico-visivi multimodali (VLMs). Nonostante i progressi nei VLMs che facilitano dialoghi visivi di base e ragionamenti, persiste un divario prestazionale rispetto a modelli avanzati come GPT-4 e Gemini. Cerchiamo di ridurre questo divario sfruttando il potenziale dei VLMs per ottenere prestazioni migliori e un flusso di lavoro any-to-any da tre aspetti, ovvero token visivi ad alta risoluzione, dati di alta qualità e generazione guidata da VLM. Per migliorare i token visivi, proponiamo di utilizzare un encoder visivo aggiuntivo per il perfezionamento ad alta risoluzione senza aumentare il numero di token visivi. Inoltre, costruiamo un dataset di alta qualità che promuove una comprensione precisa delle immagini e una generazione basata sul ragionamento, ampliando l'ambito operativo degli attuali VLMs. In generale, Mini-Gemini sfrutta ulteriormente il potenziale dei VLMs e potenzia i framework attuali con comprensione delle immagini, ragionamento e generazione simultaneamente. Mini-Gemini supporta una serie di modelli linguistici di grandi dimensioni (LLMs) densi e MoE da 2B a 34B. È dimostrato che raggiunge prestazioni leader in diversi benchmark zero-shot e supera persino i modelli privati sviluppati. Codice e modelli sono disponibili su https://github.com/dvlab-research/MiniGemini.
I modelli di diffusione hanno rivoluzionato l'editing delle immagini, ma spesso generano immagini che violano le leggi fisiche, in particolare gli effetti degli oggetti sulla scena, come occlusioni, ombre e riflessi. Analizzando i limiti degli approcci auto-supervisionati, proponiamo una soluzione pratica incentrata su un dataset controfattuale. Il nostro metodo prevede la cattura di una scena prima e dopo la rimozione di un singolo oggetto, minimizzando altri cambiamenti. Ottimizzando un modello di diffusione su questo dataset, siamo in grado non solo di rimuovere gli oggetti ma anche i loro effetti sulla scena. Tuttavia, scopriamo che applicare questo approccio per l'inserimento fotorealistico di oggetti richiede un dataset impraticabilmente grande. Per affrontare questa sfida, proponiamo una supervisione bootstrap; sfruttando il nostro modello di rimozione degli oggetti addestrato su un piccolo dataset controfattuale, espandiamo sinteticamente questo dataset in modo significativo. Il nostro approccio supera notevolmente i metodi precedenti nella rimozione e nell'inserimento fotorealistico di oggetti, in particolare nella modellazione degli effetti degli oggetti sulla scena.
I grandi modelli linguistici (LLM) spesso generano contenuti che contengono errori fattuali quando rispondono a prompt che cercano fatti su argomenti aperti. Per valutare la fattualità a lungo termine di un modello in domini aperti, utilizziamo prima GPT-4 per generare LongFact, un set di prompt composto da migliaia di domande che coprono 38 argomenti. Proponiamo quindi che gli agenti LLM possano essere utilizzati come valutatori automatizzati per la fattualità a lungo termine attraverso un metodo che chiamiamo Search-Augmented Factuality Evaluator (SAFE). SAFE utilizza un LLM per suddividere una risposta a lungo termine in un insieme di fatti individuali e per valutare l'accuratezza di ciascun fatto attraverso un processo di ragionamento in più fasi che comprende l'invio di query di ricerca a Google Search e la determinazione se un fatto sia supportato dai risultati della ricerca. Inoltre, proponiamo di estendere il punteggio F1 come metrica aggregata per la fattualità a lungo termine. Per fare ciò, bilanciamo la percentuale di fatti supportati in una risposta (precisione) con la percentuale di fatti forniti rispetto a un iperparametro che rappresenta la lunghezza preferita della risposta da parte dell'utente (richiamo). Empiricamente, dimostriamo che gli agenti LLM possono raggiungere prestazioni di valutazione sovrumane: su un insieme di ~16k fatti individuali, SAFE concorda con annotatori umani crowdsourced il 72% delle volte, e su un sottoinsieme casuale di 100 casi di disaccordo, SAFE vince il 76% delle volte. Allo stesso tempo, SAFE è più di 20 volte più economico rispetto agli annotatori umani. Abbiamo anche valutato tredici modelli linguistici su LongFact in quattro famiglie di modelli (Gemini, GPT, Claude e PaLM-2), riscontrando che i modelli linguistici più grandi generalmente raggiungono una migliore fattualità a lungo termine. LongFact, SAFE e tutto il codice sperimentale sono disponibili su https://github.com/google-deepmind/long-form-factuality.
Introduciamo Garment3DGen, un nuovo metodo per sintetizzare asset di indumenti 3D a partire da una mesh di base utilizzando una singola immagine in input come guida. Il nostro approccio proposto consente agli utenti di generare indumenti 3D con texture basati sia su immagini reali che sintetiche, come quelle generate da prompt testuali. Gli asset generati possono essere direttamente drappeggiati e simulati su corpi umani. In primo luogo, sfruttiamo i recenti progressi nei metodi di diffusione da immagine a 3D per generare geometrie di indumenti 3D. Tuttavia, poiché queste geometrie non possono essere utilizzate direttamente per compiti successivi, proponiamo di utilizzarle come pseudo verità di riferimento e impostiamo una procedura di ottimizzazione della deformazione della mesh che deforma una mesh template di base per adattarla al target 3D generato. In secondo luogo, introduciamo funzioni di perdita accuratamente progettate che consentono alla mesh di base di deformarsi liberamente verso il target desiderato, preservando al contempo la qualità e la topologia della mesh in modo che possano essere simulate. Infine, un modulo di stima della texture genera mappe di texture ad alta fedeltà che sono globalmente e localmente coerenti e catturano fedelmente la guida in input, permettendoci di renderizzare gli asset 3D generati. Con Garment3DGen, gli utenti possono generare l’indumento 3D con texture di loro scelta senza bisogno dell’intervento di un artista. È possibile fornire un prompt testuale che descrive l’indumento desiderato per generare un asset 3D pronto per la simulazione. Presentiamo una vasta gamma di confronti quantitativi e qualitativi su vari asset, sia reali che generati, e forniamo esempi pratici su come generare indumenti 3D pronti per la simulazione.
Modelli come GPT-4 e Med-PaLM 2 hanno dimostrato prestazioni impressionanti su una vasta gamma di task di NLP biomedico. Tuttavia, questi modelli hanno centinaia di miliardi di parametri, sono computazionalmente costosi da eseguire, richiedono agli utenti di inviare i propri dati di input tramite internet e sono addestrati su fonti di dati sconosciute. Modelli più piccoli e mirati possono competere? Per affrontare questa questione, abbiamo costruito e rilasciato BioMedLM, un modello autoregressivo in stile GPT da 2,7 miliardi di parametri addestrato esclusivamente su abstract e articoli completi di PubMed. Quando sottoposto a fine-tuning, BioMedLM può produrre risultati solidi nel rispondere a domande a scelta multipla in ambito biomedico, competitivi con modelli molto più grandi, come ottenere un punteggio del 57,3% su MedMCQA (dev) e del 69,0% sull'esame MMLU Medical Genetics. BioMedLM può anche essere sottoposto a fine-tuning per produrre risposte utili a domande dei pazienti su argomenti medici. Ciò dimostra che modelli più piccoli possono potenzialmente servire come basi trasparenti, rispettose della privacy, economiche ed ecologiche per particolari applicazioni di NLP, come nel campo biomedico. Il modello è disponibile su Hugging Face Hub: https://huggingface.co/stanford-crfm/BioMedLM.
Affrontiamo la sfida di ricostruire in modo efficiente un asset 3D da una singola immagine, in risposta alle crescenti richieste per pipeline automatizzate di creazione di contenuti 3D. I metodi precedenti si basano principalmente su Score Distillation Sampling (SDS) e Neural Radiance Fields (NeRF). Nonostante il loro significativo successo, questi approcci incontrano limitazioni pratiche dovute a lunghi tempi di ottimizzazione e un considerevole utilizzo di memoria. In questo rapporto, presentiamo Gamba, un modello di ricostruzione 3D ammortizzato end-to-end da immagini a singola vista, che enfatizza due principali intuizioni: (1) Rappresentazione 3D: sfruttare un gran numero di Gaussiane 3D per un efficiente processo di splatting Gaussiano 3D; (2) Progettazione del backbone: introdurre una rete sequenziale basata su Mamba che facilita il ragionamento dipendente dal contesto e la scalabilità lineare con la lunghezza della sequenza (token), consentendo l'utilizzo di un numero sostanziale di Gaussiane. Gamba incorpora significativi progressi nella pre-elaborazione dei dati, nella progettazione della regolarizzazione e nelle metodologie di addestramento. Abbiamo valutato Gamba rispetto agli approcci esistenti di generazione 3D basati su ottimizzazione e feed-forward utilizzando il dataset OmniObject3D scansionato nel mondo reale. Qui, Gamba dimostra capacità competitive di generazione, sia qualitativamente che quantitativamente, raggiungendo una velocità notevole, circa 0,6 secondi su una singola GPU NVIDIA A100.
In questo articolo presentiamo EgoLifter, un sistema innovativo in grado di segmentare automaticamente scene catturate da sensori egocentrici in una decomposizione completa di singoli oggetti 3D. Il sistema è specificamente progettato per dati egocentrici in cui le scene contengono centinaia di oggetti catturati da movimenti naturali (non di scansione). EgoLifter adotta le Gaussiane 3D come rappresentazione sottostante delle scene e degli oggetti 3D e utilizza maschere di segmentazione del Segment Anything Model (SAM) come supervisione debole per apprendere definizioni flessibili e promptabili di istanze di oggetti, libere da qualsiasi tassonomia specifica. Per affrontare la sfida degli oggetti dinamici nei video egocentrici, abbiamo progettato un modulo di previsione transitoria che impara a filtrare gli oggetti dinamici nella ricostruzione 3D. Il risultato è una pipeline completamente automatica in grado di ricostruire istanze di oggetti 3D come collezioni di Gaussiane 3D che compongono collettivamente l'intera scena. Abbiamo creato un nuovo benchmark sul dataset Aria Digital Twin che dimostra quantitativamente le sue prestazioni all'avanguardia nella segmentazione 3D in mondi aperti da input egocentrico naturale. Abbiamo eseguito EgoLifter su vari dataset di attività egocentriche, mostrando il potenziale del metodo per la percezione egocentrica 3D su larga scala.
Il nostro lavoro affronta le limitazioni osservate negli approcci precedenti per i problemi di editing centrati sugli oggetti, come risultati non realistici dovuti a discrepanze nella forma e controllo limitato nella sostituzione o inserimento di oggetti. A tal fine, introduciamo FlexEdit, un framework di editing flessibile e controllabile per oggetti in cui regoliamo iterativamente i latenti ad ogni passo di denoising utilizzando il nostro blocco FlexEdit. Inizialmente, ottimizziamo i latenti al momento del test per allinearli ai vincoli specificati per l'oggetto. Successivamente, il nostro framework utilizza una maschera adattativa, estratta automaticamente durante il denoising, per proteggere lo sfondo mentre fonde perfettamente nuovi contenuti nell'immagine target. Dimostriamo la versatilità di FlexEdit in varie attività di editing di oggetti e curiamo una suite di valutazione con campioni provenienti sia da immagini reali che sintetiche, insieme a nuove metriche di valutazione progettate per l'editing centrato sugli oggetti. Condividiamo esperimenti estesi su diversi scenari di editing, dimostrando la superiorità del nostro framework rispetto ai recenti metodi avanzati di editing di immagini guidati da testo. La nostra pagina del progetto è pubblicata all'indirizzo https://flex-edit.github.io/.
I Modelli Linguistici a Rete Neurale (NNLM) per gli Assistenti Virtuali (VA) sono generalmente dipendenti dalla lingua, dalla regione e, in alcuni casi, dal dispositivo, il che aumenta lo sforzo necessario per scalare e mantenerli. Combinare gli NNLM per una o più di queste categorie è un modo per migliorare la scalabilità. In questo lavoro, combiniamo le varianti regionali dell'inglese per costruire un NNLM "World English" per VA su dispositivo. In particolare, investigiamo l'applicazione di colli di bottiglia adattatori per modellare le caratteristiche specifiche dei dialetti nei nostri NNLM di produzione esistenti e migliorare le baseline multi-dialetto. Scopriamo che i moduli adattatori sono più efficaci nel modellare i dialetti rispetto alla specializzazione di intere sotto-reti. Basandoci su questa intuizione e sfruttando il design dei nostri modelli di produzione, introduciamo una nuova architettura per l'NNLM World English che soddisfa i vincoli di accuratezza, latenza e memoria dei nostri modelli a singolo dialetto.