Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo il Byte Latent Transformer (BLT), una nuova architettura LLM a livello di byte che, per la prima volta, eguaglia le prestazioni dei modelli LLM basati sulla tokenizzazione su larga scala con significativi miglioramenti nell'efficienza e nella robustezza dell'inferenza. Il BLT codifica i byte in patch di dimensioni dinamiche, che fungono da unità primarie di calcolo. Le patch sono segmentate in base all'entropia del byte successivo, allocando più calcolo e capacità del modello dove la complessità dei dati aumenta. Presentiamo il primo studio di scalabilità controllata da FLOP dei modelli a livello di byte fino a 8 miliardi di parametri e 4 trilioni di byte di addestramento. I nostri risultati dimostrano la fattibilità di scalare modelli addestrati su byte grezzi senza un vocabolario fisso. Sia l'efficienza dell'addestramento che dell'inferenza migliorano grazie alla selezione dinamica di patch lunghe quando i dati sono prevedibili, insieme a miglioramenti qualitativi nel ragionamento e nella generalizzazione a lunga coda. Complessivamente, per costi di inferenza fissi, il BLT mostra una scalabilità significativamente migliore rispetto ai modelli basati sulla tokenizzazione, facendo crescere contemporaneamente sia le dimensioni delle patch che del modello.
I grandi modelli linguistici (LLM) mostrano notevoli capacità generative ma spesso soffrono di allucinazioni. La generazione potenziata dal recupero (RAG) offre una soluzione efficace incorporando conoscenze esterne, ma i metodi esistenti si trovano ancora ad affrontare diverse limitazioni: costi aggiuntivi di implementazione di recuperatori separati, token di input ridondanti da frammenti di testo recuperati e la mancanza di ottimizzazione congiunta di recupero e generazione. Per affrontare questi problemi, proponiamo RetroLLM, un framework unificato che integra il recupero e la generazione in un singolo processo coeso, consentendo ai LLM di generare direttamente prove dettagliate dal corpus con decodifica vincolata. Inoltre, per mitigare la falsa potatura nel processo di generazione di prove vincolate, introduciamo (1) vincoli gerarchici dell'FM-Index, che generano indizi vincolati al corpus per identificare un sottoinsieme di documenti rilevanti prima della generazione di prove, riducendo lo spazio di decodifica non rilevante; e (2) una strategia di decodifica vincolata prospettica, che considera la rilevanza delle sequenze future per migliorare l'accuratezza delle prove. Estesi esperimenti su cinque set di dati di domande e risposte di dominio aperto dimostrano le prestazioni superiori di RetroLLM sia per compiti in dominio che fuori dominio. Il codice è disponibile su https://github.com/sunnynexus/RetroLLM.
I recenti progressi nei modelli generativi visivi hanno reso possibile la generazione di immagini e video di alta qualità, aprendo a diverse applicazioni. Tuttavia, valutare questi modelli spesso richiede il campionamento di centinaia o migliaia di immagini o video, rendendo il processo computazionalmente costoso, specialmente per i modelli basati sulla diffusione con campionamento intrinsecamente lento. Inoltre, i metodi di valutazione esistenti si basano su pipeline rigide che trascurano le esigenze specifiche dell'utente e forniscono risultati numerici senza spiegazioni chiare. Al contrario, gli esseri umani possono rapidamente formare impressioni sulle capacità di un modello osservando solo pochi campioni. Per mimare ciò, proponiamo il framework Evaluation Agent, che impiega strategie simili a quelle umane per valutazioni efficienti, dinamiche e multi-round utilizzando solo pochi campioni per round, offrendo nel contempo analisi dettagliate e personalizzate per l'utente. Esso offre quattro principali vantaggi: 1) efficienza, 2) valutazione personalizzabile adatta a diverse esigenze dell'utente, 3) spiegabilità oltre i singoli punteggi numerici, e 4) scalabilità tra vari modelli e strumenti. Gli esperimenti mostrano che Evaluation Agent riduce il tempo di valutazione al 10% rispetto ai metodi tradizionali pur offrendo risultati comparabili. Il framework Evaluation Agent è completamente open source per promuovere la ricerca nei modelli generativi visivi e nella loro valutazione efficiente.
L'editing delle immagini ha fatto passi da gigante con lo sviluppo dei modelli di diffusione che utilizzano sia metodi basati sull'inversione che basati sull'istruzione. Tuttavia, gli attuali approcci basati sull'inversione faticano con modifiche significative (ad esempio, aggiunta o rimozione di oggetti) a causa della natura strutturata del rumore di inversione, che ostacola cambiamenti sostanziali. Nel frattempo, i metodi basati sull'istruzione spesso vincolano gli utenti a operazioni a scatola chiusa, limitando l'interazione diretta per specificare regioni di editing e intensità. Per affrontare queste limitazioni, proponiamo BrushEdit, un nuovo paradigma di editing delle immagini guidato da istruzioni basato sull'inpainting, che sfrutta i modelli linguistici multimodali di grandi dimensioni (MLLMs) e i modelli di inpainting per abilitare un editing autonomo, user-friendly e interattivo guidato da istruzioni in forma libera. In particolare, progettiamo un sistema che consente l'editing guidato da istruzioni in forma libera integrando MLLMs e un modello di inpainting a doppio ramo in un framework cooperativo di agenti per eseguire la classificazione delle categorie di editing, l'identificazione degli oggetti principali, l'acquisizione della maschera e l'inpainting dell'area di editing. Estesi esperimenti mostrano che il nostro framework combina efficacemente MLLMs e modelli di inpainting, ottenendo prestazioni superiori su sette metriche, inclusa la conservazione della regione della maschera e la coerenza dell'effetto di editing.
L'ottimizzazione delle istruzioni è stata ampiamente utilizzata per sbloccare il pieno potenziale dei grandi modelli linguistici. In particolare, istruzioni complesse e diverse sono di notevole importanza poiché possono allineare efficacemente i modelli con vari compiti successivi. Tuttavia, gli approcci attuali alla costruzione di istruzioni su larga scala favoriscono prevalentemente modelli potenti come il GPT-4 o quelli con oltre 70 miliardi di parametri, sotto la presunzione empirica che tali modelli linguistici di grandi dimensioni (LLM) possiedano intrinsecamente capacità migliorate. In questo studio, mettiamo in discussione questa diffusa assunzione e conduciamo un'esplorazione approfondita sul potenziale dei modelli linguistici più piccoli (SLM) nel contesto dell'evoluzione delle istruzioni. Esperimenti estesi su tre scenari di evoluzione delle istruzioni rivelano che i modelli linguistici più piccoli (SLM) possono sintetizzare istruzioni più efficaci rispetto ai LLM. Un'analisi ulteriore dimostra che gli SLM possiedono uno spazio di output più ampio durante l'evoluzione delle istruzioni, generando varianti più complesse e diverse. Osserviamo inoltre che le metriche esistenti non si concentrano sull'impatto delle istruzioni. Pertanto, proponiamo l'Instruction Complex-Aware IFD (IC-IFD), che introduce la complessità dell'istruzione nel punteggio IFD originale per valutare più accuratamente l'efficacia dei dati delle istruzioni. Il nostro codice sorgente è disponibile su: https://github.com/HypherX/Evolution-Analysis {https://github.com/HypherX/Evolution-Analysis}
La colorizzazione automatica di sequenze di immagini in bianco e nero preservando l'identità dei personaggi e degli oggetti è un compito complesso con una significativa domanda di mercato, come nel caso della colorizzazione di serie animate o fumetti. Nonostante i progressi nella colorizzazione visiva utilizzando modelli generativi su larga scala come i modelli di diffusione, persistono sfide legate alla controllabilità e alla coerenza dell'identità, rendendo le attuali soluzioni inadatte per l'applicazione industriale. Per affrontare questo problema, proponiamo ColorFlow, un framework basato su diffusione a tre fasi progettato per la colorizzazione di sequenze di immagini in applicazioni industriali. A differenza dei metodi esistenti che richiedono un raffinamento per ID o l'estrazione esplicita dell'incorporamento dell'ID, proponiamo un nuovo e robusto pipeline di colorizzazione potenziato da recupero per colorizzare immagini con riferimenti cromatici pertinenti. Il nostro pipeline presenta anche un design a doppio ramo: un ramo per l'estrazione dell'identità cromatica e l'altro per la colorizzazione, sfruttando i punti di forza dei modelli di diffusione. Utilizziamo il meccanismo di auto-attenzione nei modelli di diffusione per un forte apprendimento contestuale e il matching dell'identità cromatica. Per valutare il nostro modello, introduciamo ColorFlow-Bench, un benchmark completo per la colorizzazione basata su riferimenti. I risultati mostrano che ColorFlow supera i modelli esistenti su più metriche, stabilendo un nuovo standard nella colorizzazione sequenziale di immagini e potenzialmente apportando benefici all'industria artistica. Rilasciamo i nostri codici e modelli sulla nostra pagina del progetto: https://zhuang2002.github.io/ColorFlow/.
Introduciamo la Diffusione Causale come il corrispettivo autoregressivo (AR) dei modelli di Diffusione. Si tratta di un quadro di previsione del prossimo token(o) che è amichevole sia per le modalità discrete che continue e compatibile con i modelli esistenti di previsione del prossimo token come LLaMA e GPT. Mentre lavori recenti cercano di combinare la diffusione con i modelli AR, mostriamo che l'introduzione della fattorizzazione sequenziale in un modello di diffusione può migliorare notevolmente le sue prestazioni e consentire una transizione fluida tra le modalità di generazione AR e di diffusione. Pertanto, proponiamo CausalFusion - un transformer solo decoder che fattorizza dualmente i dati attraverso token sequenziali e livelli di rumore di diffusione, ottenendo risultati all'avanguardia sul benchmark di generazione di ImageNet, godendo anche del vantaggio AR di generare un numero arbitrario di token per il ragionamento contestuale. Dimostriamo inoltre le capacità multimodali di CausalFusion attraverso un modello congiunto di generazione di immagini e didascalie, e mostriamo la capacità di CausalFusion per manipolazioni di immagini in contesti senza preavviso. Speriamo che questo lavoro possa offrire alla comunità una prospettiva nuova sull'addestramento di modelli multimodali su dati discreti e continui.
Il seguire le istruzioni è una capacità fondamentale dei modelli linguistici, che richiede al modello di riconoscere anche i requisiti più sottili nelle istruzioni e di rifletterli accuratamente nel suo output. Tale abilità è particolarmente adatta e spesso ottimizzata dall'apprendimento delle preferenze. Tuttavia, i metodi esistenti spesso campionano direttamente più risposte indipendenti dal modello quando creano coppie di preferenze. Tale pratica può introdurre variazioni di contenuto non rilevanti per determinare se l'istruzione è seguita con precisione (ad esempio, diverse espressioni sullo stesso significato), interferendo con l'obiettivo di insegnare ai modelli a riconoscere le differenze chiave che portano a un miglioramento nel seguire le istruzioni. Alla luce di ciò, presentiamo SPaR, un framework di auto-gioco che integra l'autoraffinamento della ricerca dell'albero per produrre coppie di preferenze valide e confrontabili, libere da distrazioni. Giocando contro se stesso, un modello LLM utilizza una strategia di ricerca dell'albero per perfezionare le sue risposte precedenti rispetto all'istruzione, minimizzando le variazioni non necessarie. I nostri esperimenti mostrano che un modello LLaMA3-8B, addestrato per tre iterazioni guidate da SPaR, supera GPT-4-Turbo sul benchmark IFEval senza perdere capacità generali. Inoltre, SPaR dimostra una scalabilità e trasferibilità promettenti, potenziando notevolmente modelli come GLM-4-9B e LLaMA3-70B. Identifichiamo anche come la scalabilità dell'inferezza nella ricerca dell'albero influenzerà le prestazioni del modello. Il nostro codice e i dati sono disponibili pubblicamente su https://github.com/thu-coai/SPaR.
Questo articolo affronta una domanda impegnativa: come possiamo creare in modo efficiente scene 3D di alta qualità e di ampia portata da un'unica immagine arbitraria? I metodi esistenti si trovano di fronte a diverse limitazioni, come la necessità di dati multi-view, ottimizzazione per-scena dispendiosa in termini di tempo, bassa qualità visiva negli sfondi e ricostruzioni distorte in aree non viste. Proponiamo un nuovo processo per superare tali limitazioni. In particolare, introduciamo un modello di ricostruzione su larga scala che utilizza latenti da un modello di diffusione video per prevedere Gaussian Splattings 3D per le scene in modo feed-forward. Il modello di diffusione video è progettato per creare video che seguono precisamente traiettorie di telecamere specificate, consentendo di generare latenti video compressi che contengono informazioni multi-view mantenendo al contempo la consistenza 3D. Addestriamo il modello di ricostruzione 3D per operare nello spazio latente video con una strategia di addestramento progressiva, consentendo la generazione efficiente di scene 3D di alta qualità, di ampia portata e generiche. Valutazioni approfondite su vari set di dati dimostrano che il nostro modello supera significativamente i metodi esistenti per la generazione di scene 3D da singola vista, in particolare con immagini fuori dominio. Per la prima volta, dimostriamo che un modello di ricostruzione 3D può essere costruito in modo efficace sullo spazio latente di un modello di diffusione per realizzare una generazione efficiente di scene 3D.
Stimare le proprietà fisiche per i dati visivi è un compito cruciale nell'ambito della visione artificiale, della grafica e della robotica, alla base di applicazioni come la realtà aumentata, la simulazione fisica e la presa robotica. Tuttavia, questa area rimane poco esplorata a causa delle ambiguità intrinseche nella stima delle proprietà fisiche. Per affrontare tali sfide, presentiamo GaussianProperty, un framework privo di addestramento che assegna le proprietà fisiche dei materiali a Gaussiane tridimensionali. In particolare, integriamo la capacità di segmentazione di SAM con la capacità di riconoscimento di GPT-4V(ision) per formulare un modulo di ragionamento sulle proprietà fisiche globale-locale per immagini bidimensionali. Successivamente proiettiamo le proprietà fisiche da immagini bidimensionali multi-vista a Gaussiane tridimensionali utilizzando una strategia di voto. Dimostriamo che le Gaussiane tridimensionali con annotazioni sulle proprietà fisiche consentono applicazioni nella simulazione dinamica basata sulla fisica e nella presa robotica. Per la simulazione dinamica basata sulla fisica, sfruttiamo il Metodo dei Punti Materiali (MPM) per una simulazione dinamica realistica. Per la presa del robot, sviluppiamo una strategia di previsione della forza di presa che stima un intervallo di forza sicuro necessario per la presa degli oggetti in base alle proprietà fisiche stimate. Esperimenti estesi sulla segmentazione dei materiali, sulla simulazione dinamica basata sulla fisica e sulla presa robotica convalidano l'efficacia del nostro metodo proposto, evidenziandone il ruolo cruciale nella comprensione delle proprietà fisiche dai dati visivi. Una demo online, il codice, ulteriori casi e set di dati annotati sono disponibili su https://Gaussian-Property.github.io.
Catturare informazioni geometriche e materiali dalle immagini rimane una sfida fondamentale nella visione artificiale e nella grafica. I metodi tradizionali basati sull'ottimizzazione spesso richiedono ore di calcolo per ricostruire la geometria, le proprietà dei materiali e l'illuminazione ambientale da input multi-view densi, lottando ancora con le ambiguità intrinseche tra illuminazione e materiale. D'altra parte, gli approcci basati sull'apprendimento sfruttano ricche conoscenze a priori sui materiali dai dataset esistenti degli oggetti 3D ma affrontano sfide nel mantenere la coerenza multi-view. In questo articolo, presentiamo IDArb, un modello basato sulla diffusione progettato per eseguire la decomposizione intrinseca su un numero arbitrario di immagini sotto illuminazioni variabili. Il nostro metodo raggiunge una stima accurata e coerente multi-view sulle normali della superficie e sulle proprietà dei materiali. Ciò è reso possibile attraverso un nuovo modulo di attenzione cross-view, cross-domain e una strategia di addestramento illuminazione-aumentata e adattiva alla vista. Inoltre, presentiamo ARB-Objaverse, un nuovo dataset che fornisce dati intrinseci multi-view su larga scala e rendering in condizioni di illuminazione diverse, supportando un addestramento robusto. Estesi esperimenti dimostrano che IDArb supera i metodi all'avanguardia sia qualitativamente che quantitativamente. Inoltre, il nostro approccio facilita una serie di compiti successivi, tra cui il rilievo da singola immagine, lo stereo fotometrico e la ricostruzione 3D, evidenziando le sue ampie applicazioni nella creazione di contenuti 3D realistici.
Lo scambio di volti nei video sta diventando sempre più popolare in varie applicazioni, tuttavia i metodi esistenti si concentrano principalmente su immagini statiche e faticano con lo scambio di volti nei video a causa della coerenza temporale e di scenari complessi. In questo articolo, presentiamo il primo framework basato sulla diffusione appositamente progettato per lo scambio di volti nei video. Il nostro approccio introduce un innovativo framework di addestramento ibrido immagine-video che sfrutta sia dati abbondanti di immagini statiche che sequenze video temporali, affrontando le limitazioni intrinseche dell'addestramento solo su video. Il framework incorpora un modello di diffusione appositamente progettato accoppiato con un VidFaceVAE che elabora efficacemente entrambi i tipi di dati per mantenere meglio la coerenza temporale dei video generati. Per disentangle ulteriormente le caratteristiche di identità e posa, costruiamo il Dataset di Tripletto di Disintegrazione Attributo-Identità (AIDT), in cui ogni tripletto ha tre immagini del volto, con due immagini che condividono la stessa posa e due che condividono la stessa identità. Potenziato con un'ampia augmentazione delle occlusioni, questo dataset migliora anche la robustezza contro le occlusioni. Inoltre, integriamo tecniche di ricostruzione 3D come condizionamento dell'input alla nostra rete per gestire grandi variazioni di posa. Estesi esperimenti dimostrano che il nostro framework raggiunge prestazioni superiori nella conservazione dell'identità, nella coerenza temporale e nella qualità visiva rispetto ai metodi esistenti, richiedendo meno passaggi di inferenza. Il nostro approccio mitiga efficacemente le sfide chiave nello scambio di volti nei video, inclusi sfarfallii temporali, conservazione dell'identità e robustezza alle occlusioni e alle variazioni di posa.
I Large Language Models (LLM) hanno mostrato prestazioni eccezionali in una vasta gamma di compiti di elaborazione del linguaggio naturale. Tuttavia, le loro dimensioni sostanziali presentano notevoli sfide, in particolare in termini di richieste computazionali e velocità di inferenza, a causa della loro complessità quadratica. In questo lavoro, abbiamo identificato un modello chiave: certi token speciali apparentemente privi di significato (cioè, separatori) contribuiscono in modo sproporzionato ai punteggi di attenzione rispetto ai token semanticamente significativi. Questa osservazione suggerisce che le informazioni dei segmenti tra questi token separatori possono essere efficacemente condensate nei token separatori stessi senza una significativa perdita di informazioni. Guidati da questa intuizione, introduciamo SepLLM, un framework plug-and-play che accelera l'inferenza comprimendo questi segmenti ed eliminando i token ridondanti. Inoltre, implementiamo kernel efficienti per l'accelerazione dell'addestramento. I risultati sperimentali attraverso impostazioni senza addestramento, addestramento da zero e impostazioni post-addestramento dimostrano l'efficacia di SepLLM. In particolare, utilizzando il backbone Llama-3-8B, SepLLM raggiunge una riduzione di oltre il 50% nella cache KV nel benchmark GSM8K-CoT mantenendo prestazioni comparabili. Inoltre, in impostazioni di streaming, SepLLM elabora efficacemente sequenze fino a 4 milioni di token o più mantenendo capacità di modellazione del linguaggio coerenti.
Mentre il taglio di capelli indica una personalità distintiva, i metodi esistenti di generazione di avatar falliscono nel modellare in modo pratico i capelli a causa della rappresentazione generale o intrecciata. Proponiamo StrandHead, un nuovo metodo di generazione di avatar testa 3D da testo in grado di generare capelli 3D disentangled con rappresentazione a ciocche. Senza utilizzare dati 3D per la supervisione, dimostriamo che è possibile generare ciocche di capelli realistiche da prompt attraverso la distillazione di modelli generativi a diffusione 2D. A tal fine, proponiamo una serie di priori affidabili sull'inizializzazione della forma, primitive geometriche e caratteristiche statistiche del taglio di capelli, che portano a un'ottimizzazione stabile e prestazioni allineate al testo. Estesi esperimenti dimostrano che StrandHead raggiunge lo stato dell'arte nella realtà e diversità dei capelli e della testa 3D generati. I capelli 3D generati possono anche essere facilmente implementati in Unreal Engine per simulazioni fisiche e altre applicazioni. Il codice sarà disponibile su https://xiaokunsun.github.io/StrandHead.github.io.
I modelli linguistici di grandi dimensioni (LLM) segnano una svolta chiave nell'elaborazione del linguaggio naturale (NLP), avendo avanzato la generazione di testo, la traduzione e il ragionamento specifico di dominio. I modelli closed-source come GPT-4, alimentati da set di dati proprietari e risorse computazionali estese, si distinguono per le prestazioni all'avanguardia attuali. Tuttavia, essi sono criticati per la loro natura "scatola nera" e per limitare l'accessibilità in modo tale da ostacolare la riproducibilità e lo sviluppo equo dell'IA. Al contrario, iniziative open-source come LLaMA e BLOOM danno priorità alla democratizzazione attraverso lo sviluppo guidato dalla comunità e l'efficienza computazionale. Questi modelli hanno ridotto significativamente i divari di prestazioni, in particolare nella diversità linguistica e nelle applicazioni specifiche di dominio, fornendo strumenti accessibili per ricercatori e sviluppatori globali. In modo significativo, entrambi i paradigmi si basano su innovazioni architettoniche fondamentali, come il framework Transformer di Vaswani et al. (2017). I modelli closed-source eccellono scalando efficacemente, mentre i modelli open-source si adattano alle applicazioni del mondo reale in lingue e domini sottorappresentati. Tecniche come l'Adattamento a Rango Ridotto (LoRA) e set di dati di addestramento per l'ottimizzazione delle istruzioni consentono ai modelli open-source di ottenere risultati competitivi nonostante le risorse limitate. Senza dubbio, la tensione tra approcci closed-source e open-source sottolinea un dibattito più ampio sulla trasparenza rispetto al controllo proprietario nell'IA. Le considerazioni etiche evidenziano ulteriormente questa divisione. I sistemi closed-source limitano la scrutinabilità esterna, mentre i modelli open-source promuovono la riproducibilità e la collaborazione ma mancano di quadri di documentazione di audit standardizzati per mitigare i pregiudizi. Gli approcci ibridi che sfruttano i punti di forza di entrambi i paradigmi probabilmente plasmeranno il futuro dell'innovazione dei LLM, garantendo accessibilità, prestazioni tecniche competitive e implementazioni etiche.
I metodi tradizionali di controllo robotico basati sull'apprendimento per rinforzo sono spesso specifici per compiti e non riescono a generalizzare tra ambienti diversi o oggetti e istruzioni non visti in precedenza. I Modelli Visivo-Linguistici (VLM) dimostrano una forte comprensione della scena e capacità di pianificazione, ma mancano della capacità di generare politiche attuabili adattate a specifiche incarnazioni robotiche. Per affrontare questo problema, sono emersi i modelli Visual-Linguaggio-Azione (VLA), ma si trovano ad affrontare sfide nel ragionamento spaziale a lungo termine e nella pianificazione di compiti concreti. In questo lavoro, proponiamo il Modello d'Azione Multimodale Incarnato con Catena di Pensiero Radicata e Ragionamento Spaziale Anticipato, Emma-X. Emma-X sfrutta il nostro dataset gerarchico costruito basato su BridgeV2, contenente 60.000 traiettorie di manipolazione robotica auto-annotate con ragionamento di compiti concreti e guida spaziale. Inoltre, introduciamo una strategia di segmentazione delle traiettorie basata sugli stati della pinza e sulle traiettorie di movimento, che può aiutare a mitigare l'allucinazione nella generazione del ragionamento di sottocompiti concreti. I risultati sperimentali dimostrano che Emma-X raggiunge prestazioni superiori rispetto a basi competitive, in particolare in compiti robotici del mondo reale che richiedono ragionamento spaziale.
Per rendere il modello di base più efficiente ed efficace, la nostra idea è quella di combinare la trasformazione della sequenza e la trasformazione dello stato. Prima di tutto, dimostriamo la disponibilità dell'incorporamento della posizione rotativa nell'algoritmo di dualità dello spazio di stato, che riduce la perplessità dell'autoattenzione causale ibrida quadratica e della dualità dello spazio di stato di oltre il 4%, per garantire che la combinazione della trasformazione della sequenza unifichi la codifica della posizione. In secondo luogo, proponiamo l'attenzione maschera dinamica, che mantiene una precisione del 100% nel compito più impegnativo di richiamo associativo multi-query, migliorando di oltre il 150% rispetto all'autoattenzione causale quadratica e alla dualità dello spazio di stato, per garantire che la trasformazione della sequenza combinata filtri selettivamente le informazioni rilevanti. Terzo, progettiamo un misto di esperti tra domini, che rende la velocità computazionale del recupero degli esperti con più di 1024 esperti 8-10 volte più veloce rispetto al misto di esperti, per garantire che la trasformazione dello stato combinata recuperi rapidamente il misto. Infine, riassumiamo questi algoritmi matriciali che possono costituire il modello di base: Matrici Meravigliose, che possono essere un concorrente alle architetture di modelli popolari.
La crescente domanda di applicazioni immersive di AR/VR e di intelligenza spaziale ha aumentato la necessità di generare video di alta qualità a livello di scena e panoramici a 360°. Tuttavia, la maggior parte dei modelli di diffusione video sono vincolati da risoluzioni e proporzioni limitate, che ne limitano l'applicabilità alla sintesi di contenuti dinamici a livello di scena. In questo lavoro, proponiamo il DynamicScaler, che affronta tali sfide consentendo la sintesi di scene dinamiche scalabili spazialmente e panoramiche che mantengono coerenza tra scene panoramiche di dimensioni arbitrarie. In particolare, introduciamo un Denoiser a Spostamento dell'Offset, che facilita il denoising efficiente, sincrono e coerente di scene dinamiche panoramiche tramite un modello di diffusione con risoluzione fissa attraverso una finestra rotante senza soluzione di continuità, che garantisce transizioni di confine senza soluzione di continuità e coerenza in tutto lo spazio panoramico, adattandosi a risoluzioni e proporzioni variabili. Inoltre, utilizziamo un meccanismo di Guida al Movimento Globale per garantire sia la fedeltà dei dettagli locali che la continuità del movimento globale. Estesi esperimenti dimostrano che il nostro metodo raggiunge una qualità superiore dei contenuti e del movimento nella generazione di video a livello di scena panoramica, offrendo una soluzione efficiente, scalabile e priva di addestramento per la creazione di scene dinamiche immersive con un consumo costante di VRAM indipendentemente dalla risoluzione del video in uscita. La nostra pagina del progetto è disponibile su https://dynamic-scaler.pages.dev/.
La sintesi di nuove visualizzazioni da video monoculari in condizioni naturali è una sfida a causa della dinamicità della scena e della mancanza di indizi multi-visivi. Per affrontare questo problema, proponiamo SplineGS, un framework dinamico 3D Gaussian Splatting (3DGS) senza COLMAP per la ricostruzione di alta qualità e il rendering veloce da video monoculari. Al suo nucleo si trova un nuovo metodo Spline Adattivo al Movimento (MAS), che rappresenta traiettorie gaussiane 3D dinamiche continue utilizzando spline cubiche di Hermite con un numero ridotto di punti di controllo. Per MAS, introduciamo un metodo di Potatura dei Punti di Controllo Adattivo al Movimento (MACP) per modellare la deformazione di ciascuna gaussiana 3D dinamica attraverso movimenti variabili, potando progressivamente i punti di controllo mantenendo l'integrità del modello dinamico. Inoltre, presentiamo una strategia di ottimizzazione congiunta per la stima dei parametri della telecamera e degli attributi gaussiani 3D, sfruttando la coerenza fotometrica e geometrica. Ciò elimina la necessità di un preprocessamento della Struttura dal Movimento e potenzia la robustezza di SplineGS in condizioni reali. Gli esperimenti mostrano che SplineGS supera significativamente i metodi all'avanguardia nella qualità di sintesi di nuove visualizzazioni per scene dinamiche da video monoculari, raggiungendo una velocità di rendering migliaia di volte più veloce.
Il riposizionamento dei modelli di diffusione pre-addestrati è stato dimostrato essere efficace per NVS. Tuttavia, questi metodi sono per lo più limitati a un singolo oggetto; l'applicazione diretta di tali metodi a scenari compositi multi-oggetto produce risultati inferiori, in particolare un posizionamento errato degli oggetti e una forma e un aspetto inconsistente sotto nuove visualizzazioni. Come migliorare ed valutare sistematicamente la coerenza tra visualizzazioni di tali modelli rimane poco esplorato. Per affrontare questo problema, proponiamo MOVIS per potenziare la consapevolezza strutturale del modello di diffusione condizionato alla visualizzazione per NVS multi-oggetto in termini di input del modello, compiti ausiliari e strategia di addestramento. Innanzitutto, inseriamo caratteristiche consapevoli della struttura, inclusa la profondità e la maschera dell'oggetto, nel denoising U-Net per potenziare la comprensione del modello delle istanze degli oggetti e delle loro relazioni spaziali. In secondo luogo, introduciamo un compito ausiliario che richiede al modello di prevedere simultaneamente le maschere degli oggetti in nuove visualizzazioni, migliorando ulteriormente la capacità del modello di differenziare e posizionare gli oggetti. Infine, conduciamo un'analisi approfondita del processo di campionamento della diffusione e progettiamo attentamente un programmatore di campionamento guidato dalla struttura durante l'addestramento, che bilancia l'apprendimento del posizionamento globale degli oggetti e il recupero dei dettagli fini. Per valutare sistematicamente la plausibilità delle immagini sintetizzate, proponiamo di valutare la coerenza tra visualizzazioni e il posizionamento degli oggetti in nuove visualizzazioni insieme alle metriche esistenti di NVS a livello di immagine. Estesi esperimenti su insiemi di dati sintetici e realistici impegnativi dimostrano che il nostro metodo mostra forti capacità di generalizzazione e produce una sintesi coerente di nuove visualizzazioni, evidenziando il suo potenziale per guidare futuri compiti di NVS multi-oggetto consapevoli del 3D.
Gli algoritmi di apprendimento per rinforzo (RL) mirano a bilanciare lo sfruttamento della strategia migliore attuale con l'esplorazione di nuove opzioni che potrebbero portare a ricompense più elevate. La maggior parte degli algoritmi di RL comuni utilizza esplorazioni non direzionate, ovvero seleziona sequenze casuali di azioni. L'esplorazione può anche essere diretta utilizzando ricompense intrinseche, come la curiosità o l'incertezza epistemica del modello. Tuttavia, bilanciare efficacemente le ricompense del compito e quelle intrinseche è impegnativo e spesso dipende dal compito. In questo lavoro, presentiamo un framework, MaxInfoRL, per bilanciare l'esplorazione intrinseca ed estrinseca. MaxInfoRL indirizza l'esplorazione verso transizioni informative, massimizzando ricompense intrinseche come il guadagno di informazione sul compito sottostante. Quando combinato con l'esplorazione di Boltzmann, questo approccio bilancia naturalmente la massimizzazione della funzione di valore con quella dell'entropia su stati, ricompense e azioni. Dimostriamo che il nostro approccio raggiunge un rimpianto sub-lineare nell'ambiente semplificato dei banditi multi-braccio. Applichiamo quindi questa formulazione generale a una varietà di metodi di RL senza modello off-policy per spazi di stato-azione continui, ottenendo algoritmi innovativi che raggiungono prestazioni superiori su problemi di esplorazione difficili e scenari complessi come compiti di controllo visivo.
Sfruttare la promessa dei recenti progressi nell'apprendimento per imitazione per la manipolazione mobile richiederà la raccolta di un gran numero di dimostrazioni guidate dall'uomo. Questo articolo propone un design open-source per un manipolatore mobile economico, robusto e flessibile che può supportare bracci arbitrari, consentendo una vasta gamma di compiti di manipolazione mobile domestica nel mondo reale. In modo cruciale, il nostro design utilizza ruote motrici per consentire alla base mobile di essere completamente olonomica, in grado di controllare tutti i gradi di libertà planari in modo indipendente e simultaneo. Questa caratteristica rende la base più manovrabile e semplifica molti compiti di manipolazione mobile, eliminando i vincoli cinematici che creano movimenti complessi e che richiedono molto tempo nelle basi non olonomiche. Dotiamo il nostro robot di un'interfaccia di teleoperazione intuitiva tramite telefono mobile per consentire una facile acquisizione di dati per l'apprendimento per imitazione. Nei nostri esperimenti, utilizziamo questa interfaccia per raccogliere dati e dimostrare che le politiche apprese risultanti possono eseguire con successo una varietà di comuni compiti di manipolazione mobile domestica.
Nonostante la loro competenza in compiti generali, i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) faticano con la Risoluzione Automatica dei Problemi Geometrici (GPS), che richiede la comprensione dei diagrammi, l'interpretazione dei simboli e l'esecuzione di ragionamenti complessi. Questa limitazione deriva dal loro pre-addestramento su immagini e testi naturali, insieme alla mancanza di verifica automatica nel processo di risoluzione dei problemi. Inoltre, gli attuali specialisti geometrici sono limitati dai loro design specifici per compiti, rendendoli meno efficaci per problemi geometrici più ampi. A questo scopo, presentiamo GeoX, un grande modello multimodale focalizzato sulla comprensione geometrica e sui compiti di ragionamento. Date le significative differenze tra diagrammi e simboli geometrici e immagini e testi naturali, introduciamo un pre-addestramento unimodale per sviluppare un codificatore di diagrammi e un decodificatore di simboli, migliorando la comprensione delle immagini e dei corpora geometrici. Inoltre, introduciamo l'allineamento geometria-linguaggio, un efficace paradigma di pre-addestramento che colma il divario di modalità tra esperti geometrici unimodali. Proponiamo un Generatore-E-Campionatore Transformer (GS-Former) per generare query discriminanti ed eliminare rappresentazioni non informative da segnali geometrici distribuiti in modo disomogeneo. Infine, GeoX beneficia del sintonizzazione dell'istruzione visiva, permettendogli di prendere immagini e domande geometriche in input e generare soluzioni verificabili. Gli esperimenti mostrano che GeoX supera sia i generalisti che gli specialisti geometrici su benchmark riconosciuti pubblicamente, come GeoQA, UniGeo, Geometry3K e PGPS9k.
Proponiamo WHISPER-GPT: un modello linguistico generativo (LLM) di grandi dimensioni per il linguaggio parlato e la musica che ci consente di lavorare contemporaneamente con rappresentazioni audio continue e token discreti come parte di un'unica architettura. C'è stato un enorme aumento nei modelli generativi di audio, linguaggio parlato e musica che utilizzano token audio discreti derivati da algoritmi di compressione neurale, ad es. ENCODEC. Tuttavia, uno dei principali svantaggi di questo approccio è gestire la lunghezza del contesto. Esso aumenta notevolmente per un'architettura generativa ad alta fedeltà se si deve considerare tutti i contenuti audio a varie frequenze per la previsione del token successivo. Unendo la rappresentazione audio continua come lo spettrogramma e i token acustici discreti, manteniamo il meglio di entrambi i mondi: avere tutte le informazioni necessarie dall'audio in un istante temporale specifico in un singolo token, consentendo comunque al LLM di prevedere il token futuro per consentire il campionamento e altri vantaggi forniti dallo spazio discreto. Mostriamo come la nostra architettura migliori la perplessità e i punteggi di log-negativi per la previsione del token successivo rispetto a un LLM basato su token per il linguaggio parlato e la musica.
Il Vertical Federated Learning (VFL) mira a consentire l'addestramento collaborativo di modelli di deep learning garantendo la protezione della privacy. Tuttavia, la procedura VFL presenta ancora componenti vulnerabili agli attacchi da parte di soggetti malintenzionati. Nel nostro lavoro, consideriamo gli attacchi di ricostruzione delle caratteristiche, un rischio comune che mira a compromettere i dati in ingresso. Sosteniamo teoricamente che gli attacchi di ricostruzione delle caratteristiche non possono avere successo senza la conoscenza della distribuzione precedente dei dati. Di conseguenza, dimostriamo che anche semplici trasformazioni dell'architettura del modello possono influenzare significativamente la protezione dei dati in ingresso durante il VFL. Confermando questi risultati con prove sperimentali, mostriamo che i modelli basati su MLP sono resistenti agli attacchi di ricostruzione delle caratteristiche all'avanguardia.
I recenti progressi nei modelli di diffusione rivoluzionano la generazione di immagini ma comportano rischi di abuso, come replicare opere d'arte o generare deepfakes. I metodi esistenti di protezione delle immagini, sebbene efficaci, faticano a bilanciare l'efficacia della protezione, l'invisibilità e la latenza, limitando così l'uso pratico. Introduciamo il pre-training della perturbazione per ridurre la latenza e proponiamo un approccio di miscelazione delle perturbazioni che si adatta dinamicamente alle immagini in ingresso per minimizzare la degradazione delle prestazioni. La nostra nuova strategia di addestramento calcola la perdita di protezione attraverso più spazi di caratteristiche VAE, mentre la protezione mirata adattiva all'infereza migliora la robustezza e l'invisibilità. Gli esperimenti mostrano prestazioni di protezione comparabili con un'incrementata invisibilità e un drastico riduzione del tempo di inferenza. Il codice e la demo sono disponibili su https://webtoon.github.io/impasto
L'avanzamento rapido delle tecnologie di elaborazione del linguaggio naturale (NLP), come i modelli linguistici di grandi dimensioni (LLM) addestrati per specifiche istruzioni, spinge allo sviluppo di protocolli di valutazione moderni con feedback umani e automatici. Presentiamo Evalica, un toolkit open-source che facilita la creazione di graduatorie di modelli affidabili e riproducibili. Questo articolo ne illustra il design, valuta le sue prestazioni e ne dimostra l'usabilità attraverso la sua interfaccia Web, interfaccia a riga di comando e API Python.
I recenti progressi nei modelli fondamentali dei robot hanno permesso lo sviluppo di politiche generaliste in grado di adattarsi a compiti diversi. Sebbene questi modelli mostrino una flessibilità impressionante, le loro prestazioni dipendono fortemente dalla qualità dei dati di addestramento. In questo lavoro, proponiamo i Generalisti Distillati con Apprendimento per Rinforzo (RLDG), un metodo che sfrutta l'apprendimento per rinforzo per generare dati di addestramento di alta qualità per il perfezionamento delle politiche generaliste. Attraverso estesi esperimenti del mondo reale su compiti di manipolazione precisa come l'inserimento di connettori e l'assemblaggio, dimostriamo che le politiche generaliste addestrate con dati generati da RL superano costantemente quelle addestrate con dimostrazioni umane, raggiungendo tassi di successo fino al 40% più alti e generalizzando meglio a nuovi compiti. Forniamo anche un'analisi dettagliata che rivela che questo aumento delle prestazioni deriva sia dalle distribuzioni di azioni ottimizzate che dalla copertura degli stati migliorata. I nostri risultati suggeriscono che combinare l'RL specifico del compito con la distillazione della politica generalista offre un approccio promettente per lo sviluppo di sistemi di manipolazione robotica più capaci ed efficienti che mantengono la flessibilità dei modelli fondamentali pur raggiungendo le prestazioni dei controller specializzati. I video e il codice sono disponibili sul nostro sito web del progetto https://generalist-distillation.github.io