Articoli di ricerca IA selezionati quotidianamente con traduzioni
I Large Language Models (LLM) si distinguono per il loro massiccio conteggio dei parametri, che tipicamente comporta una significativa ridondanza. Questo lavoro introduce MaskLLM, un metodo di potatura apprendibile che stabilisce una Sparità Semi-strutturata (o "N:M") nei LLM, mirata a ridurre il carico computazionale durante l'inferezza. Invece di sviluppare un nuovo criterio di importanza, MaskLLM modella esplicitamente i pattern N:M come una distribuzione apprendibile attraverso il campionamento Gumbel Softmax. Questo approccio facilita l'addestramento end-to-end su dataset su larga scala e offre due vantaggi notevoli: 1) Maschere di alta qualità - il nostro metodo scala efficacemente su dataset di grandi dimensioni e apprende maschere accurate; 2) Trasferibilità - la modellazione probabilistica della distribuzione delle maschere consente il trasferimento dell'apprendimento della sparità tra domini o compiti. Abbiamo valutato MaskLLM utilizzando una sparità 2:4 su vari LLM, inclusi LLaMA-2, Nemotron-4 e GPT-3, con dimensioni che vanno da 843M a 15B parametri, e i nostri risultati empirici mostrano miglioramenti sostanziali rispetto ai metodi all'avanguardia. Ad esempio, approcci principali raggiungono una perplessità (PPL) di 10 o superiore su Wikitext rispetto al 5.12 PPL del modello denso, ma MaskLLM raggiunge un significativamente inferiore 6.72 PPL semplicemente apprendendo le maschere con pesi congelati. Inoltre, la natura apprendibile di MaskLLM consente maschere personalizzate per un'applicazione senza perdite della sparità 2:4 a compiti o domini successivi. Il codice è disponibile su https://github.com/NVlabs/MaskLLM.
GPT-4o, un modello omni-modale che consente conversazioni vocali con diverse emozioni e toni, segna un traguardo per i modelli fondamentali omni-modali. Tuttavia, abilitare i Grandi Modelli Linguistici a percepire e generare immagini, testi e discorsi end-to-end con dati pubblicamente disponibili rimane una sfida nella comunità open-source. I modelli esistenti di visione-linguaggio si basano su strumenti esterni per l'elaborazione del discorso, mentre i modelli di linguaggio-discorso soffrono ancora di capacità limitate o addirittura senza capacità di comprensione della visione. Per affrontare questa lacuna, proponiamo EMOVA (Assistente Vocale Emotivamente Onnipresente), per abilitare i Grandi Modelli Linguistici con capacità di discorso end-to-end mantenendo le prestazioni di visione-linguaggio leader. Con un tokenizzatore di discorso semanticamente-acustico disaccoppiato, notiamo sorprendentemente che l'allineamento omni-modale può ulteriormente migliorare le capacità di visione-linguaggio e di discorso rispetto ai corrispondenti controparti allineate bi-modali. Inoltre, viene proposto un modulo di stile leggero per controlli flessibili dello stile del discorso (ad esempio, emozioni e toni). Per la prima volta, EMOVA raggiunge prestazioni all'avanguardia sia nei benchmark di visione-linguaggio che di discorso, e nel contempo supporta un dialogo parlato omni-modale con emozioni vivide.
Gli avanzamenti recenti nei Large Multimodal Models (LMMs) hanno notevolmente migliorato la loro competenza nei compiti di comprensione visiva 2D, consentendo loro di elaborare ed interpretare efficacemente immagini e video. Tuttavia, lo sviluppo di LMMs con consapevolezza 3D per la comprensione delle scene 3D è stato ostacolato dalla mancanza di dataset visione-linguaggio su larga scala in 3D e potenti codificatori 3D. In questo articolo, presentiamo un framework semplice ma efficace chiamato LLaVA-3D. Sfruttando i forti priors di comprensione 2D di LLaVA, il nostro LLaVA-3D adatta efficientemente LLaVA per la comprensione delle scene 3D senza compromettere le capacità di comprensione 2D. Per raggiungere questo obiettivo, utilizziamo una rappresentazione semplice ma efficace, il Patch 3D, che collega le caratteristiche del patch CLIP 2D con le loro posizioni corrispondenti nello spazio 3D. Integrando i Patch 3D nei LMMs 2D e utilizzando l'ottimizzazione congiunta dell'istruzione visione-linguaggio 2D e 3D, stabiliamo un'architettura unificata sia per la comprensione delle immagini 2D che per la comprensione delle scene 3D. I risultati sperimentali mostrano che LLaVA-3D converge 3,5 volte più velocemente rispetto ai LMMs 3D esistenti quando addestrato su dataset visione-linguaggio 3D. Inoltre, LLaVA-3D non solo raggiunge prestazioni all'avanguardia in vari compiti 3D, ma mantiene anche capacità di comprensione delle immagini 2D e conversazioni visione-linguaggio comparabili con LLaVA.
Sfruttare i pre-priori visivi dei modelli di diffusione testo-immagine pre-addestrati offre una soluzione promettente per migliorare la generalizzazione a zero-shot nei compiti di previsione densa. Tuttavia, i metodi esistenti spesso utilizzano in modo acritico la formulazione originale della diffusione, che potrebbe non essere ottimale a causa delle differenze fondamentali tra la previsione densa e la generazione di immagini. In questo articolo, forniamo un'analisi sistematica della formulazione della diffusione per la previsione densa, concentrandoci sia sulla qualità che sull'efficienza. E scopriamo che il tipo di parametrizzazione originale per la generazione di immagini, che impara a prevedere il rumore, è dannoso per la previsione densa; il processo di diffusione a più passaggi di aggiunta/rimozione del rumore è anche superfluo e difficile da ottimizzare. Sulla base di queste osservazioni, presentiamo Lotus, un modello di base visiva basato sulla diffusione con un protocollo di adattamento semplice ma efficace per la previsione densa. In particolare, Lotus è addestrato a prevedere direttamente le annotazioni anziché il rumore, evitando così una varianza dannosa. Riformuliamo anche il processo di diffusione in una procedura a un solo passaggio, semplificando l'ottimizzazione e aumentando significativamente la velocità di inferenza. Inoltre, introduciamo una nuova strategia di taratura chiamata preservatore di dettagli, che consente previsioni più accurate e dettagliate. Senza aumentare i dati di addestramento o la capacità del modello, Lotus raggiunge prestazioni SoTA nella stima della profondità e delle normali a zero-shot su vari set di dati. Migliora in modo significativo anche l'efficienza, essendo centinaia di volte più veloce rispetto alla maggior parte dei metodi basati sulla diffusione esistenti.
L'ottimizzazione dell'istruzione comunemente significa affinare un modello linguistico su coppie istruzione-risposta. Scopriamo due forme di adattamento (ottimizzazione) che sono carenti rispetto all'ottimizzazione dell'istruzione, ma che comunque producono il seguire l'istruzione; chiamiamo questo tipo di ottimizzazione implicita dell'istruzione. Innanzitutto, scopriamo che le coppie istruzione-risposta non sono necessarie: addestrare esclusivamente sulle risposte, senza istruzioni corrispondenti, porta comunque a seguire l'istruzione. Ciò suggerisce che i modelli preaddestrati hanno un mapping istruzione-risposta che viene rivelato insegnando al modello la distribuzione desiderata delle risposte. Tuttavia, scopriamo che non è necessario insegnare la distribuzione desiderata delle risposte: l'addestramento istruzione-risposta su dati di dominio ristretto come la poesia porta comunque a un comportamento generale di seguire l'istruzione come la generazione di ricette. In particolare, quando le istruzioni sono molto diverse da quelle nel dominio di affinamento ristretto, le risposte dei modelli non rispettano lo stile del dominio di affinamento. Per iniziare a spiegare l'ottimizzazione implicita dell'istruzione, ipotizziamo che cambiamenti molto semplici nella distribuzione di un modello linguistico portino al seguire l'istruzione. Supportiamo ciò scrivendo a mano un modello linguistico basato su regole che porta al seguire l'istruzione in un prodotto di esperti con un modello preaddestrato. Le regole sono aumentare lentamente la probabilità di terminare la sequenza, penalizzare la ripetizione e uniformemente modificare le probabilità di 15 parole. In sintesi, adattamenti effettuati senza essere progettati per portare al seguire l'istruzione possono farlo in modo implicito.
I Large Language Models (LLM) hanno dimostrato capacità notevoli nel gestire input con contesti lunghi, ma ciò comporta un aumento delle risorse computazionali e della latenza. La nostra ricerca introduce un approccio innovativo per superare il collo di bottiglia del contesto lungo al fine di accelerare l'elaborazione inferenziale degli LLM e ridurre il consumo di memoria GPU. La nostra ricerca dimostra che gli LLM possono identificare i token rilevanti nei primi strati prima di generare risposte a una query. Sfruttando questa intuizione, proponiamo un algoritmo che utilizza i primi strati di un LLM come filtri per selezionare e comprimere i token di input, riducendo significativamente la lunghezza del contesto per l'elaborazione successiva. Il nostro metodo, GemFilter, mostra miglioramenti sostanziali sia in velocità che in efficienza della memoria rispetto alle tecniche esistenti, come l'attenzione standard e SnapKV/H2O. In particolare, ottiene un aumento di velocità del 2,4 volte e una riduzione del 30\% nell'uso della memoria GPU rispetto ai metodi SOTA. La valutazione sul compito Needle in a Haystack mostra che GemFilter supera significativamente l'attenzione standard, SnapKV e dimostra prestazioni comparabili nella sfida LongBench. GemFilter è semplice, non richiede addestramento ed è ampiamente applicabile su diversi LLM. In modo cruciale, fornisce interpretabilità consentendo agli esseri umani di ispezionare la sequenza di input selezionata. Questi risultati non solo offrono benefici pratici per l'implementazione degli LLM, ma migliorano anche la nostra comprensione dei meccanismi interni degli LLM, aprendo la strada a ulteriori ottimizzazioni nel design e nell'elaborazione inferenziale degli LLM. Il nostro codice è disponibile su https://github.com/SalesforceAIResearch/GemFilter.
I modelli di diffusione latente (LDM) hanno compiuto significativi progressi nel campo della generazione di immagini negli ultimi anni. Uno dei principali vantaggi dei LDM è la loro capacità di operare in uno spazio latente compresso, consentendo una formazione e un dispiegamento più efficienti. Tuttavia, nonostante questi vantaggi, rimangono ancora delle sfide con i LDM. Ad esempio, è stato osservato che i LDM spesso generano dettagli ad alta frequenza e composizioni complesse in modo imperfetto. Ipotizziamo che una ragione di questi difetti sia dovuta al fatto che tutto il pre- e post-training dei LDM avvengono nello spazio latente, che è tipicamente 8 volte 8 a risoluzione spaziale inferiore rispetto alle immagini in output. Per affrontare questo problema, proponiamo di aggiungere una supervisione nello spazio dei pixel nel processo di post-training per preservare meglio i dettagli ad alta frequenza. Sperimentalmente, mostriamo che l'aggiunta di un obiettivo nello spazio dei pixel migliora significativamente sia la qualità del fine-tuning supervisionato che il post-training basato sulle preferenze di gran lunga su modelli di diffusione DiT e U-Net all'avanguardia, sia in termini di qualità visiva che di metriche di difetti visivi, mantenendo allo stesso tempo la stessa qualità di allineamento del testo.
Nell'era dei grandi modelli linguistici (LLM), una vasta quantità di registrazioni di conversazioni verrà accumulata grazie alla rapida tendenza di sviluppo delle interfacce linguistiche. L'Analisi delle Conversazioni (CA) si impegna a scoprire e analizzare informazioni critiche dai dati delle conversazioni, ottimizzando i processi manuali e supportando le intuizioni aziendali e il processo decisionale. La necessità per la CA di estrarre intuizioni utili e favorire l'empowerment sta diventando sempre più evidente e attirando un'attenzione diffusa. Tuttavia, la mancanza di un chiaro ambito per la CA porta a una dispersione di varie tecniche, rendendo difficile formare una sinergia tecnica sistematica per potenziare le applicazioni aziendali. In questo articolo, eseguiamo una revisione approfondita e sistematizziamo il compito della CA per riassumere i lavori correlati esistenti. In particolare, definiamo formalmente il compito della CA per affrontare il panorama frammentato e caotico in questo settore, e deriviamo quattro fasi chiave della CA dalla ricostruzione della scena della conversazione, all'analisi approfondita dell'attribuzione, e poi all'esecuzione di un addestramento mirato, generando infine conversazioni basate sull'addestramento mirato per raggiungere obiettivi specifici. Inoltre, mostriamo i benchmark rilevanti, discutiamo le sfide potenziali e indichiamo le direzioni future sia nell'industria che nell'ambito accademico. Alla luce degli attuali progressi, è evidente che la maggior parte degli sforzi è ancora concentrata sull'analisi degli elementi superficiali delle conversazioni, il che presenta un divario considerevole tra la ricerca e l'azienda, e con l'ausilio dei LLM, i lavori recenti stanno mostrando una tendenza verso la ricerca sulla causalità e sui compiti strategici che sono sofisticati e di alto livello. Le esperienze e le intuizioni analizzate avranno inevitabilmente un valore di applicazione più ampio nelle operazioni aziendali che mirano alle registrazioni delle conversazioni.
Negli ultimi anni, i metodi di recupero multi-vettore, guidati da ColBERT, sono diventati un approccio sempre più popolare per l'IR neurale. Memorizzando le rappresentazioni a livello di token anziché a livello di documento, questi metodi hanno dimostrato prestazioni di recupero molto elevate, specialmente in contesti fuori dominio. Tuttavia, i requisiti di archiviazione e di memoria necessari per memorizzare il grande numero di vettori associati rimangono un importante svantaggio, ostacolando l'adozione pratica. In questo articolo, introduciamo un semplice approccio di raggruppamento basato su token per ridurre in modo aggressivo il numero di vettori che devono essere memorizzati. Questo metodo può ridurre l'occupazione di spazio e memoria degli indici ColBERT del 50% con praticamente nessuna degradazione delle prestazioni di recupero. Questo metodo consente anche ulteriori riduzioni, riducendo il conteggio dei vettori del 66% al 75%, con una degradazione che rimane al di sotto del 5% sulla stragrande maggioranza dei dataset. È importante sottolineare che questo approccio non richiede alcuna modifica architetturale né elaborazione in fase di interrogazione, e può essere utilizzato come semplice integrazione durante l'indicizzazione con qualsiasi modello simile a ColBERT.
Presentiamo Disco4D, un nuovo framework di Splatting Gaussiano per la generazione e l'animazione umana 4D da un'unica immagine. Diversamente dai metodi esistenti, Disco4D distingue in modo distintivo i vestiti (con modelli Gaussiani) dal corpo umano (con il modello SMPL-X), migliorando significativamente i dettagli e la flessibilità della generazione. Presenta le seguenti innovazioni tecniche. 1) Disco4D impara a adattare efficientemente i Gaussiani dei vestiti sui Gaussiani SMPL-X. 2) Adotta modelli di diffusione per migliorare il processo di generazione 3D, ad esempio, modellando parti occulse non visibili nell'immagine in ingresso. 3) Apprende una codifica dell'identità per ciascun Gaussiano dei vestiti per facilitare la separazione e l'estrazione degli elementi dell'abbigliamento. Inoltre, Disco4D supporta naturalmente l'animazione umana 4D con dinamiche vivide. Estesi esperimenti dimostrano la superiorità di Disco4D nelle attività di generazione e animazione umana 4D. Le nostre visualizzazioni sono disponibili su https://disco-4d.github.io/.
Gli esseri umani possono imparare a manipolare nuovi oggetti semplicemente osservando gli altri; fornire ai robot la capacità di apprendere da tali dimostrazioni consentirebbe un'interfaccia naturale per specificare nuovi comportamenti. Questo lavoro sviluppa Robot See Robot Do (RSRD), un metodo per imitare la manipolazione articolata degli oggetti da una singola dimostrazione umana RGB monoculare statica multi-view. Proponiamo innanzitutto i Modelli Differenziabili delle Parti 4D (4D-DPM), un metodo per recuperare il movimento delle parti in 3D da un video monoculare con rendering differenziabile. Questo approccio di analisi per sintesi utilizza campi di caratteristiche centrati sulle parti in un'ottimizzazione iterativa che consente l'uso di regolarizzatori geometrici per recuperare i movimenti in 3D da un solo video. Dato questo ricostruzione 4D, il robot replica le traiettorie degli oggetti pianificando i movimenti dei bracci bimanuali che inducono il movimento delle parti dell'oggetto dimostrato. Rappresentando le dimostrazioni come traiettorie centrate sulle parti, RSRD si concentra sulla replicazione del comportamento desiderato della dimostrazione considerando i limiti morfologici del robot, piuttosto che cercare di riprodurre il movimento della mano. Valutiamo l'accuratezza del tracciamento in 3D di 4D-DPM sulle traiettorie delle parti 3D annotate come verità di riferimento e le prestazioni di esecuzione fisica di RSRD su 9 oggetti in 10 prove ciascuno su un robot YuMi bimanuale. Ogni fase di RSRD raggiunge un tasso di successo medio dell'87%, per un tasso di successo totale end-to-end del 60% su 90 prove. È importante notare che ciò è realizzato utilizzando solo campi di caratteristiche distillati da grandi modelli di visione preaddestrati - senza alcun addestramento specifico per compiti, raffinamento, raccolta di dati o annotazioni. Pagina del progetto: https://robot-see-robot-do.github.io
L'estrazione di significativi insight da dataset ampi e complessi pone notevoli sfide, specialmente nel garantire l'accuratezza e la rilevanza delle informazioni recuperate. I metodi tradizionali di recupero dati come la ricerca sequenziale e il recupero basato su indice spesso falliscono nel gestire strutture dati intricate e interconnesse, portando a output incompleti o fuorvianti. Per superare tali limitazioni, presentiamo Structured-GraphRAG, un framework versatile progettato per potenziare il recupero informazioni attraverso dataset strutturati in interrogazioni di linguaggio naturale. Structured-GraphRAG utilizza più grafi di conoscenza, che rappresentano i dati in un formato strutturato e catturano relazioni complesse tra entità, consentendo un recupero di informazioni più sfumato e completo. Questo approccio basato su grafi riduce il rischio di errori negli output dei modelli linguistici ancorando le risposte in un formato strutturato, migliorando così l'affidabilità dei risultati. Dimostriamo l'efficacia di Structured-GraphRAG confrontando le sue prestazioni con quelle di un metodo recentemente pubblicato che utilizza la generazione potenziata da recupero tradizionale. I nostri risultati mostrano che Structured-GraphRAG migliora significativamente l'efficienza di elaborazione delle query e riduce i tempi di risposta. Sebbene il nostro studio di caso si concentri sui dati di calcio, il design del framework è ampiamente applicabile, offrendo uno strumento potente per l'analisi dei dati e il potenziamento delle applicazioni di modelli linguistici attraverso vari domini strutturati.