Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli linguistici sono diventati il pilastro dell'elaborazione del linguaggio naturale, ma il loro utilizzo comporta costi significativi in termini di risorse computazionali e di memoria. La sparsificazione offre una soluzione per alleviare questi vincoli di risorse, e lavori recenti hanno dimostrato che i modelli addestrati possono essere sparsificati post-hoc. Le tecniche di sparsificazione esistenti affrontano sfide in quanto richiedono strutture dati aggiuntive e offrono un miglioramento di velocità limitato con l'hardware attuale. In questo articolo presentiamo SliceGPT, un nuovo schema di sparsificazione post-addestramento che sostituisce ogni matrice dei pesi con una matrice più piccola (densa), riducendo la dimensione di embedding della rete. Attraverso un'ampia sperimentazione, dimostriamo che SliceGPT può rimuovere fino al 25% dei parametri del modello (inclusi gli embedding) per i modelli LLAMA2-70B, OPT 66B e Phi-2, mantenendo rispettivamente il 99%, 99% e 90% delle prestazioni zero-shot del modello denso. I nostri modelli "affettati" funzionano su meno GPU e sono più veloci senza alcuna ottimizzazione aggiuntiva del codice: su GPU consumer da 24GB riduciamo il calcolo totale per l'inferenza su LLAMA2-70B al 64% rispetto al modello denso; su GPU A100 da 40GB lo riduciamo al 66%. Offriamo una nuova intuizione, l'invarianza computazionale nelle reti di trasformatori, che abilita SliceGPT e speriamo che possa ispirare e abilitare future strade per ridurre le richieste di memoria e calcolo per i modelli pre-addestrati. Il codice è disponibile all'indirizzo: https://github.com/microsoft/TransformerCompression
Il meta-apprendimento è emerso come un approccio potente per addestrare reti neurali a imparare rapidamente nuovi compiti partendo da dati limitati. Un'esposizione ampia a diversi compiti porta a rappresentazioni versatili che abilitano la risoluzione generale di problemi. Ma quali sono i limiti del meta-apprendimento? In questo lavoro, esploriamo il potenziale di ammortizzare il più potente predittore universale, ovvero l'induzione di Solomonoff (SI), nelle reti neurali sfruttando il meta-apprendimento ai suoi limiti. Utilizziamo Macchine di Turing Universali (UTM) per generare dati di addestramento che espongono le reti a un'ampia gamma di pattern. Forniamo un'analisi teorica dei processi di generazione dei dati UTM e dei protocolli di meta-addestramento. Condividiamo esperimenti completi con architetture neurali (ad esempio LSTMs, Transformers) e generatori di dati algoritmici di varia complessità e universalità. I nostri risultati suggeriscono che i dati UTM sono una risorsa preziosa per il meta-apprendimento e che possono essere utilizzati per addestrare reti neurali capaci di apprendere strategie di predizione universale.
La decodifica auto-regressiva rende l'inferenza dei Large Language Models (LLM) lenta e dispendiosa in termini di tempo. Proponiamo un semplice framework, EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), per un'accelerazione senza perdite. A differenza dei tradizionali metodi di campionamento speculativo, EAGLE opera il processo di drafting in modo auto-regressivo a livello di feature più regolari (secondo strato superiore) e affronta i problemi di incertezza nel campionamento nei problemi di previsione della feature successiva integrando token di un passo temporale avanti. L'accelerazione fornita da EAGLE è senza perdite: non richiede fine-tuning del LLM target e il testo generato mantiene la stessa distribuzione di quello prodotto dalla decodifica auto-regressiva standard. Al momento della presentazione di questo articolo, EAGLE è il framework più veloce noto all'interno della famiglia del campionamento speculativo. Su MT-bench, EAGLE è 3 volte più veloce della decodifica standard, 2 volte più veloce di Lookahead e 1,6 volte più veloce di Medusa. Utilizzando gpt-fast, EAGLE raggiunge in media 160 token/s con LLaMA2-Chat 13B su una singola GPU RTX 3090, rispetto ai 24 token/s delle implementazioni di Huggingface.
I recenti progressi nei modelli di testo-immagine hanno notevolmente migliorato le capacità di generazione di immagini, ma persiste un divario significativo nei modelli open-source per il supporto bilingue o della lingua cinese. Per affrontare questa esigenza, presentiamo Taiyi-Diffusion-XL, un nuovo modello bilingue cinese-inglese di testo-immagine, sviluppato estendendo le capacità di CLIP e Stable-Diffusion-XL attraverso un processo di pre-addestramento continuo bilingue. Questo approccio include l'espansione efficiente del vocabolario integrando i caratteri cinesi più frequentemente utilizzati nel tokenizer e nei livelli di embedding di CLIP, abbinata a un'espansione della codifica assoluta delle posizioni. Inoltre, arricchiamo i prompt di testo utilizzando un grande modello di visione e linguaggio, portando a didascalie di immagini migliori e a una qualità visiva superiore. Questi miglioramenti vengono successivamente applicati ai modelli di testo-immagine downstream. I nostri risultati empirici indicano che il modello CLIP sviluppato eccelle nel recupero bilingue di immagini e testo. Inoltre, le capacità di generazione di immagini bilingue di Taiyi-Diffusion-XL superano quelle dei modelli precedenti. Questa ricerca porta allo sviluppo e alla pubblicazione open-source del modello Taiyi-Diffusion-XL, rappresentando un progresso significativo nel campo della generazione di immagini, in particolare per le applicazioni in lingua cinese. Questo contributo rappresenta un passo avanti nel soddisfare la necessità di un supporto linguistico più diversificato nella ricerca multimodale. Il modello e la dimostrazione sono resi pubblicamente disponibili all'indirizzo https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B/{questo https URL}, promuovendo ulteriori ricerche e collaborazioni in questo dominio.
L'editing di scene 3D guidato da testo ha attirato notevole attenzione grazie alla sua praticità e facilità d'uso. Tuttavia, i metodi esistenti presentano ancora una mancanza di controllo accurato sull'aspetto specificato e sulla posizione del risultato dell'editing, a causa delle limitazioni intrinseche della descrizione testuale. A tal fine, proponiamo un framework di editing di scene 3D, TIPEditor, che accetta sia prompt testuali che immagini, insieme a un bounding box 3D per specificare la regione da modificare. Grazie al prompt immagine, gli utenti possono specificare comodamente l'aspetto/stile dettagliato del contenuto target, integrando la descrizione testuale e consentendo un controllo preciso dell'aspetto. Nello specifico, TIPEditor adotta una strategia di personalizzazione 2D graduale per apprendere meglio la rappresentazione della scena esistente e dell'immagine di riferimento, in cui viene introdotta una perdita di localizzazione per incoraggiare il corretto posizionamento degli oggetti come specificato dal bounding box. Inoltre, TIPEditor utilizza una rappresentazione 3D esplicita e flessibile basata su splatting gaussiano per facilitare l'editing locale mantenendo invariato lo sfondo. Esperimenti estensivi hanno dimostrato che TIPEditor esegue editing accurati seguendo i prompt testuali e visivi nella regione del bounding box specificata, superando costantemente i metodi di riferimento in termini di qualità dell'editing e allineamento ai prompt, sia qualitativamente che quantitativamente.
Le persone impiegano comportamenti espressivi per comunicare efficacemente e coordinare le proprie azioni con gli altri, come annuire per riconoscere uno sguardo rivolto a loro o dire "permesso" per passare in un corridoio affollato. Vorremmo che anche i robot dimostrassero comportamenti espressivi nell'interazione uomo-robot. I lavori precedenti propongono metodi basati su regole che faticano a scalare a nuove modalità di comunicazione o situazioni sociali, mentre i metodi basati sui dati richiedono dataset specializzati per ogni situazione sociale in cui il robot viene utilizzato. Proponiamo di sfruttare il ricco contesto sociale disponibile dai grandi modelli linguistici (LLM) e la loro capacità di generare movimenti basati su istruzioni o preferenze dell'utente, per generare movimenti robotici espressivi che siano adattabili e componibili, costruendosi l'uno sull'altro. Il nostro approccio utilizza il prompting a catena di pensiero con pochi esempi per tradurre le istruzioni in linguaggio naturale in codice di controllo parametrizzato, utilizzando le abilità disponibili e apprese dal robot. Attraverso studi sugli utenti e esperimenti di simulazione, dimostriamo che il nostro approccio produce comportamenti che gli utenti hanno ritenuto competenti e facili da comprendere. Il materiale supplementare è disponibile all'indirizzo https://generative-expressive-motion.github.io/.