Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo un rapporto completo sulla compressione dei modelli Llama 3.1 8B e Mistral NeMo 12B rispettivamente a 4B e 8B parametri, utilizzando tecniche di pruning e distillazione. Esploriamo due strategie di pruning distinte: (1) pruning in profondità e (2) pruning congiunto di hidden/attention/MLP (in larghezza), e valutiamo i risultati su benchmark comuni tratti dall'LM Evaluation Harness. I modelli vengono poi allineati con NeMo Aligner e testati in versioni ottimizzate per istruzioni. Questo approccio produce un modello 4B convincente a partire da Llama 3.1 8B e un modello all'avanguardia Mistral-NeMo-Minitron-8B (MN-Minitron-8B in breve) a partire da Mistral NeMo 12B. Abbiamo riscontrato che, in assenza di accesso ai dati originali, è vantaggioso effettuare un leggero fine-tuning dei modelli insegnanti sul dataset di distillazione. Rilasciamo i pesi del nostro modello base su Hugging Face con una licenza permissiva.
In questo lavoro, discutiamo la valutazione dei modelli di base per video in modo equo e robusto. A differenza dei modelli di base per il linguaggio o le immagini, molti modelli di base per video vengono valutati con parametri diversi (come la frequenza di campionamento, il numero di frame, i passi di pre-addestramento, ecc.), rendendo difficile effettuare confronti equi e robusti. Pertanto, presentiamo un framework di valutazione accuratamente progettato per misurare due capacità fondamentali della comprensione video: la comprensione dell'aspetto e del movimento. I nostri risultati rivelano che i modelli di base per video esistenti, siano essi supervisionati da testo come UMT o InternVideo2, o auto-supervisionati come V-JEPA, presentano limitazioni in almeno una di queste capacità. Come alternativa, introduciamo TWLV-I, un nuovo modello di base per video che costruisce rappresentazioni visive robuste sia per video basati sul movimento che sull'aspetto. Basandoci sull'accuratezza top-1 media del linear probing su cinque benchmark di riconoscimento di azioni, pre-addestrato solo su dataset pubblicamente accessibili, il nostro modello mostra un miglioramento del 4,6% rispetto a V-JEPA (ViT-L) e un miglioramento del 7,7% rispetto a UMT (ViT-L). Anche rispetto a modelli molto più grandi, il nostro modello dimostra un miglioramento del 7,2% rispetto a DFN (ViT-H), un miglioramento del 2,7% rispetto a V-JEPA (ViT-H) e un miglioramento del 2,8% rispetto a InternVideo2 (ViT-g). Forniamo i vettori di embedding ottenuti da TWLV-I da video di diversi benchmark video comunemente utilizzati, insieme al codice sorgente di valutazione che può utilizzare direttamente questi embedding. Il codice è disponibile su "https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".
Dotare i LLM della capacità di utilizzare informazioni utili da un contesto lungo è cruciale per molte applicazioni downstream. Tuttavia, raggiungere lunghezze di contesto estese con l'architettura convenzionale dei transformer richiede risorse significative per l'addestramento e l'inferenza. In questo articolo, presentiamo FocusLLM, un framework progettato per estendere la lunghezza del contesto di qualsiasi LLM decoder-only, consentendo al modello di concentrarsi sulle informazioni rilevanti da sequenze molto lunghe. FocusLLM elabora input di testo lunghi suddividendoli in blocchi basati sulla lunghezza originale del contesto del modello per alleviare il problema della distrazione dell'attenzione. Successivamente, aggiunge il contesto locale a ciascun blocco come prompt per estrarre informazioni essenziali da ciascun blocco basandosi su un nuovo meccanismo di decodifica parallela, e infine integra le informazioni estratte nel contesto locale. FocusLLM si distingue per una grande efficienza nell'addestramento e versatilità: addestrato con una lunghezza di input di 8K con un costo di addestramento molto inferiore rispetto ai metodi precedenti, FocusLLM mostra prestazioni superiori in compiti downstream con contesto lungo e mantiene una forte capacità di modellazione del linguaggio quando gestisce testi estesi, fino a 400K token. Il nostro codice è disponibile all'indirizzo https://github.com/leezythu/FocusLLM.
Negli ultimi anni si è registrato un progresso significativo nella generazione controllata di video basata su modelli di diffusione. Tuttavia, ottenere un controllo preciso in scenari complessi, che includono parti dettagliate degli oggetti, traiettorie di movimento sofisticate e movimenti coerenti dello sfondo, rimane una sfida. In questo articolo, presentiamo TrackGo, un approccio innovativo che sfrutta maschere a forma libera e frecce per la generazione condizionata di video. Questo metodo offre agli utenti un meccanismo flessibile e preciso per manipolare il contenuto video. Proponiamo inoltre il TrackAdapter per l'implementazione del controllo, un adattatore efficiente e leggero progettato per essere integrato senza soluzione di continuità negli strati di auto-attenzione temporale di un modello pre-addestrato per la generazione di video. Questo design si basa sulla nostra osservazione che la mappa di attenzione di questi strati può attivare con precisione le regioni corrispondenti al movimento nei video. I nostri risultati sperimentali dimostrano che il nuovo approccio, potenziato dal TrackAdapter, raggiunge prestazioni all'avanguardia su metriche chiave come FVD, FID e punteggi ObjMC. La pagina del progetto TrackGo è disponibile all'indirizzo: https://zhtjtcz.github.io/TrackGo-Page/
I modelli multimodali di grandi dimensioni (LMM) hanno dimostrato competenze in numerosi compiti visivi. Sebbene esistano molti benchmark noti per valutare le prestazioni dei modelli, questi stanno diventando sempre più insufficienti in termini di margine di miglioramento. Di conseguenza, c'è un urgente bisogno di una nuova generazione di benchmark abbastanza impegnativi per la prossima generazione di LMM. Un'area in cui i LMM mostrano potenziale è l'analisi di grafici, in particolare i compiti che un analista potrebbe tipicamente svolgere quando interpreta figure, come stimare la media, gli intercetti o le correlazioni di funzioni e serie di dati. In questo lavoro, introduciamo GRAB, un benchmark per l'analisi di grafici, adatto agli attuali e futuri LMM all'avanguardia. Il nostro benchmark è interamente sintetico, garantendo domande di alta qualità e prive di rumore. GRAB è composto da 2170 domande, che coprono quattro compiti e 23 proprietà dei grafici. Valutiamo 20 LMM su GRAB, riscontrando che si tratta di un benchmark impegnativo, con il modello con le migliori prestazioni che raggiunge un punteggio di appena il 21,7%. Infine, conduciamo varie ablazioni per indagare dove i modelli hanno successo e dove incontrano difficoltà. Rilasciamo GRAB per incoraggiare progressi in questo importante e crescente dominio.
I modelli di diffusione text-to-image (T2I) hanno dimostrato capacità impressionanti nella generazione di immagini di alta qualità a partire da un prompt testuale. Tuttavia, garantire l'allineamento tra prompt e immagine rimane una sfida considerevole, ovvero generare immagini che rispecchino fedelmente la semantica del prompt. Recenti lavori tentano di migliorare la fedeltà ottimizzando il codice latente, il che potrebbe potenzialmente portare il codice latente fuori dalla distribuzione e quindi produrre immagini irrealistiche. In questo articolo, proponiamo FRAP, un approccio semplice ma efficace basato sulla regolazione adattiva dei pesi per ogni token del prompt per migliorare l'allineamento prompt-immagine e l'autenticità delle immagini generate. Progettiamo un algoritmo online per aggiornare adattivamente il coefficiente di peso di ciascun token, ottenuto minimizzando una funzione obiettivo unificata che incoraggia la presenza degli oggetti e il legame tra coppie oggetto-modificatore. Attraverso valutazioni estensive, dimostriamo che FRAP genera immagini con un allineamento prompt-immagine significativamente superiore rispetto a prompt provenienti da dataset complessi, pur avendo una latenza media inferiore rispetto ai recenti metodi di ottimizzazione del codice latente, ad esempio 4 secondi più veloce di D&B sul dataset COCO-Subject. Inoltre, attraverso confronti visivi e valutazioni sulla metrica CLIP-IQA-Real, mostriamo che FRAP non solo migliora l'allineamento prompt-immagine, ma genera anche immagini più autentiche con un aspetto realistico. Esploriamo inoltre la combinazione di FRAP con un LLM di riscrittura del prompt per recuperare il loro allineamento prompt-immagine degradato, osservando miglioramenti sia nell'allineamento prompt-immagine che nella qualità dell'immagine.
I moderni sistemi di apprendimento automatico si basano su grandi dataset per ottenere un'ampia generalizzazione, e questo spesso rappresenta una sfida nell'apprendimento robotico, dove ogni piattaforma robotica e compito potrebbe disporre solo di un piccolo dataset. Addestrando una singola policy su molti tipi diversi di robot, un metodo di apprendimento robotico può sfruttare dataset molto più ampi e diversificati, il che a sua volta può portare a una migliore generalizzazione e robustezza. Tuttavia, addestrare una singola policy su dati multi-robot è impegnativo perché i robot possono avere sensori, attuatori e frequenze di controllo molto variabili. Proponiamo CrossFormer, una policy basata su transformer scalabile e flessibile che può elaborare dati provenienti da qualsiasi incarnazione. Addestriamo CrossFormer sul dataset più grande e diversificato fino ad oggi, 900K traiettorie su 20 diverse incarnazioni di robot. Dimostriamo che gli stessi pesi della rete possono controllare robot molto diversi, inclusi sistemi di manipolazione a braccio singolo e doppio, robot su ruote, quadricotteri e quadrupedi. A differenza dei lavori precedenti, il nostro modello non richiede un allineamento manuale degli spazi di osservazione o di azione. Esperimenti estensivi nel mondo reale mostrano che il nostro metodo eguaglia le prestazioni di policy specializzate progettate per ogni incarnazione, superando significativamente anche lo stato dell'arte precedente nell'apprendimento cross-incarnazione.
Affrontiamo una sfida persistente nei modelli di testo-immagine: generare con precisione un numero specifico di oggetti. I modelli attuali, che apprendono da coppie immagine-testo, faticano intrinsecamente con il conteggio, poiché i dati di addestramento non possono rappresentare ogni possibile numero di oggetti per un dato oggetto. Per risolvere questo problema, proponiamo di ottimizzare l'immagine generata basandoci su una perdita di conteggio derivata da un modello di conteggio che aggrega il potenziale di un oggetto. Utilizzare un modello di conteggio predefinito è complesso per due motivi: primo, il modello richiede un iperparametro di scalatura per l'aggregazione del potenziale che varia in base alla prospettiva degli oggetti, e secondo, le tecniche di guida del classificatore richiedono modelli modificati che operano su passaggi intermedi rumorosi del processo di diffusione. Per affrontare queste sfide, proponiamo una modalità di addestramento online iterata che migliora l'accuratezza delle immagini inferite mentre modifica l'embedding di condizionamento del testo e regola dinamicamente gli iperparametri. Il nostro metodo offre tre vantaggi chiave: (i) può considerare tecniche di conteggio non derivabili basate su modelli di rilevamento, (ii) è una soluzione plug-and-play zero-shot che facilita rapidi cambiamenti nelle tecniche di conteggio e nei metodi di generazione delle immagini, e (iii) il token di conteggio ottimizzato può essere riutilizzato per generare immagini accurate senza ulteriori ottimizzazioni. Valutiamo la generazione di vari oggetti e mostriamo miglioramenti significativi in termini di accuratezza. La pagina del progetto è disponibile all'indirizzo https://ozzafar.github.io/count_token.
Il rilevamento di dati fuori distribuzione (OOD) è cruciale nelle applicazioni di machine learning per mitigare il rischio di eccessiva sicurezza del modello, migliorando così l'affidabilità e la sicurezza dei sistemi implementati. La maggior parte dei metodi esistenti per il rilevamento OOD si concentra principalmente su input uni-modali, come immagini o testi. Nel contesto di documenti multi-modali, si osserva una notevole carenza di ricerche approfondite sulle prestazioni di questi metodi, che sono stati principalmente sviluppati con un focus su compiti di visione artificiale. Proponiamo una nuova metodologia denominata mascheramento delle testine di attenzione (Attention Head Masking, AHM) per compiti OOD multi-modali nei sistemi di classificazione di documenti. I nostri risultati empirici dimostrano che il metodo AHM proposto supera tutti gli approcci all'avanguardia e riduce significativamente il tasso di falsi positivi (FPR) rispetto alle soluzioni esistenti fino al 7,5%. Questa metodologia si generalizza bene ai dati multi-modali, come i documenti, in cui le informazioni visive e testuali sono modellate all'interno della stessa architettura Transformer. Per affrontare la scarsità di dataset di documenti di alta qualità disponibili pubblicamente e incoraggiare ulteriori ricerche sul rilevamento OOD per i documenti, introduciamo FinanceDocs, un nuovo dataset di documenti per l'AI. Il nostro codice e il dataset sono disponibili pubblicamente.
I sistemi di recupero visivo affrontano sfide significative quando aggiornano i modelli con rappresentazioni migliorate, a causa del disallineamento tra le vecchie e le nuove rappresentazioni. Il processo di backfilling, costoso e ad alto consumo di risorse, comporta il ricalcolo dei vettori di feature per le immagini nel set di galleria ogni volta che viene introdotto un nuovo modello. Per affrontare questo problema, ricerche precedenti hanno esplorato metodi di addestramento retrocompatibili che consentono confronti diretti tra nuove e vecchie rappresentazioni senza necessità di backfilling. Nonostante questi progressi, raggiungere un equilibrio tra retrocompatibilità e le prestazioni di modelli addestrati in modo indipendente rimane un problema aperto. In questo articolo, affrontiamo la questione espandendo lo spazio di rappresentazione con dimensioni aggiuntive e apprendendo una trasformazione ortogonale per ottenere compatibilità con i vecchi modelli e, allo stesso tempo, integrare nuove informazioni. Questa trasformazione preserva la geometria dello spazio delle feature originale, garantendo che il nostro modello si allinei con le versioni precedenti mentre apprende nuovi dati. Il nostro approccio Orthogonal Compatible Aligned (OCA) elimina la necessità di reindicizzazione durante gli aggiornamenti del modello e assicura che le feature possano essere confrontate direttamente tra diversi aggiornamenti del modello senza funzioni di mappatura aggiuntive. I risultati sperimentali su CIFAR-100 e ImageNet-1k dimostrano che il nostro metodo non solo mantiene la compatibilità con i modelli precedenti, ma raggiunge anche un'accuratezza all'avanguardia, superando diversi metodi esistenti.
I Large Language Model (LLM) sono inclini a ereditare e amplificare i pregiudizi sociali presenti nei loro dati di addestramento, rischiando di rafforzare stereotipi dannosi legati a genere, occupazione e altre categorie sensibili. Questo problema diventa particolarmente critico poiché LLM distorti possono avere conseguenze di vasta portata, portando a pratiche ingiuste e aggravando le disuguaglianze sociali in vari ambiti, come il reclutamento, la moderazione dei contenuti online o persino il sistema giudiziario penale. Sebbene ricerche precedenti si siano concentrate sull'individuazione dei pregiudizi negli LLM utilizzando dataset specializzati progettati per evidenziare i bias intrinseci, è stata osservata una notevole mancanza di indagini su come questi risultati si correlino con dataset autorevoli, come quelli del U.S. National Bureau of Labor Statistics (NBLS). Per colmare questa lacuna, conduciamo una ricerca empirica che valuta gli LLM in un contesto di "bias-out-of-the-box", analizzando come gli output generati si confrontino con le distribizioni presenti nei dati NBLS. Inoltre, proponiamo un meccanismo di debiasing semplice ma efficace che incorpora direttamente istanze NBLS per mitigare i pregiudizi all'interno degli LLM. Il nostro studio copre sette diversi LLM, inclusi modelli istruibili, di base e mixture-of-expert, e rivela livelli significativi di bias spesso trascurati dalle tecniche esistenti di rilevamento dei pregiudizi. È importante sottolineare che il nostro metodo di debiasing, che non si basa su dataset esterni, dimostra una sostanziale riduzione nei punteggi di bias, evidenziando l'efficacia del nostro approccio nel creare LLM più equi e affidabili.
Nell'ambito delle attività condivise dell'Open Language Data Initiative, abbiamo ampliato il set di valutazione FLORES+ includendo l'Emakhuwa, una lingua a bassa risorsa ampiamente parlata in Mozambico. Abbiamo tradotto i set dev e devtest dal portoghese all'Emakhuwa, descrivendo nel dettaglio il processo di traduzione e le misure di garanzia della qualità adottate. La nostra metodologia ha incluso vari controlli di qualità, tra cui post-editing e valutazioni di adeguatezza. I dataset risultanti consistono in più frasi di riferimento per ciascuna frase sorgente. Presentiamo i risultati di base ottenuti addestrando un sistema di Neural Machine Translation e ottimizzando modelli di traduzione multilingue esistenti. I nostri risultati suggeriscono che le inconsistenze ortografiche rimangono una sfida per l'Emakhuwa. Inoltre, i modelli di base hanno ottenuto prestazioni inferiori su questo set di valutazione, evidenziando la necessità di ulteriori ricerche per migliorare la qualità della traduzione automatica per l'Emakhuwa. I dati sono pubblicamente disponibili all'indirizzo https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES.