Articoli di ricerca IA selezionati quotidianamente con traduzioni
CLIP è uno dei modelli fondamentali multimodali più importanti oggi. Cosa alimenta le capacità di CLIP? I ricchi segnali di supervisione forniti dal linguaggio naturale, il portatore della conoscenza umana, plasmano uno spazio di rappresentazione cross-modale potente. Tuttavia, con i rapidi progressi nei modelli linguistici di grandi dimensioni (LLM) come GPT-4 e LLaMA, i confini della comprensione e generazione del linguaggio sono continuamente spinti. Questo solleva una domanda intrigante: le capacità dei LLM possono essere sfruttate per migliorare ulteriormente l'apprendimento della rappresentazione multimodale? I benefici potenziali dell'incorporazione dei LLM in CLIP sono chiari. La forte comprensione testuale dei LLM può migliorare fondamentalmente la capacità di CLIP di gestire didascalie di immagini, migliorando drasticamente la capacità di elaborare testi lunghi e complessi, una limitazione ben nota di CLIP di base. Inoltre, i LLM sono addestrati su un vasto corpus di testo, possedendo conoscenze del mondo aperto. Ciò consente loro di espandere le informazioni delle didascalie durante l'addestramento, aumentando l'efficienza del processo di apprendimento. In questo articolo, proponiamo LLM2CLIP, un nuovo approccio che abbraccia il potere dei LLM per sbloccare il potenziale di CLIP. Mediante il raffinamento del LLM nello spazio delle didascalie con l'apprendimento contrastivo, estraiamo le sue capacità testuali negli embedding di output, migliorando significativamente la discriminabilità testuale dello strato di output. Progettiamo quindi un processo di addestramento efficiente in cui il LLM raffinato agisce come un potente insegnante per l'encoder visivo di CLIP. Grazie alla presenza del LLM, possiamo ora incorporare didascalie più lunghe e complesse senza essere limitati dalla finestra di contesto e dalle limitazioni di capacità dell'encoder di testo di CLIP di base. I nostri esperimenti dimostrano che questo approccio porta miglioramenti sostanziali nelle attività cross-modal.
I grandi modelli linguistici (LLM) hanno dimostrato capacità impressionanti, ma faticano ancora con compiti di ragionamento complessi che richiedono più passaggi. Mentre i metodi basati su prompt come Chain-of-Thought (CoT) possono migliorare il ragionamento dei LLM durante l'inferenza, ottimizzare le capacità di ragionamento durante l'addestramento rimane una sfida. Presentiamo LaTent Reasoning Optimization (LaTRO), un framework basato su principi che formula il ragionamento come campionamento da una distribuzione latente e lo ottimizza tramite approcci variazionali. LaTRO consente ai LLM di migliorare contemporaneamente sia il loro processo di ragionamento che la capacità di valutare la qualità del ragionamento, senza richiedere feedback esterni o modelli di ricompensa. Convalidiamo LaTRO attraverso esperimenti sui set di dati GSM8K e ARC-Challenge utilizzando diverse architetture di modelli. Su GSM8K, LaTRO migliora l'accuratezza a zero-shot di una media del 12,5% rispetto ai modelli di base e del 9,6% rispetto al fine-tuning supervisionato attraverso Phi-3.5-mini, Mistral-7B e Llama-3.1-8B. I nostri risultati suggeriscono che i LLM preaddestrati possiedono capacità di ragionamento latenti che possono essere sbloccate e potenziate attraverso il nostro approccio di ottimizzazione proposto in modo di auto-miglioramento. Il codice di LaTRO è disponibile su https://github.com/SalesforceAIResearch/LaTRO.
Il parallelismo a pipeline è ampiamente utilizzato per scalare l'addestramento di modelli linguistici di grandi dimensioni basati su trasformatori, sono stati compiuti vari lavori per migliorarne la capacità di elaborazione e l'occupazione di memoria. In questo articolo, affrontiamo un problema spesso trascurato: i livelli di vocabolario possono causare un disavanzo nell'elaborazione e nell'utilizzo di memoria tra le fasi della pipeline, peggiorando le interruzioni della pipeline e il collo di bottiglia della memoria. Per affrontare questo problema, suddividiamo uniformemente i livelli del vocabolario tra i dispositivi della pipeline e raggruppiamo l'elaborazione in passaggi della pipeline. Per ridurre il sovraccarico di memoria di attivazione, proponiamo diversi algoritmi per ridurre le barriere di comunicazione all'interno dei livelli del vocabolario. Inoltre, utilizziamo un metodo generalizzabile per integrare il Parallelismo del Vocabolario con gli attuali programmi di pipeline. Combinando queste tecniche, i nostri metodi bilanciano efficacemente l'elaborazione e la memoria dei parametri, con un sovraccarico di memoria di attivazione costante e ridotto. In particolare, quando combinato con programmi di memoria di attivazione bilanciati come V-Half, il nostro approccio raggiunge un perfetto equilibrio sia nella memoria che nell'elaborazione. Valutazioni approfondite dimostrano che il nostro metodo raggiunge un equilibrio tra elaborazione e memoria indipendentemente dalle dimensioni del vocabolario, portando a un miglioramento del 5% al 51% nella capacità di elaborazione rispetto agli approcci ingenui, riducendo significativamente l'utilizzo massimo di memoria soprattutto per scenari con un ampio vocabolario. La nostra implementazione è open source su https://github.com/sail-sg/VocabularyParallelism.
Presentiamo StdGEN, un innovativo processo per generare personaggi 3D ad alta qualità decomposti semanticamente da singole immagini, consentendo ampie applicazioni in realtà virtuale, videogiochi, e produzione cinematografica, ecc. A differenza dei metodi precedenti che faticano con una limitata decomponibilità, qualità insoddisfacente, e lunghi tempi di ottimizzazione, StdGEN presenta decomponibilità, efficacia ed efficienza; ossia, genera personaggi 3D dettagliatamente articolati con componenti semantiche separate come il corpo, i vestiti e i capelli, in tre minuti. Al centro di StdGEN si trova il nostro proposto Modello di Ricostruzione Semantica Consapevole (S-LRM), un modello generalizzabile basato su trasformatori che ricostruisce congiuntamente geometria, colore e semantica da immagini multi-vista in modo feed-forward. Viene introdotto uno schema differenziabile di estrazione di superfici semantiche multi-strato per acquisire mesh da campi impliciti ibridi ricostruiti dal nostro S-LRM. Inoltre, un modello di diffusione multi-vista efficiente e specializzato e un modulo di raffinamento di superfici multi-strato iterativo sono integrati nel processo per facilitare la generazione di personaggi 3D decomponibili ad alta qualità. Estesi esperimenti dimostrano le nostre prestazioni all'avanguardia nella generazione di personaggi anime 3D, superando di gran lunga i benchmark esistenti in geometria, texture e decomponibilità. StdGEN offre personaggi 3D decomposti semanticamente pronti all'uso e consente una personalizzazione flessibile per una vasta gamma di applicazioni. Pagina del progetto: https://stdgen.github.io
Il raffinamento dei grandi modelli linguistici (LLM) è essenziale per migliorare le loro prestazioni su compiti specifici, ma spesso richiede molte risorse a causa di dati ridondanti o non informativi. Per affrontare questa inefficienza, presentiamo DELIFT (Data Efficient Language model Instruction Fine-Tuning), un algoritmo innovativo che ottimizza sistematicamente la selezione dei dati attraverso le tre fasi chiave del raffinamento: (1) raffinamento delle istruzioni, (2) raffinamento specifico del compito (ad esempio, ragionamento, risposta alle domande) e (3) raffinamento continuo (ad esempio, incorporando nuove versioni dei dati). A differenza dei metodi esistenti che si concentrano sull'ottimizzazione a singolo stadio o si basano su calcoli del gradiente computazionalmente intensivi, DELIFT opera in modo efficiente su tutte le fasi. Al centro del nostro approccio c'è una metrica di utilità a coppie che quantifica quanto sia benefico un campione di dati per migliorare le risposte del modello ad altri campioni, misurando efficacemente il valore informativo rispetto alle capacità attuali del modello. Sfruttando diverse funzioni submodulari applicate a questa metrica, DELIFT seleziona sottoinsiemi diversi e ottimali che sono utili in tutte le fasi del raffinamento. Gli esperimenti su vari compiti e scale di modelli dimostrano che DELIFT può ridurre le dimensioni dei dati di raffinamento fino al 70% senza compromettere le prestazioni, offrendo significativi risparmi computazionali e superando i metodi esistenti sia in efficienza che in efficacia.
Questo articolo mira a progettare un sistema unificato di generazione del Disegno Assistito al Computer (CAD) che possa generare facilmente modelli CAD basati sugli input dell'utente sotto forma di descrizioni testuali, immagini, nuvole di punti o anche una combinazione di essi. Per raggiungere questo obiettivo, presentiamo il CAD-MLLM, il primo sistema in grado di generare modelli CAD parametrici condizionati all'input multimodale. Nello specifico, all'interno del framework CAD-MLLM, sfruttiamo le sequenze di comandi dei modelli CAD e poi utilizziamo avanzati modelli linguistici di grandi dimensioni (LLM) per allineare lo spazio delle caratteristiche tra questi diversi dati multimodali e le rappresentazioni vettoriali dei modelli CAD. Per facilitare l'addestramento del modello, progettiamo un completo processo di costruzione dei dati e annotazione che equipaggia ciascun modello CAD con dati multimodali corrispondenti. Il nostro dataset risultante, chiamato Omni-CAD, è il primo dataset CAD multimodale che contiene descrizioni testuali, immagini multi-view, punti e sequenze di comandi per ciascun modello CAD. Contiene circa 450.000 istanze e le relative sequenze di costruzione CAD. Per valutare approfonditamente la qualità dei nostri modelli CAD generati, superiamo le attuali metriche di valutazione che si concentrano sulla qualità della ricostruzione introducendo ulteriori metriche che valutano la qualità della topologia e l'estensione dell'inclusione superficiale. Estesi risultati sperimentali dimostrano che il CAD-MLLM supera significativamente i metodi generativi condizionati esistenti e rimane altamente robusto ai rumori e ai punti mancanti. La pagina del progetto e ulteriori visualizzazioni sono disponibili su: https://cad-mllm.github.io/
L'avvento dei grandi modelli linguistici (LLM) come GitHub Copilot ha notevolmente migliorato la produttività dei programmatori, in particolare nella generazione di codice. Tuttavia, questi modelli spesso faticano con compiti reali senza un adeguato adattamento. Man mano che i LLM diventano più grandi e performanti, l'adattamento per compiti specializzati diventa sempre più costoso. I metodi di adattamento efficienti dei parametri (PEFT), che adattano solo un sottoinsieme dei parametri del modello, offrono una soluzione promettente riducendo i costi computazionali dell'adattamento dei LLM pur mantenendone le prestazioni. Studi esistenti hanno esplorato l'uso di PEFT e LLM per vari compiti legati al codice e hanno scoperto che l'efficacia delle tecniche PEFT dipende dal compito. L'applicazione delle tecniche PEFT nella generazione di test unitari rimane poco esplorata. Lo stato dell'arte si limita all'uso di LLM con adattamento completo per generare test unitari. Questo articolo esplora sia l'adattamento completo che vari metodi PEFT, tra cui LoRA, (IA)^3 e prompt tuning, su diverse architetture e dimensioni di modelli. Utilizziamo dataset di benchmark ben consolidati per valutarne l'efficacia nella generazione di test unitari. I nostri risultati mostrano che i metodi PEFT possono offrire prestazioni paragonabili all'adattamento completo per la generazione di test unitari, rendendo l'adattamento specializzato più accessibile ed economico. In particolare, il prompt tuning risulta il più efficace in termini di costo e utilizzo delle risorse, mentre LoRA si avvicina all'efficacia dell'adattamento completo in diversi casi.
I moderni modelli linguistici possono elaborare input in diverse lingue e modalità. Ipotizziamo che i modelli acquisiscano questa capacità attraverso l'apprendimento di uno spazio di rappresentazione condiviso tra tipi di dati eterogenei (ad esempio, lingue e modalità diverse), che posiziona input semanticamente simili vicini tra loro, anche se provengono da diverse modalità/lingue. Chiamiamo questa ipotesi "hub semantico", seguendo il modello hub-and-spoke dalla neuroscienza (Patterson et al., 2007) che sostiene che la conoscenza semantica nel cervello umano è organizzata attraverso un "hub" semantico transmodale che integra informazioni da varie regioni "spoke" specifiche per le modalità. Dimostriamo innanzitutto che le rappresentazioni del modello per input semanticamente equivalenti in lingue diverse sono simili nei livelli intermedi e che questo spazio può essere interpretato utilizzando la lingua predominante di preaddestramento del modello tramite la lente logit. Questa tendenza si estende ad altri tipi di dati, inclusi espressioni aritmetiche, codice e input visivi/audio. Interventi nello spazio di rappresentazione condiviso in un tipo di dati influenzano in modo prevedibile anche le uscite del modello in altri tipi di dati, suggerendo che questo spazio di rappresentazioni condiviso non è semplicemente un sottoprodotto vestigiale dell'addestramento su larga scala su dati ampi, ma qualcosa che è attivamente utilizzato dal modello durante l'elaborazione degli input.
I modelli visione-linguaggio (VLMs) ottimizzati spesso catturano correlazioni spurie tra le caratteristiche dell'immagine e gli attributi testuali, risultando in una performance zero-shot degradata durante il test. Gli approcci esistenti per affrontare le correlazioni spurie (i) operano principalmente a livello globale dell'immagine piuttosto che intervenire direttamente sulle caratteristiche dell'immagine dettagliate e (ii) sono principalmente progettati per impostazioni unimodali. In questo lavoro, presentiamo RaVL, che adotta una prospettiva dettagliata sulla robustezza dei VLM scoprendo e mitigando le correlazioni spurie utilizzando le caratteristiche locali dell'immagine anziché operare a livello globale dell'immagine. Dato un VLM ottimizzato, RaVL scopre prima le correlazioni spurie sfruttando un approccio di clustering a livello di regione per identificare precise caratteristiche dell'immagine che contribuiscono agli errori di classificazione zero-shot. Successivamente, RaVL mitiga la correlazione spuria identificata con una nuova funzione di perdita consapevole della regione che consente al VLM di concentrarsi sulle regioni rilevanti e ignorare le relazioni spurie durante l'ottimizzazione. Valutiamo RaVL su 654 VLM con varie architetture di modelli, domini di dati e correlazioni spurie apprese. I nostri risultati mostrano che RaVL scopre e mitiga accuratamente le correlazioni spurie (miglioramento del 191% rispetto alla baseline più vicina) e (miglioramento dell'8,2% sull'accuratezza della classificazione delle immagini del gruppo peggiore). Le valutazioni qualitative su VLM di dominio generale e medico confermano le nostre conclusioni.
Il debito tecnico (TD) è un termine utilizzato per descrivere il lavoro e i costi aggiuntivi che emergono quando gli sviluppatori scelgono una soluzione rapida e semplice a un problema, piuttosto che un approccio più efficace e ben progettato, ma più dispendioso in termini di tempo. I debiti tecnici autoammessi (SATD) sono un tipo specifico di debiti tecnici che gli sviluppatori documentano intenzionalmente e riconoscono, tipicamente tramite commenti testuali. Sebbene questi commenti autoammessi siano uno strumento utile per identificare i debiti tecnici, la maggior parte degli approcci esistenti si concentra sulla cattura di token cruciali associati a varie categorie di TD, trascurando le ricche informazioni incorporate nel codice sorgente stesso. Ricerche recenti si sono concentrate sulla rilevazione dei SATD analizzando i commenti incorporati nel codice sorgente, e vi è stata poca attenzione dedicata ai debiti tecnici contenuti nel codice sorgente. Per colmare tale divario, in questo studio, attraverso l'analisi dei commenti e del relativo codice sorgente provenienti da 974 progetti Java ospitati nel corpus Stack, abbiamo curato il primo dataset di TD identificati tramite commenti di codice, unitamente al relativo codice sorgente. Attraverso una valutazione empirica, abbiamo scoperto che i commenti del dataset risultante contribuiscono a migliorare le prestazioni di previsione dei modelli di rilevamento SATD all'avanguardia. Inoltre, includere il codice sorgente classificato migliora significativamente l'accuratezza nella previsione di vari tipi di debito tecnico. In questo senso, il nostro lavoro è duplice: (i) riteniamo che il nostro dataset catalizzerà futuri lavori nel settore, ispirando varie questioni di ricerca legate al riconoscimento del debito tecnico; (ii) i classificatori proposti possono fungere da basi per altri studi sulla rilevazione dei TD mediante il dataset curato.