Articoli di ricerca IA selezionati quotidianamente con traduzioni
Gli avanzamenti recenti nei modelli multimodali mettono in luce il valore delle didascalie riscritte per migliorare le prestazioni, tuttavia rimangono sfide chiave. Ad esempio, sebbene le didascalie sintetiche spesso offrano una qualità superiore e un'allineamento immagine-testo, non è chiaro se possano sostituire completamente gli AltText: il ruolo delle didascalie sintetiche e la loro interazione con gli AltText originali raccolti dal web nel pre-addestramento non sono ancora ben compresi. Inoltre, diversi modelli di base multimodali possono avere preferenze uniche per specifici formati di didascalia, ma gli sforzi per identificare le didascalie ottimali per ciascun modello rimangono limitati. In questo lavoro, proponiamo un nuovo, controllabile e scalabile flusso di lavoro per la generazione di didascalie diverse adattate a vari modelli multimodali. Esaminando le Didascalie Sintetiche Brevi (SSC) verso le Didascalie Sintetiche Diverse (DSC+) come casi di studio, esploriamo sistematicamente i loro effetti e le interazioni con gli AltText tra modelli come CLIP, LLM multimodali e modelli di diffusione. I nostri risultati rivelano che un approccio ibrido che tiene conto sia delle didascalie sintetiche che degli AltText può superare l'uso delle sole didascalie sintetiche, migliorando sia l'allineamento che le prestazioni, con ciascun modello che dimostra preferenze per particolari formati di didascalia. Questa analisi esaustiva fornisce preziose intuizioni per ottimizzare le strategie di didascalia, contribuendo così a far progredire il pre-addestramento dei modelli di base multimodali.
L'architettura del transformer prevale tra vari modelli. Essendo il cuore del transformer, l'attenzione ha una complessità computazionale di O(N^2), rispetto a O(N) per le trasformazioni lineari. Quando si gestiscono lunghezze di sequenza elevate, l'attenzione diventa il componente principale che richiede più tempo. Sebbene la quantizzazione si sia dimostrata un metodo efficace per accelerare l'inferenza del modello, i metodi di quantizzazione esistenti si concentrano principalmente sull'ottimizzazione dello strato lineare. In risposta, analizziamo prima dettagliatamente la fattibilità della quantizzazione nell'attenzione. Successivamente, proponiamo SageAttention, un metodo di quantizzazione altamente efficiente e accurato per l'attenzione. Le OPS (operazioni al secondo) del nostro approccio superano di circa 2,1 volte FlashAttention2 e di 2,7 volte xformers. SageAttention ottiene anche prestazioni di precisione superiori rispetto a FlashAttention3. Esperimenti completi confermano che il nostro approccio comporta quasi nessuna perdita di metriche end-to-end tra vari modelli, inclusi quelli per l'elaborazione del linguaggio, la generazione di immagini e la generazione di video.
Presentiamo un modello fondamentale per la stima della profondità monoculare metrica a zero scatti. Il nostro modello, Depth Pro, sintetizza mappe di profondità ad alta risoluzione con nitidezza e dettagli ad alta frequenza senza precedenti. Le previsioni sono metriche, con scala assoluta, senza dipendere dalla disponibilità di metadati come intrinseci della fotocamera. Inoltre, il modello è veloce, producendo una mappa di profondità da 2,25 megapixel in 0,3 secondi su una GPU standard. Queste caratteristiche sono rese possibili da una serie di contributi tecnici, tra cui un efficiente trasformatore di visione multi-scala per una previsione densa, un protocollo di addestramento che combina set di dati reali e sintetici per ottenere un'alta precisione metrica insieme a una tracciatura precisa dei confini, metriche di valutazione dedicate per l'accuratezza dei confini nelle mappe di profondità stimate e una stima della lunghezza focale all'avanguardia da un'immagine singola. Esperimenti estesi analizzano scelte di progettazione specifiche e dimostrano che Depth Pro supera i lavori precedenti su molteplici dimensioni. Rilasciamo codice e pesi su https://github.com/apple/ml-depth-pro
Lo sviluppo dei grandi modelli multimodali video (LMM) è stato ostacolato dalla difficoltà di curare grandi quantità di dati grezzi di alta qualità dal web. Per affrontare questo problema, proponiamo un approccio alternativo creando un dataset sintetico di alta qualità specificamente per l'inseguimento delle istruzioni video, chiamato LLaVA-Video-178K. Questo dataset include compiti chiave come la descrizione dettagliata, la risposta a domande aperte (QA) e il QA a scelta multipla. Allenandoci su questo dataset, in combinazione con dati di sintonizzazione delle istruzioni visive esistenti, introduciamo LLaVA-Video, un nuovo LMM video. I nostri esperimenti dimostrano che LLaVA-Video ottiene ottime prestazioni su vari benchmark video, evidenziando l'efficacia del nostro dataset. Abbiamo in programma di rilasciare il dataset, il suo processo di generazione e i checkpoint del modello.
Il Pre-addestramento Contrastivo Linguaggio-Immagine (CLIP) è stato un metodo celebrato per addestrare gli encoder di visione a generare rappresentazioni immagine/testo che facilitano varie applicazioni. Di recente, CLIP è stato ampiamente adottato come la spina dorsale visiva dei grandi modelli di linguaggio multimodali (MLLMs) per collegare gli input delle immagini per interazioni linguistiche. Il successo di CLIP come modello di base visione-linguaggio si basa sull'allineamento di annotazioni di testo rumorose raccolte dal web a livelli di immagine. Tuttavia, tali criteri potrebbero non essere sufficienti per compiti successivi che richiedono rappresentazioni di visione dettagliate, specialmente quando la comprensione a livello di regione è impegnativa per i MLLMs. In questo articolo, miglioriamo la capacità di localizzazione di CLIP con diversi avanzamenti. Proponiamo un metodo di pre-addestramento chiamato Pre-addestramento Contrastivo Localizzato Linguaggio-Immagine (CLOC) integrando CLIP con perdita contrastiva regione-testo e moduli. Formuliamo un nuovo concetto, embedding promptabili, di cui l'encoder produce embedding di immagini facili da trasformare in rappresentazioni di regione dati suggerimenti spaziali. Per supportare il pre-addestramento su larga scala, progettiamo un framework di sottotitolatura arricchito visivamente e localizzato spazialmente per generare efficacemente pseudotesti di regione su larga scala. Scalando fino a miliardi di immagini annotate, CLOC consente di ottenere embedding regionali di alta qualità per compiti di riconoscimento e recupero di regioni di immagini, e può sostituire CLIP per potenziare i MLLMs, in particolare per compiti di riferimento e ancoraggio.
Introduciamo LLaVA-Critic, il primo modello multimodale ampio open-source (LMM) progettato come valutatore generalista per valutare le prestazioni su una vasta gamma di compiti multimodali. LLaVA-Critic è addestrato utilizzando un dataset di istruzioni di critici di alta qualità che incorpora criteri di valutazione e scenari diversificati. I nostri esperimenti dimostrano l'efficacia del modello in due aree chiave: (1) LMM-come-Giudice, in cui LLaVA-Critic fornisce punteggi di valutazione affidabili, ottenendo risultati paragonabili o superiori ai modelli GPT su diversi benchmark di valutazione; e (2) Apprendimento delle Preferenze, in cui genera segnali di ricompensa per l'apprendimento delle preferenze, potenziando le capacità di allineamento del modello. Questo lavoro sottolinea il potenziale dei LMM open-source nell'autocritica e nella valutazione, aprendo la strada a futuri studi sui meccanismi di feedback di allineamento scalabili e superumani per i LMM.
È auspicabile ma impegnativo generare video lunghi ricchi di contenuti della durata di alcuni minuti. I grandi modelli di linguaggio autoregressivi (LLM) hanno ottenuto un grande successo nella generazione di sequenze coerenti e lunghe di token nel campo dell'elaborazione del linguaggio naturale, mentre l'esplorazione dei LLM autoregressivi per la generazione di video si limita alla creazione di brevi video della durata di alcuni secondi. In questo lavoro, conduciamo un'analisi approfondita delle sfide che impediscono ai generatori di video basati su LLM autoregressivi di generare video lunghi. Sulla base delle osservazioni e dell'analisi, proponiamo Loong, un nuovo generatore di video basato su LLM autoregressivi in grado di generare video della durata di alcuni minuti. In particolare, modelliamo i token di testo e i token video come una sequenza unificata per i LLM autoregressivi e addestriamo il modello da zero. Proponiamo un addestramento progressivo da corto a lungo con un sistema di ripesatura della perdita per mitigare il problema dello squilibrio della perdita nell'addestramento dei video lunghi. Investigando ulteriormente le strategie di inferenza, inclusa la riconversione dei token video e le strategie di campionamento, per ridurre l'accumulo di errori durante l'inferenza. Il nostro Loong proposto può essere addestrato su video di 10 secondi e può essere esteso per generare video lunghi della durata di alcuni minuti condizionati da prompt di testo, come dimostrato dai risultati. Ulteriori campioni sono disponibili su: https://epiphqny.github.io/Loong-video.
I grandi modelli linguistici (LLM) hanno dimostrato di essere straordinariamente efficienti, sia in una vasta gamma di compiti di elaborazione del linguaggio naturale che oltre ad essi. Tuttavia, un'analisi teorica completa delle origini delle loro prestazioni impressionanti rimane sfuggente. In questo articolo, affrontiamo questo compito impegnativo stabilendo un'equivalenza tra modelli linguistici autoregressivi generici con vocabolario di dimensione T e finestra di contesto di dimensione K e catene di Markov definite su uno spazio di stati finito di dimensione O(T^K). Otteniamo diversi risultati sorprendenti relativi all'esistenza di una distribuzione stazionaria delle catene di Markov che catturano il potere inferenziale dei LLM, la loro velocità di convergenza ad essa e l'influenza della temperatura su quest'ultima. Successivamente dimostriamo vincoli di pre-addestramento e generalizzazione contestuale e mostriamo come l'equivalenza stabilita ci permetta di arricchirne l'interpretazione. Infine, illustreremo le nostre garanzie teoriche con esperimenti su diversi LLM recenti per evidenziare come essi catturino il comportamento osservato in pratica.
La guida senza classificatore (CFG) è cruciale per migliorare sia la qualità della generazione che l'allineamento tra la condizione di input e l'output finale nei modelli di diffusione. Sebbene una scala di guida elevata sia generalmente necessaria per potenziare questi aspetti, essa provoca anche sovrasaturazione e artefatti irrealistici. In questo articolo, esaminiamo nuovamente la regola di aggiornamento CFG e introduciamo modifiche per affrontare questo problema. Prima decomponiamo il termine di aggiornamento in CFG in componenti parallele e ortogonali rispetto alla previsione del modello condizionale e osserviamo che la componente parallela provoca principalmente sovrasaturazione, mentre la componente ortogonale migliora la qualità dell'immagine. Di conseguenza, proponiamo di ridurre il peso della componente parallela per ottenere generazioni di alta qualità senza sovrasaturazione. Inoltre, stabiliamo un collegamento tra CFG e l'ascesa del gradiente e introduciamo un nuovo metodo di ridimensionamento e momentum per la regola di aggiornamento CFG basato su questa intuizione. Il nostro approccio, chiamato guida proiettata adattiva (APG), conserva i vantaggi di potenziamento della qualità di CFG consentendo l'uso di scale di guida più elevate senza sovrasaturazione. APG è facile da implementare e introduce praticamente nessun overhead computazionale aggiuntivo al processo di campionamento. Attraverso estesi esperimenti, dimostriamo che APG è compatibile con vari modelli di diffusione condizionale e campionatori, portando a un miglioramento dei punteggi FID, di recall e di saturazione mantenendo una precisione paragonabile a CFG, rendendo il nostro metodo un'alternativa superiore plug-and-play alla guida senza classificatore standard.
I grandi modelli linguistici (LLM) vengono sempre più utilizzati per complesse attività di ragionamento che richiedono l'esecuzione di diversi passaggi complessi prima di ricevere alcuna ricompensa. Assegnare correttamente il merito a questi passaggi è essenziale per migliorare le prestazioni del modello. Proximal Policy Optimization (PPO), un algoritmo di apprendimento per rinforzo (RL) all'avanguardia utilizzato per il raffinamento dei LLM, impiega reti di valore per affrontare l'assegnazione del merito. Tuttavia, le reti di valore affrontano sfide nella previsione accurata delle ricompense cumulative attese in complesse attività di ragionamento, portando spesso a aggiornamenti ad alta varianza e prestazioni non ottimali. In questo lavoro, valutiamo sistematicamente l'efficacia delle reti di valore e riveliamo i loro significativi difetti nelle attività di LLM ricche di ragionamento, dimostrando che superano di poco una linea base casuale nel confronto dei passaggi alternativi. Per affrontare questo problema, proponiamo VinePPO, un approccio diretto che sfrutta la flessibilità degli ambienti linguistici per calcolare stime imparziali basate su Monte Carlo, evitando la necessità di grandi reti di valore. Il nostro metodo supera costantemente PPO e altre linee base RL-free sui dataset MATH e GSM8K con meno aggiornamenti del gradiente (fino a 9 volte), meno tempo effettivo (fino a 3,0 volte). Questi risultati sottolineano l'importanza dell'assegnazione accurata del merito nel raffinamento RL dei LLM e dimostrano il potenziale di VinePPO come alternativa superiore.
Gli assistenti vocali, come Siri e Google Assistant, di solito modellano l'audio e il testo separatamente, il che porta alla perdita di informazioni vocali e a un aumento della complessità. Gli sforzi recenti per affrontare questo problema con modelli linguistici di grandi dimensioni (LLM) end-to-end per il linguaggio parlato, addestrati con il raffinamento supervisionato (SFT), hanno portato a modelli che "dimenticano" le capacità dei LLM basati solo sul testo. Il nostro lavoro propone un paradigma alternativo per addestrare LLM per il linguaggio parlato senza dati di istruzione, utilizzando la risposta di un LLM basato solo sul testo alle trascrizioni come auto-supervisione. È importante sottolineare che questo processo può essere eseguito senza risposte annotate. Dimostriamo che il nostro Assistente Vocale Distillato (DiVA) generalizza per la Risposta a Domande Parlate, la Classificazione e la Traduzione. Inoltre, dimostriamo che DiVA soddisfa meglio le preferenze degli utenti, ottenendo un tasso di successo del 72% rispetto a modelli all'avanguardia come Qwen 2 Audio, nonostante utilizzi più di 100 volte meno calcolo di addestramento.
Gli embedding densi dei documenti sono centrali per il recupero neurale. Il paradigma dominante è quello di addestrare e costruire gli embedding eseguendo direttamente gli encoder sui singoli documenti. In questo lavoro, sosteniamo che questi embedding, sebbene efficaci, siano implicitamente fuori contesto per utilizzi mirati di recupero e che un embedding contestualizzato del documento dovrebbe tener conto sia del documento che dei documenti vicini nel contesto - in modo analogo agli embedding contestualizzati delle parole. Proponiamo due metodi complementari per gli embedding contestualizzati dei documenti: in primo luogo, un obiettivo alternativo di apprendimento contrastivo che incorpora esplicitamente i documenti vicini nella perdita contestuale intra-batch; in secondo luogo, una nuova architettura contestualizzata che codifica esplicitamente le informazioni dei documenti vicini nella rappresentazione codificata. I risultati mostrano che entrambi i metodi raggiungono prestazioni migliori rispetto ai biencoder in diversi contesti, con differenze particolarmente pronunciate fuori dominio. Otteniamo risultati all'avanguardia sul benchmark MTEB senza estrazione di negativi difficili, distillazione dei punteggi, istruzioni specifiche del dataset, condivisione di esempi intra-GPU o dimensioni di batch estremamente grandi. Il nostro metodo può essere applicato per migliorare le prestazioni su qualsiasi dataset di apprendimento contrastivo e su qualsiasi biencoder.
Negli ultimi anni, il Pre-training Contrastivo Linguaggio-Immagine (CLIP) è diventato una pietra angolare nell'intelligenza multimodale. Tuttavia, recenti studi hanno identificato che la perdita di informazioni nel processo di codifica CLIP è sostanziale e CLIP tende a catturare solo caratteristiche a grana grossa dall'input. Questa carenza limita significativamente la capacità di un singolo modello CLIP di gestire immagini ricche di dettagli visivi. In questo lavoro, proponiamo una strategia semplice ma efficace, indipendente dal modello, chiamata Diversified Multiplet Upcycling (DMU) per CLIP. DMU ottimizza in modo efficiente una serie di modelli CLIP che catturano spazi delle caratteristiche differenti da un checkpoint CLIP pre-addestrato denso, condividendo parametri tranne per la Rete Feed-Forward (FFN). Questi modelli possono poi essere trasformati in un CLIP-MoE con una capacità di modello maggiore, portando a un miglioramento significativo delle prestazioni con un minimo dispendio computazionale. Per quanto ne sappiamo, Diversified Multiplet Upcycling è il primo approccio a introdurre MoE attivati in modo sparso nei modelli fondamentali di CLIP. Estesi esperimenti dimostrano le prestazioni significative di CLIP-MoE in vari compiti di recupero a zero-shot, classificazione di immagini a zero-shot e benchmark Multimodal Large Language Model (MLLM) downstream fungendo da codificatore di visione. Inoltre, Diversified Multiplet Upcycling consente la conversione di qualsiasi modello CLIP denso in CLIP-MoEs, che possono sostituire CLIP in modo semplice e immediato senza richiedere ulteriori adattamenti nei framework downstream. Attraverso Diversified Multiplet Upcycling, miriamo a fornire preziose intuizioni per la ricerca futura nello sviluppo di sistemi di apprendimento multimodale più efficienti ed efficaci.
Gli ingegneri del software principalmente scrivono codice modificando programmi esistenti. Al contrario, i grandi modelli di linguaggio (LLM) sintetizzano programmi in modo autoregressivo in un'unica passata. Una spiegazione per questo fenomeno è la scarsità di dati di modifica open-source. Mentre i dati di istruzioni di alta qualità per la sintesi del codice sono già rari, i dati di modifica di alta qualità sono ancora più rari. Per colmare questa lacuna, abbiamo sviluppato un algoritmo di generazione di dati sintetici chiamato LintSeq. Questo algoritmo rifattorizza il codice esistente in una sequenza di modifiche al codice utilizzando un linter per campionare proceduralmente le inserzioni prive di errori che possono essere utilizzate per scrivere programmi in sequenza. Esso produce sequenze di modifiche sotto forma di stringhe di testo costituite da diff di programmi consecutivi. Per testare LintSeq, lo utilizziamo per rifattorizzare un dataset di coppie istruzione + programma in tuple istruzione + sequenza di diff del programma. Successivamente, rifattorizziamo e perfezioniamo una serie di LLM più piccoli con parametri compresi tra 2,6 miliardi e 14 miliardi, sia sulla versione rifattorizzata che su quella originale di questo dataset, confrontando le prestazioni "zero-shot" su benchmark di sintesi del codice. Dimostriamo che durante il campionamento ripetuto, i modelli perfezionati con sequenze di modifiche producono programmi più diversificati rispetto ai modelli di base. Ciò si traduce in una migliore scalabilità al momento dell'inferenza per la copertura del benchmark in funzione dei campioni, cioè la frazione di problemi "pass@k" risolti da qualsiasi tentativo dato "k" prove. Ad esempio, su HumanEval pass@50, i LLM più piccoli perfezionati su sequenze di modifiche sintetiche sono competitivi con GPT-4 e superano i modelli perfezionati sul dataset di base del +20% (+/-3%) nel punteggio assoluto. Infine, preaddestriamo anche i nostri piccoli LM per la comprensione del codice. Mostriamo che il perfezionamento di modelli piccoli su modifiche sintetiche al codice porta a una sintesi del codice all'avanguardia per la classe di modelli on-device. Il nostro LM di sequenza di modifiche con 150 milioni di parametri si allinea o supera i modelli di codice con il doppio dei parametri, sia con che senza campionamento ripetuto, inclusi Codex e AlphaCode.
Il Generatore con Recupero Potenziato (RAG) ha dimostrato di migliorare l'accuratezza fattuale dei Grandi Modelli Linguistici (LLM), ma i metodi esistenti spesso soffrono di limitate capacità di ragionamento nell'utilizzare in modo efficace le prove recuperate, in particolare quando si utilizzano LLM open-source. Per mitigare questa lacuna, presentiamo un nuovo framework, Open-RAG, progettato per potenziare le capacità di ragionamento in RAG con LLM open-source. Il nostro framework trasforma un qualsiasi LLM denso in un modello di Mixture of Experts (MoE) efficiente nei parametri in grado di gestire compiti di ragionamento complessi, inclusi sia le query a singolo che a più passaggi. Open-RAG addestra in modo unico il modello a navigare tra distrattori impegnativi che sembrano rilevanti ma sono fuorvianti. Di conseguenza, Open-RAG sfrutta l'apprendimento latente, selezionando dinamicamente esperti rilevanti e integrando conoscenze esterne in modo efficace per risposte più accurate e pertinenti dal punto di vista contestuale. Inoltre, proponiamo un metodo di recupero adattivo ibrido per determinare la necessità di recupero e bilanciare il compromesso tra guadagno di prestazioni e velocità di inferenza. I risultati sperimentali mostrano che Open-RAG basato su Llama2-7B supera i LLM e i modelli RAG all'avanguardia come ChatGPT, Self-RAG e Command R+ in vari compiti intensivi di conoscenza. Rilasciamo il nostro codice e i modelli open-source su https://openragmoe.github.io/
I modelli a lungo contesto (LCM) hanno compiuto progressi notevoli negli ultimi anni, offrendo agli utenti un'enorme comodità nel gestire compiti che coinvolgono un contesto lungo, come la riassunzione di documenti. Poiché la comunità sta sempre più dando priorità alla fedeltà dei risultati generati, garantire semplicemente l'accuratezza delle uscite dei LCM non è sufficiente, poiché è molto difficile per gli esseri umani verificare i risultati provenienti da contesti estremamente lunghi. Tuttavia, sebbene siano stati compiuti sforzi per valutare se i LCM rispondono veramente in base al contesto, questi lavori sono limitati a specifici compiti o dipendono fortemente da risorse di valutazione esterne come GPT-4. In questo lavoro, presentiamo L-CiteEval, un benchmark multi-task completo per la comprensione del lungo contesto con citazioni, mirato a valutare sia la capacità di comprensione che la fedeltà dei LCM. L-CiteEval copre 11 compiti provenienti da domini diversi, con lunghezze di contesto che vanno da 8K a 48K, e fornisce una suite di valutazione completamente automatizzata. Attraverso i test condotti su 11 LCM di ultima generazione sia closed-source che open-source, abbiamo scoperto che sebbene questi modelli mostrino lievi differenze nei risultati generati, i modelli open-source sono significativamente inferiori ai loro omologhi closed-source in termini di accuratezza e recall delle citazioni. Questo suggerisce che i LCM open-source attuali tendono a rispondere in base alla loro conoscenza intrinseca piuttosto che al contesto fornito, rappresentando un rischio significativo per l'esperienza dell'utente nelle applicazioni pratiche. Valutiamo anche l'approccio RAG e osserviamo che RAG può migliorare significativamente la fedeltà dei LCM, sebbene con una leggera diminuzione della qualità della generazione. Inoltre, scopriamo una correlazione tra i meccanismi di attenzione dei LCM e il processo di generazione delle citazioni.
Indaghiamo le rappresentazioni interne dei modelli visione-linguaggio (VLM) per affrontare le allucinazioni, una sfida persistente nonostante i progressi nella dimensione e nell'addestramento dei modelli. Proiettiamo le rappresentazioni interne delle immagini dei VLM sul loro vocabolario linguistico e osserviamo probabilità di output più sicure su oggetti reali rispetto a quelli allucinati. Utilizziamo inoltre queste probabilità di output per localizzare spazialmente gli oggetti reali. Basandoci su questo approccio, introduciamo un algoritmo di cancellazione della conoscenza che rimuove le allucinazioni ortogonalizzando linearmente le caratteristiche dell'immagine rispetto alle caratteristiche degli oggetti allucinati. Dimostriamo che modifiche mirate alle rappresentazioni latenti di un modello possono ridurre le allucinazioni fino al 25,7% nel dataset COCO2014 preservando al contempo le prestazioni. Le nostre scoperte dimostrano come una comprensione più approfondita delle rappresentazioni latenti dei VLM possa migliorare l'affidabilità e consentire nuove capacità, come la segmentazione a zero scatti.
I Grandi Modelli Linguistici (LLM), noti per la loro versatilità nei dati testuali, stanno sempre più venendo esplorati per il loro potenziale nel migliorare la segmentazione delle immagini mediche, un compito cruciale per la diagnostica accurata. Questo studio esplora il potenziamento dei Vision Transformers (ViT) per la segmentazione delle immagini mediche integrando blocchi trasformatore LLM preaddestrati. Il nostro approccio, che incorpora un blocco trasformatore LLM congelato nell'encoder di un modello basato su ViT, porta a miglioramenti sostanziali nelle prestazioni di segmentazione attraverso varie modalità di imaging medico. Proponiamo un Meccanismo di Attenzione Ibrida che combina l'apprendimento delle caratteristiche globali e locali con un Blocco di Fusione Multi-Scala per aggregare le caratteristiche attraverso diverse scale. Il modello potenziato mostra significativi miglioramenti delle prestazioni, inclusa un aumento del punteggio Dice medio da 0,74 a 0,79 e miglioramenti in termini di accuratezza, precisione e Indice di Jaccard. Questi risultati dimostrano l'efficacia dei trasformatori basati su LLM nel perfezionare la segmentazione delle immagini mediche, evidenziando il loro potenziale nel migliorare significativamente l'accuratezza e la robustezza del modello. Il codice sorgente e la nostra implementazione sono disponibili su: https://bit.ly/3zf2CVs
Gli agenti autonomi hanno dimostrato un notevole potenziale nell'automatizzazione di complesse attività decisionali a più fasi. Tuttavia, anche i modelli visione-linguaggio (VLM), come il GPT-4o, ancora non raggiungono le prestazioni di livello umano, specialmente in ambienti web complessi e attività di pianificazione a lungo termine. Per affrontare queste limitazioni, presentiamo il Reflective Monte Carlo Tree Search (R-MCTS), un algoritmo innovativo progettato per potenziare la capacità degli agenti AI, ad esempio quelli basati su GPT-4o, di esplorare lo spazio decisionale in tempo reale. R-MCTS estende il tradizionale MCTS incorporando 1) la riflessione contrastiva, che consente agli agenti di apprendere dalle interazioni passate e migliorare dinamicamente l'efficienza della ricerca; e 2) utilizzando il dibattito multi-agente per fornire una valutazione dello stato affidabile. Inoltre, miglioriamo le prestazioni dell'agente affinando il GPT-4o attraverso l'auto-apprendimento, utilizzando i percorsi dell'albero generati da R-MCTS senza etichette fornite dall'uomo. Sul difficile benchmark VisualWebArena, il nostro agente basato su GPT-4o con R-MCTS raggiunge un miglioramento relativo del 6% al 30% su varie attività rispetto allo stato dell'arte precedente. Inoltre, dimostriamo che la conoscenza acquisita dalla ricerca in tempo reale può essere efficacemente trasferita indietro a GPT-4o tramite l'affinamento. Il GPT-4o affinato corrisponde al 97% delle prestazioni di R-MCTS riducendo l'utilizzo di calcolo di un fattore di quattro al momento del test. Inoltre, i risultati qualitativi rivelano che il modello GPT-4o affinato dimostra la capacità di esplorare l'ambiente, valutare uno stato e tornare a quelli validi quando rileva che lo stato attuale non può portare al successo. Inoltre, il nostro lavoro dimostra le proprietà di scalabilità del calcolo sia durante l'addestramento - raccolta dati con R-MCTS - che al momento del test. Questi risultati suggeriscono una promettente direzione di ricerca per potenziare la ragionamento e le capacità di pianificazione dei VLM per applicazioni agentiche tramite la ricerca in tempo reale e l'auto-apprendimento.
Lavori recenti nel rendering volumetrico, come NeRF e Splatting Gaussiano 3D (3DGS), avanzano significativamente la qualità e l'efficienza del rendering grazie all'uso del campo di radianza neurale implicito appreso o dei Gaussiani 3D. Applicando il rendering su una rappresentazione esplicita, il 3DGS "vanilla" e le sue varianti offrono efficienza in tempo reale ottimizzando il modello parametrico con supervisione single-view per iterazione durante l'addestramento, adottato da NeRF. Di conseguenza, alcune viste sono sovradattate, portando a un'aspetto insoddisfacente nella sintesi di nuove viste e a geometrie 3D imprecise. Per risolvere i problemi sopra citati, proponiamo un nuovo metodo di ottimizzazione 3DGS che incorpora quattro importanti contributi innovativi: 1) Trasformiamo il convenzionale paradigma di addestramento single-view in una strategia di addestramento multi-view. Con la nostra proposta di regolazione multi-view, gli attributi Gaussiani 3D vengono ulteriormente ottimizzati senza sovra-adattare alcune viste di addestramento. Come soluzione generale, miglioriamo la precisione complessiva in una varietà di scenari e diverse varianti Gaussiane. 2) Ispirati dal beneficio introdotto dalle viste aggiuntive, proponiamo inoltre uno schema di guida cross-intrinseca, portando a una procedura di addestramento da grossolano a fine riguardante diverse risoluzioni. 3) Basandoci sul nostro addestramento regolato multi-view, proponiamo ulteriormente una strategia di densificazione dei raggi incrociati, densificando più kernel Gaussiani nelle regioni di intersezione dei raggi da una selezione di viste. 4) Approfondendo ulteriormente la strategia di densificazione, abbiamo scoperto che l'effetto della densificazione dovrebbe essere potenziato quando alcune viste sono distintamente diverse. Come soluzione, proponiamo una nuova strategia di densificazione aumentata multi-view, dove i Gaussiani 3D sono incoraggiati a essere densificati in un numero sufficiente di conseguenza, portando a un'accuratezza di ricostruzione migliorata.
Di recente si è diffuso il sentimento che i moderni grandi modelli multimodali (LMM) abbiano affrontato la maggior parte delle sfide chiave legate alla comprensione dei video brevi. Di conseguenza, sia l'accademia che l'industria stanno gradualmente spostando la loro attenzione verso le sfide più complesse poste dalla comprensione dei video di lunga durata. Tuttavia, è davvero così? I nostri studi indicano che i LMM ancora mancano di molte capacità di ragionamento fondamentali anche quando si tratta di video brevi. Presentiamo Vinoground, un benchmark di valutazione temporale di LMM controfattuali che comprende 1000 coppie di video-brevi e didascalie naturali. Dimostriamo che i LMM esistenti faticano gravemente a distinguere le differenze temporali tra azioni diverse e trasformazioni di oggetti. Ad esempio, il miglior modello GPT-4o ottiene solo ~50% sui nostri punteggi di testo e video, mostrando un ampio divario rispetto alla baseline umana di ~90%. Tutti i modelli multimodali open-source e i modelli basati su CLIP ottengono risultati molto peggiori, producendo principalmente prestazioni casuali. Attraverso questo lavoro, mettiamo in luce il fatto che il ragionamento temporale nei video brevi è ancora un problema da risolvere completamente. Il dataset e il codice di valutazione sono disponibili su https://vinoground.github.io.
Esploriamo l'emergere di comportamenti intelligenti nei sistemi artificiali indagando come la complessità dei sistemi basati su regole influenzi le capacità dei modelli addestrati a prevedere tali regole. Il nostro studio si concentra su automi cellulari elementari (ECA), sistemi unidimensionali semplici ma potenti che generano comportamenti che vanno da banali a altamente complessi. Addestrando diversi Grandi Modelli Linguistici (LLM) su diversi ECA, abbiamo valutato il rapporto tra la complessità del comportamento delle regole e l'intelligenza mostrata dai LLM, come rispecchiato dalle loro prestazioni su compiti successivi. I nostri risultati rivelano che le regole con una maggiore complessità portano a modelli che mostrano maggiore intelligenza, come dimostrato dalle loro prestazioni nel ragionamento e nella previsione delle mosse degli scacchi. Sia i sistemi uniformi che periodici, e spesso anche i sistemi altamente caotici, hanno portato a prestazioni scadenti nei compiti successivi, evidenziando un punto ottimale di complessità favorevole all'intelligenza. Congettura che l'intelligenza derivi dalla capacità di prevedere la complessità e che creare intelligenza possa richiedere solo l'esposizione alla complessità.
Presentiamo Synthio, un nuovo approccio per aumentare i dataset di classificazione audio su piccola scala con dati sintetici. Il nostro obiettivo è migliorare l'accuratezza della classificazione audio con dati annotati limitati. Le tecniche tradizionali di aumento dei dati, che applicano trasformazioni artificiali (ad esempio, aggiungere rumore casuale o mascherare segmenti), faticano a creare dati che catturino la vera diversità presente negli audio del mondo reale. Per affrontare questa limitazione, proponiamo di aumentare il dataset con audio sintetico generato da modelli di diffusione testo-audio (T2A). Tuttavia, sintetizzare aumenti efficaci è impegnativo perché i dati generati non solo dovrebbero essere acusticamente coerenti con il dataset su piccola scala sottostante, ma dovrebbero anche avere una sufficiente diversità compositiva. Per superare il primo ostacolo, allineiamo le generazioni del modello T2A con il dataset su piccola scala utilizzando l'ottimizzazione delle preferenze. Ciò garantisce che le caratteristiche acustiche dei dati generati rimangano coerenti con il dataset su piccola scala. Per affrontare il secondo ostacolo, proponiamo una nuova tecnica di generazione di didascalie che sfrutta le capacità di ragionamento dei Grandi Modelli Linguistici per (1) generare didascalie audio diverse e significative e (2) affinare iterativamente la loro qualità. Le didascalie generate vengono quindi utilizzate per sollecitare il modello T2A allineato. Valutiamo ampiamente Synthio su dieci dataset e quattro impostazioni simulate di dati limitati. I risultati indicano che il nostro metodo supera costantemente tutti i riferimenti del 0,1% al 39% utilizzando un modello T2A addestrato solo su AudioSet debolmente descritto.
Dimostriamo che piccoli modelli linguistici generativi fondamentali preaddestrati con milioni di parametri possono apprendere le regole latenti di un processo dai dati associati al processo. Ispirati alla novella di Stefan Zweig "Schachnovelle," nota anche come "Il gioco reale" in inglese, mostriamo che modelli linguistici fondamentali di piccole dimensioni (SLM) preaddestrati con 28M e 125M di parametri possono essere sottoposti a un raffinamento dell'istruzione con 1.000-1.000.000 di esempi per apprendere le regole degli scacchi, proporre mosse legali e risolvere con precisione problemi degli scacchi. Esploriamo inoltre l'impatto degli epoche successive di raffinamento del modello linguistico sui risultati migliorati e dimostriamo riduzioni nelle allucinazioni del modello aumentando il numero di esempi di raffinamento dell'istruzione.
Il merging di modelli, come il souping di modelli, è la pratica di combinare diversi modelli con la stessa architettura insieme senza ulteriore addestramento. In questo lavoro, presentiamo una metodologia di merging di modelli che affronta la difficoltà di ottimizzare i Grandi Modelli Linguistici (LLM) per compiti specifici in lingue non inglesi, dove i dati specifici del compito spesso non sono disponibili. Ci concentriamo sul ragionamento matematico e, senza dati matematici nella lingua di destinazione, facilitiamo il trasferimento cross-linguistico componendo capacità linguistiche e matematiche. Partendo dallo stesso modello preaddestrato, ottimizziamo separatamente "esperti" su dati di istruzioni matematiche in inglese e su dati di istruzioni generiche nella lingua di destinazione. Sostituiamo quindi direttamente i livelli superiori e inferiori del trasformatore dell'esperto matematico con livelli dell'esperto linguistico, migliorando di conseguenza le prestazioni matematiche nella lingua di destinazione. I modelli combinati risultanti superano gli esperti individuali e altri metodi di merging nel benchmark matematico, MGSM, del 10% in quattro lingue principali in cui i dati di istruzione matematica sono scarsi. Inoltre, questo scambio di livelli è semplice, economico e intuitivo, poiché si basa su un'analisi interpretativa dei cambiamenti più importanti dei parametri durante l'ottimizzazione di ciascun esperto. La capacità di ricomporre con successo i LLM per il trasferimento cross-linguistico in questo modo apre future possibilità per combinare l'esperienza dei modelli, creare soluzioni modulari e trasferire capacità di ragionamento tra lingue in modo post hoc.
I recenti progressi nei Modelli Linguistici Tridimensionali (3DLLM) hanno messo in luce il loro potenziale nella costruzione di agenti ad uso generale nel mondo reale tridimensionale, tuttavia rimangono delle sfide a causa della mancanza di dati robusti di istruzioni di alta qualità, che limitano il potere discriminativo e la generalizzazione dei 3DLLM. In questo articolo, presentiamo Robin3D, un potente 3DLLM addestrato su dati di istruzioni di larga scala generati dal nostro innovativo motore di dati, Robust Instruction Generation (RIG). RIG genera due tipi di dati di istruzioni chiave: 1) i dati di Istruzioni Avversarie, che presentano campioni misti negativi e positivi per potenziare la comprensione discriminativa del modello. 2) i dati di Istruzioni Diverse, che contengono vari stili di istruzioni per potenziare la generalizzazione del modello. Di conseguenza, costruiamo un milione di dati di istruzioni, composti da 344K campioni Avversari, 508K campioni Diversi e 165K campioni dell'insieme di addestramento di riferimento. Per gestire meglio queste istruzioni complesse, Robin3D incorpora inizialmente un Proiettore Potenziato dalle Relazioni per migliorare la comprensione spaziale, e rafforza successivamente la capacità di riferimento e ancoraggio degli oggetti attraverso il Legame di Caratteristiche ID. Robin3D supera costantemente i metodi precedenti su cinque ampiamente utilizzati benchmark di apprendimento multimodale 3D, senza la necessità di un raffinamento fine specifico del compito. In particolare, otteniamo un miglioramento del 7,8\% nel compito di ancoraggio (Multi3DRefer) e un miglioramento del 6,9\% nel compito di descrizione (Scan2Cap).
Il fine-tuning basato su prompt è diventato un metodo essenziale per estrarre informazioni codificate nei modelli linguistici pre-addestrati per una varietà di compiti, inclusa la classificazione del testo. Per i compiti di classificazione multi-classe, il fine-tuning basato su prompt in scenari a bassa risorsa ha portato a livelli di prestazioni paragonabili a quelli dei metodi di fine-tuning completo. Studi precedenti hanno utilizzato modelli di prompt creati e verbalizzatori, mappando lo spazio dei termini di etichetta nello spazio delle classi, per risolvere il problema di classificazione come un compito di modellizzazione del linguaggio mascherato. Tuttavia, il fine-tuning basato su prompt cross-domain e fine-grained con un verbalizzatore arricchito automaticamente rimane inesplorato, principalmente a causa della difficoltà e dei costi di selezionare manualmente i termini di etichetta di dominio per il verbalizzatore, che richiede esperti del settore. Per affrontare questa sfida, presentiamo SciPrompt, un framework progettato per recuperare automaticamente termini correlati al tema scientifico per compiti di classificazione del testo a bassa risorsa. A tal fine, selezioniamo termini di etichetta semanticamente correlati e specifici del dominio nel contesto della letteratura scientifica per l'arricchimento del verbalizzatore. Inoltre, proponiamo una nuova strategia di verbalizzazione che utilizza punteggi di correlazione come pesi aggiuntivi per migliorare le prestazioni di previsione del modello linguistico durante il tuning del modello. Il nostro metodo supera i metodi di fine-tuning basati su prompt all'avanguardia nei compiti di classificazione del testo scientifico in impostazioni a pochi e zero colpi, specialmente nella classificazione di argomenti scientifici finemente dettagliati ed emergenti.