Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo MM1.5, una nuova famiglia di modelli di linguaggio multimodali di grandi dimensioni (MLLMs) progettati per potenziare le capacità nella comprensione delle immagini ricche di testo, nel riferimento e ancoraggio visuale e nel ragionamento multi-immagine. Basandosi sull'architettura MM1, MM1.5 adotta un approccio centrato sui dati per l'addestramento del modello, esplorando sistematicamente l'impatto di diverse combinazioni di dati lungo l'intero ciclo di addestramento del modello. Ciò include dati OCR di alta qualità e didascalie sintetiche per il pre-addestramento continuo, nonché una combinazione ottimizzata di dati per il raffinamento supervisionato delle istruzioni visive. I nostri modelli vanno da 1B a 30B di parametri, includendo varianti dense e di misto di esperti (MoE), e dimostrano che una accurata cura dei dati e strategie di addestramento possono portare a ottime prestazioni anche a piccola scala (1B e 3B). Inoltre, introduciamo due varianti specializzate: MM1.5-Video, progettato per la comprensione dei video, e MM1.5-UI, adattato per la comprensione dell'interfaccia utente mobile. Attraverso ampi studi empirici e ablation, forniamo dettagliate intuizioni sui processi di addestramento e sulle decisioni che hanno guidato i nostri design finali, offrendo preziose indicazioni per la ricerca futura nello sviluppo di MLLM.
La capacità di seguire istruzioni dei grandi modelli linguistici consente agli esseri umani di interagire con agenti di intelligenza artificiale in modo naturale. Tuttavia, quando devono generare risposte di una lunghezza specifica, i grandi modelli linguistici spesso faticano a soddisfare le esigenze degli utenti a causa della loro intrinseca difficoltà nel percepire con precisione vincoli numerici. Per esplorare la capacità dei grandi modelli linguistici di controllare la lunghezza delle risposte generate, proponiamo il Task di Generazione della Lunghezza Obiettivo (TLG) e progettiamo due metriche, Corrispondenza Precisa (PM) e Corrispondenza Flessibile (FM) per valutare le prestazioni del modello nel rispettare le lunghezze di risposta specificate. Inoltre, introduciamo un nuovo approccio modello-agnostico chiamato Ruler, che utilizza i Token di Lunghezza Meta (MLT) per potenziare la capacità dei grandi modelli linguistici di seguire istruzioni vincolate dalla lunghezza. In particolare, Ruler dota i LLM della capacità di generare risposte di una lunghezza specificata basandosi sui vincoli di lunghezza presenti nelle istruzioni. Inoltre, Ruler può generare automaticamente un MLT appropriato quando i vincoli di lunghezza non sono esplicitamente forniti, dimostrando un'eccellente versatilità e generalizzazione. Esperimenti esaustivi mostrano l'efficacia di Ruler su diversi LLMs nel Task di Generazione della Lunghezza Obiettivo, ad esempio, con un guadagno medio del 27,97% su PM e del 29,57% su FM. Inoltre, conduciamo ampi esperimenti di ablation per ulteriormente supportare l'efficacia e la generalizzazione di Ruler. Il nostro codice e i dati sono disponibili su https://github.com/Geaming2002/Ruler.
Presentiamo le iperconnessioni, un metodo semplice ma efficace che può fungere da alternativa alle connessioni residue. Questo approccio affronta specificamente i difetti comuni osservati nelle varianti delle connessioni residue, come l'effetto altalena tra scomparsa del gradiente e collasso della rappresentazione. Teoricamente, le iperconnessioni consentono alla rete di regolare la forza delle connessioni tra le caratteristiche a diverse profondità e di riorganizzare dinamicamente gli strati. Conduciamo esperimenti incentrati sul pre-training di grandi modelli linguistici, inclusi modelli densi e sparsi, dove le iperconnessioni mostrano significativi miglioramenti delle prestazioni rispetto alle connessioni residue. Ulteriori esperimenti condotti su compiti di visione dimostrano anche miglioramenti simili. Prevediamo che questo metodo sarà ampiamente applicabile e vantaggioso in una vasta gamma di problemi di intelligenza artificiale.
La scarsità di dataset di dialogo specifici del dominio in vari settori, dai temi accademici alle conversazioni quotidiane, limita lo sviluppo dei sistemi di dialogo per varie applicazioni. La ricerca esistente è spesso vincolata sia da dataset di dialogo troppo generici sia da dataset di dialogo di nicchia il cui volume non corrisponde al volume richiesto per addestrare i sistemi di dialogo. Per colmare questa lacuna, presentiamo DiaSynth - un framework di generazione di dialoghi sintetici in grado di generare dialoghi di alta qualità, ricchi di contesto, in una vasta gamma di settori. Il nostro approccio si differenzia dai framework esistenti generando dinamicamente dialoghi che incorporano persone simulate, sottotematiche e diverse caratteristiche conversazionali, utilizzando un Grande Modello Linguistico (LLM) con Catena di Pensiero (CoT) per creare dialoghi specifici del dominio, ricchi di contesto, che imitano da vicino le interazioni umane naturali. DiaSynth produce dialoghi personalizzati che emulano conversazioni realistiche. Abbiamo condotto i nostri esperimenti generando dati sintetici utilizzando diversi LLM e alcuni esempi di DialogSum e SAMSum. I modelli linguistici preaddestrati, ottimizzati sui dati sintetici, superano i modelli di base del 16,47%, mentre il confronto tra i modelli ottimizzati sui dati in-domain e i dati sintetici mostra che i dati sintetici sono in grado di catturare il 90,48% della distribuzione dei dati in-domain. La qualità dei dati generati aumenta anche con la dimensione dei LLM. Questi risultati convalidano il potenziale di DiaSynth come robusta alternativa ai tradizionali metodi di raccolta dati.
I meccanismi di attenzione, in particolare l'attenzione softmax, sono stati fondamentali per il successo dei modelli basati su trasformatori come GPT. Tuttavia, la complessità di memoria quadratica dell'attenzione softmax rispetto alla lunghezza della sequenza pone significativi problemi per il trattamento di sequenze più lunghe. Introduciamo Cottention, un nuovo meccanismo di attenzione che sostituisce l'operazione softmax con la similarità cosinica. Sfruttando le proprietà della similarità cosinica e riorganizzando l'equazione di attenzione, Cottention raggiunge una complessità di memoria lineare nativa rispetto alla lunghezza della sequenza, rendendolo intrinsecamente più efficiente dal punto di vista della memoria rispetto all'attenzione softmax. Dimostriamo che Cottention può essere riformulato come una rete neurale ricorrente (RNN) con uno stato nascosto finito, consentendo un utilizzo costante della memoria durante l'inferenza. Valutiamo Cottention sia nei compiti bidirezionali di BERT che nei compiti causali di GPT, dimostrando prestazioni comparabili all'attenzione softmax riducendo significativamente i requisiti di memoria. Per garantire un calcolo efficiente, sviluppiamo un kernel CUDA personalizzato per Cottention. I nostri risultati mostrano che Cottention è una promettente alternativa all'attenzione softmax, consentendo il trattamento di sequenze più lunghe senza sacrificare le prestazioni, grazie alla sua complessità di memoria lineare nativa e alla capacità di mantenere una footprint di memoria costante durante l'inferenza.
Studi precedenti sulla manipolazione robotica si basano su una comprensione limitata dei vincoli di movimento 3D sottostanti e delle affordances. Per affrontare queste sfide, proponiamo un paradigma completo, denominato UniAff, che integra la manipolazione centrata sugli oggetti in 3D e la comprensione del compito in una formulazione unificata. In particolare, abbiamo costruito un dataset etichettato con attributi chiave correlati alla manipolazione, comprendente 900 oggetti articolati di 19 categorie e 600 strumenti di 12 categorie. Inoltre, sfruttiamo MLLM per inferire rappresentazioni centrate sugli oggetti per compiti di manipolazione, inclusi il riconoscimento delle affordances e il ragionamento sui vincoli di movimento 3D. Esperimenti completi sia in simulazione che in ambienti reali indicano che UniAff migliora significativamente la generalizzazione della manipolazione robotica per strumenti e oggetti articolati. Speriamo che UniAff possa fungere da riferimento generale per compiti di manipolazione robotica unificati in futuro. Immagini, video, dataset e codice sono pubblicati sul sito web del progetto all'indirizzo: https://sites.google.com/view/uni-aff/home
Uno dei principali ostacoli per l'allenamento dei modelli robotici generalisti oggi è l'eterogeneità. I metodi di apprendimento dei robot precedenti spesso raccolgono dati per l'allenamento con un'incarnazione specifica per un compito, il che è costoso e soggetto all'overfitting. Questo lavoro studia il problema della rappresentazione delle politiche di apprendimento attraverso il pre-training eterogeneo su dati robotici provenienti da diverse incarnazioni e compiti su larga scala. Proponiamo i Trasformatori Pre-allenati Eterogenei (HPT), che pre-allenano un grande tronco condivisibile di una rete neurale di politiche per apprendere una rappresentazione condivisa agnostica rispetto al compito e all'incarnazione. Questa architettura generale allinea gli input specifici della propriocettività e della visione da diverse incarnazioni a una breve sequenza di token e poi elabora tali token per mapparli per controllare robot per diversi compiti. Sfruttando i recenti dataset robotici del mondo reale multi-incarnazione su larga scala così come la simulazione, i robot implementati e i dataset video umani, investighiamo il pre-training delle politiche attraverso l'eterogeneità. Conduciamo esperimenti per investigare i comportamenti di scaling degli obiettivi di allenamento, fino a un totale di 52 dataset. Gli HPT superano diversi baselines e migliorano le prestazioni delle politiche sintonizzate di oltre il 20% su compiti non visti in diversi benchmark di simulazione e ambienti reali. Consultare il sito del progetto (https://liruiw.github.io/hpt/) per il codice e i video.
Le immagini prodotte dai modelli di diffusione stanno diventando sempre più popolari nell'arte digitale e nel marketing visivo. Tuttavia, tali immagini generate potrebbero replicare contenuti di immagini esistenti e porre la sfida dell'originalità dei contenuti. I modelli esistenti di Rilevamento della Copia delle Immagini (ICD), sebbene precisi nel rilevare repliche realizzate manualmente, trascurano la sfida posta dai modelli di diffusione. Ciò ci motiva a introdurre ICDiff, il primo ICD specializzato per i modelli di diffusione. A tal fine, costruiamo un dataset di Diffusione-Replica (D-Rep) e proponiamo corrispondentemente un nuovo metodo di embedding profondo. D-Rep utilizza un modello di diffusione all'avanguardia (Stable Diffusion V1.5) per generare 40.000 coppie immagine-replica, che vengono annotate manualmente in 6 livelli di replicazione che vanno da 0 (nessuna replicazione) a 5 (replicazione totale). Il nostro metodo, PDF-Embedding, trasforma il livello di replicazione di ciascuna coppia immagine-replica in una funzione di densità di probabilità (PDF) come segnale di supervisione. L'intuizione è che la probabilità dei livelli di replicazione adiacenti dovrebbe essere continua e uniforme. I risultati sperimentali mostrano che PDF-Embedding supera i metodi basati su protocollo e le scelte non-PDF sul set di test D-Rep. Inoltre, utilizzando PDF-Embedding, scopriamo che i rapporti di replicazione dei modelli di diffusione ben noti rispetto a una galleria open-source variano dal 10% al 20%.
Questo articolo presenta Coffee-Gym, un ambiente RL completo per addestrare modelli che forniscono feedback sulla modifica del codice. Coffee-Gym include due componenti principali: (1) Coffee, un dataset contenente tracce di modifica del codice degli umani per domande di codifica e feedback scritto dalla macchina per la modifica del codice errato; (2) CoffeeEval, una funzione di ricompensa che riflette fedelmente l'utilità del feedback valutando le prestazioni del codice modificato nei test di unità. Con essi, Coffee-Gym affronta la mancanza di dataset di alta qualità per addestrare modelli di feedback con RL e fornisce ricompense più accurate rispetto al modello di ricompensa SOTA (cioè, GPT-4). Applicando Coffee-Gym, otteniamo modelli di feedback che superano le baselines nel migliorare la modifica del codice degli LLM di codice open-source, rendendoli comparabili con gli LLM di codice closed-source. Mettiamo a disposizione pubblica il dataset e il checkpoint del modello.
Con l'avanzare dei modelli linguistici di grandi dimensioni (LLM), la loro capacità di mostrare generalizzazione compositiva - la capacità di combinare abilità apprese in modi nuovi non incontrati durante l'addestramento - ha attirato notevole attenzione. Questo tipo di generalizzazione, in particolare in scenari al di fuori dei dati di addestramento, è anche di grande interesse nello studio della sicurezza e dell'allineamento dell'IA. Uno studio recente ha introdotto la valutazione SKILL-MIX, in cui i modelli sono incaricati di comporre un breve paragrafo che dimostri l'uso di una specifica k-tupla di abilità linguistiche. Mentre i modelli più piccoli hanno faticato a comporre anche con k=3, modelli più grandi come il GPT-4 si sono comportati in modo ragionevolmente buono con k=5 e 6. In questo articolo, utilizziamo un setup simile a SKILL-MIX per valutare la capacità dei modelli più piccoli di apprendere la generalizzazione compositiva dagli esempi. Utilizzando un insieme diversificato di abilità linguistiche - tra cui retorica, letteratura, ragionamento, teoria della mente e buon senso - il GPT-4 è stato utilizzato per generare campioni di testo che mostrano sottoinsiemi casuali di k abilità. Il successivo raffinamento dei modelli con parametri 7B e 13B su questi testi di abilità combinate, per valori crescenti di k, ha rivelato i seguenti risultati: (1) L'addestramento su combinazioni di k=2 e 3 abilità porta a miglioramenti significativi nella capacità di comporre testi con k=4 e 5 abilità, nonostante i modelli non abbiano mai visto tali esempi durante l'addestramento. (2) Quando le categorie di abilità sono divise in gruppi di addestramento e di controllo, i modelli migliorano significativamente nella composizione di testi con abilità di controllo durante i test nonostante abbiano visto solo abilità di addestramento durante il raffinamento, illustrando l'efficacia dell'approccio di addestramento anche con abilità precedentemente non viste. Questo studio suggerisce inoltre che l'incorporazione di testi ricchi di abilità (potenzialmente sintetici) nell'addestramento può notevolmente migliorare le capacità compositive dei modelli.
La decomposizione delle domande è emersa come una strategia efficace per sollecitare i Grandi Modelli Linguistici (LLM) a rispondere a domande complesse. Tuttavia, mentre i metodi esistenti si concentrano principalmente sui modelli linguistici unimodali, la capacità di decomposizione delle domande dei Modelli Linguistici Multimodali (MLLM) deve ancora essere esplorata. A questo scopo, questo articolo esplora la decomposizione visuale delle domande sui MLLM. In particolare, introduciamo un quadro di valutazione sistematico che include un insieme di dati e diversi criteri di valutazione per valutare la qualità delle sotto-domande decomposte, rivelando che i MLLM esistenti faticano a produrre sotto-domande di alta qualità. Per affrontare questa limitazione, proponiamo un insieme di dati specifico per il raffinamento, DecoVQA+, per potenziare la capacità di decomposizione delle domande del modello. Con l'obiettivo di consentire ai modelli di eseguire una decomposizione selettiva appropriata, proponiamo un efficiente processo di raffinamento. Il processo di raffinamento consiste nel nostro insieme di dati proposto e in un obiettivo di addestramento per la decomposizione selettiva. I MLLM raffinati dimostrano miglioramenti significativi nella qualità delle sotto-domande e nella politica di decomposizione selettiva delle domande. Inoltre, i modelli raggiungono anche una maggiore precisione con la decomposizione selettiva su insiemi di dati di benchmark VQA.
La tecnica di watermarking audio incorpora messaggi nell'audio ed estrae con precisione i messaggi dall'audio con watermark. I metodi tradizionali sviluppano algoritmi basati sull'esperienza degli esperti per incorporare watermark nel dominio temporale o nel dominio di trasformazione dei segnali. Con lo sviluppo delle reti neurali profonde, è emerso il watermarking audio neurale basato sull'apprendimento profondo. Rispetto agli algoritmi tradizionali, il watermarking audio neurale raggiunge una maggiore robustezza considerando vari attacchi durante l'addestramento. Tuttavia, i metodi attuali di watermarking neurale soffrono di bassa capacità e impercettibilità insoddisfacente. Inoltre, la questione del posizionamento del watermark, estremamente importante e ancora più evidente nel watermarking audio neurale, non è stata studiata in modo adeguato. In questo articolo, progettiamo un modello di watermarking a doppia incorporazione per un posizionamento efficiente. Consideriamo anche l'impatto dello strato di attacco sulla rete neurale invertibile nell'addestramento alla robustezza, migliorando il modello per potenziare sia la sua coerenza che la sua stabilità. Gli esperimenti mostrano che il modello proposto, IDEAW, può resistere a vari attacchi con maggiore capacità e capacità di posizionamento più efficiente rispetto ai metodi esistenti.