Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici di grandi dimensioni con capacità visive (VLMs), come GPT-4o e Gemini 1.5 Pro, stanno alimentando innumerevoli applicazioni che combinano immagini e testo e ottengono punteggi elevati in molti benchmark di comprensione visiva. Tuttavia, abbiamo riscontrato che i VLMs falliscono in 7 compiti visivi che per gli esseri umani sono assurdamente semplici, come identificare (a) se due cerchi si sovrappongono; (b) se due linee si intersecano; (c) quale lettera viene cerchiata in una parola; e (d) contare il numero di cerchi in un logo simile a quello olimpico. La performance sorprendentemente scarsa di quattro VLMs all'avanguardia suggerisce che la loro visione è, nel migliore dei casi, simile a quella di una persona miope che vede i dettagli fini come sfocati, e nel peggiore dei casi, simile a quella di una persona intelligente ma cieca che fa ipotesi basate su deduzioni. Il codice è disponibile all'indirizzo: https://vlmsareblind.github.io/
I dati sintetici stanno diventando sempre più importanti per accelerare lo sviluppo di modelli linguistici, sia di grandi che di piccole dimensioni. Nonostante diversi casi d'uso di successo, i ricercatori hanno sollevato preoccupazioni riguardo al collasso del modello e agli svantaggi dell'imitazione di altri modelli. Questa discrepanza può essere attribuita al fatto che i dati sintetici variano in qualità e diversità. L'uso efficace dei dati sintetici richiede solitamente uno sforzo umano significativo nella cura dei dati. Ci concentriamo sull'uso dei dati sintetici per il post-addestramento, in particolare sulla creazione di dati da parte di modelli potenti per insegnare una nuova abilità o comportamento a un altro modello, definendo questa impostazione come Generative Teaching. Introduciamo AgentInstruct, un framework agentico estensibile per creare automaticamente grandi quantità di dati sintetici diversificati e di alta qualità. AgentInstruct può creare sia i prompt che le risposte, utilizzando solo fonti di dati grezzi come documenti di testo e file di codice come semi. Dimostriamo l'utilità di AgentInstruct creando un dataset di post-addestramento di 25 milioni di coppie per insegnare ai modelli linguistici diverse abilità, come la modifica del testo, la scrittura creativa, l'uso di strumenti, la codifica, la comprensione della lettura, ecc. Il dataset può essere utilizzato per il tuning delle istruzioni di qualsiasi modello di base. Abbiamo eseguito il post-addestramento di Mistral-7b con i dati. Confrontando il modello risultante Orca-3 con Mistral-7b-Instruct (che utilizza lo stesso modello di base), osserviamo miglioramenti significativi su molti benchmark. Ad esempio, un miglioramento del 40% su AGIEval, del 19% su MMLU, del 54% su GSM8K, del 38% su BBH e del 45% su AlpacaEval. Inoltre, supera costantemente altri modelli come LLAMA-8B-instruct e GPT-3.5-turbo.
Il rapido progresso dei modelli linguistici di grandi dimensioni (LLM) ha aperto la strada allo sviluppo di agenti autonomi altamente capaci. Tuttavia, gli attuali framework multi-agente spesso incontrano difficoltà nell'integrare agenti terzi diversificati e competenti a causa della dipendenza da agenti definiti all'interno dei loro ecosistemi. Inoltre, questi framework affrontano sfide nella simulazione di ambienti distribuiti, poiché la maggior parte è limitata a configurazioni su singolo dispositivo. Inoltre, questi framework spesso si basano su pipeline di comunicazione predefinite, limitando la loro adattabilità a requisiti dinamici dei compiti. Ispirati dal concetto di Internet, proponiamo l'Internet of Agents (IoA), un nuovo framework che affronta queste limitazioni fornendo una piattaforma flessibile e scalabile per la collaborazione multi-agente basata su LLM. IoA introduce un protocollo di integrazione degli agenti, un'architettura di progettazione simile alla messaggistica istantanea e meccanismi dinamici per la formazione di team di agenti e il controllo del flusso delle conversazioni. Attraverso esperimenti estesi su compiti di assistenza generale, compiti di AI incarnata e benchmark di generazione aumentata con recupero, dimostriamo che IoA supera costantemente i baseline all'avanguardia, mostrando la sua capacità di facilitare una collaborazione efficace tra agenti eterogenei. IoA rappresenta un passo verso il collegamento di agenti diversificati in un ambiente simile a Internet, dove gli agenti possono collaborare in modo fluido per raggiungere una maggiore intelligenza e capacità. La nostra base di codice è stata rilasciata all'indirizzo https://github.com/OpenBMB/IoA.
Le prestazioni dei Large Vision Language Models (LVLM) dipendono dalla dimensione e dalla qualità dei loro dataset di addestramento. Gli attuali dataset per il tuning delle istruzioni video mancano di diversità, poiché sono generati facendo prompt a grandi modelli linguistici con didascalie video per creare coppie domanda-risposta, risultando quindi prevalentemente descrittivi. Nel frattempo, esistono molti dataset video etichettati con etichette e supervisione diversificate; tuttavia, riscontriamo che la loro integrazione negli LVLM non è banale. Qui presentiamo Video Self-Training with augmented Reasoning (Video-STaR), il primo approccio di auto-addestramento video. Video-STaR consente l'utilizzo di qualsiasi dataset video etichettato per il tuning delle istruzioni video. In Video-STaR, un LVLM alterna tra la generazione di istruzioni e il fine-tuning, dimostrando che (I) migliora la comprensione generale dei video e (II) adatta gli LVLM a nuovi task downstream con la supervisione esistente. Durante la generazione, un LVLM viene sollecitato a proporre una risposta. Le risposte vengono poi filtrate mantenendo solo quelle che contengono le etichette video originali, e il LVLM viene quindi ri-addestrato sul dataset generato. Addestrando solo sulle risposte generate che contengono le corrette etichette video, Video-STaR utilizza queste etichette video esistenti come supervisione debole per il tuning delle istruzioni video. I nostri risultati dimostrano che gli LVLM potenziati da Video-STaR mostrano prestazioni migliorate in (I) QA video generale, dove le prestazioni di TempCompass sono migliorate del 10%, e (II) nei task downstream, dove Video-STaR ha migliorato l'accuratezza di Kinetics700-QA del 20% e la valutazione della qualità delle azioni su FineDiving del 15%.
Presentiamo RodinHD, in grado di generare avatar 3D ad alta fedeltà a partire da un'immagine ritratto. I metodi esistenti non riescono a catturare dettagli intricati come le acconciature, un problema che affrontiamo in questo articolo. Innanzitutto, identifichiamo un problema trascurato di dimenticanza catastrofica che si verifica quando si adattano sequenzialmente i triplane su molti avatar, causato dalla condivisione del decodificatore MLP. Per superare questo problema, proponiamo una nuova strategia di pianificazione dei dati e un termine di regolarizzazione per il consolidamento dei pesi, che migliora la capacità del decodificatore di rendere dettagli più nitidi. Inoltre, ottimizziamo l'effetto guida dell'immagine ritratto calcolando una rappresentazione gerarchica più fine che cattura ricchi indizi di texture 2D, e li iniettiamo nel modello di diffusione 3D su più livelli tramite cross-attention. Addestrato su 46K avatar con una pianificazione del rumore ottimizzata per i triplane, il modello risultante può generare avatar 3D con dettagli notevolmente migliori rispetto ai metodi precedenti e può generalizzare a input ritratto in contesti reali.
L'addestramento di grandi modelli linguistici (LLM) in lingue con risorse limitate come l'ebraico presenta sfide uniche. In questo articolo, presentiamo DictaLM2.0 e DictaLM2.0-Instruct, due LLM derivati dal modello Mistral, addestrati su un corpus sostanziale di circa 200 miliardi di token in ebraico e inglese. L'adattamento di un modello pre-addestrato a una nuova lingua richiede tecniche specializzate che differiscono significativamente dall'addestramento di un modello da zero o dall'ulteriore addestramento di modelli esistenti su lingue ben dotate di risorse come l'inglese. Descriviamo queste nuove metodologie di addestramento, che facilitano un apprendimento efficace e l'adattamento alle proprietà linguistiche dell'ebraico. Inoltre, abbiamo ottimizzato DictaLM2.0-Instruct su un dataset completo di istruzioni per migliorare le sue prestazioni su istruzioni specifiche per i compiti. Per valutare rigorosamente i nostri modelli, introduciamo una nuova suite di benchmark per la valutazione degli LLM in ebraico, che copre un'ampia gamma di compiti tra cui Risposta alle Domande, Analisi del Sentimento, Sfida di Schema Winograd, Traduzione e Riassunto. Il nostro lavoro non solo affronta le complessità dell'addestramento di LLM in lingue con risorse limitate, ma propone anche un framework che può essere sfruttato per adattare altri LLM a varie lingue non inglesi, contribuendo al campo più ampio dell'NLP multilingue.
I video ad alta intensità di movimento e di lunga durata coerente di Sora hanno avuto un impatto significativo nel campo della generazione video, attirando un'attenzione senza precedenti. Tuttavia, i dataset pubblicamente disponibili esistenti sono inadeguati per generare video simili a Sora, poiché contengono principalmente video brevi con bassa intensità di movimento e didascalie concise. Per affrontare questi problemi, proponiamo MiraData, un dataset video di alta qualità che supera i precedenti in termini di durata del video, dettaglio delle didascalie, intensità del movimento e qualità visiva. Curiamo MiraData da fonti diverse e selezionate manualmente, elaborando meticolosamente i dati per ottenere clip semanticamente coerenti. GPT-4V viene utilizzato per annotare didascalie strutturate, fornendo descrizioni dettagliate da quattro diverse prospettive insieme a una didascalia densa riassuntiva. Per valutare meglio la coerenza temporale e l'intensità del movimento nella generazione video, introduciamo MiraBench, che migliora i benchmark esistenti aggiungendo metriche di coerenza 3D e di intensità del movimento basate sul tracciamento. MiraBench include 150 prompt di valutazione e 17 metriche che coprono coerenza temporale, intensità del movimento, coerenza 3D, qualità visiva, allineamento testo-video e somiglianza distributiva. Per dimostrare l'utilità e l'efficacia di MiraData, conduciamo esperimenti utilizzando il nostro modello di generazione video basato su DiT, MiraDiT. I risultati sperimentali su MiraBench dimostrano la superiorità di MiraData, specialmente nell'intensità del movimento.
Presentiamo BM25S, un'implementazione efficiente di BM25 basata su Python che dipende esclusivamente da Numpy e Scipy. BM25S raggiunge un incremento di velocità fino a 500x rispetto al framework Python più popolare, calcolando in anticipo i punteggi BM25 durante l'indicizzazione e memorizzandoli in matrici sparse. Ottiene inoltre notevoli miglioramenti di velocità rispetto alle implementazioni altamente ottimizzate basate su Java, utilizzate da prodotti commerciali di rilievo. Infine, BM25S riproduce l'implementazione esatta di cinque varianti di BM25 basate su Kamphuis et al. (2020) estendendo il calcolo anticipato a varianti non sparse mediante un innovativo metodo di spostamento del punteggio. Il codice è disponibile all'indirizzo https://github.com/xhluca/bm25s.
Quando viene chiesto di riassumere articoli o rispondere a domande basandosi su un passaggio, i grandi modelli linguistici (LLM) possono generare dettagli fittizi e fornire risposte non supportate che sono inesatte rispetto al contesto di input. Questo articolo descrive un approccio semplice per rilevare tali allucinazioni contestuali. Ipotesizziamo che le allucinazioni contestuali siano correlate alla misura in cui un LLM presta attenzione alle informazioni nel contesto fornito rispetto alle proprie generazioni. Basandoci su questa intuizione, proponiamo un semplice modello di rilevamento delle allucinazioni i cui input sono dati dal rapporto dei pesi di attenzione sul contesto rispetto ai nuovi token generati (per ogni testa di attenzione). Troviamo che un classificatore lineare basato su queste caratteristiche del rapporto di retrospettiva è efficace quanto un rilevatore più complesso che utilizza l'intero stato nascosto di un LLM o un modello di implicazione basato su testo. Il rilevatore basato sul rapporto di retrospettiva -- Lookback Lens -- si dimostra trasferibile tra compiti e persino tra modelli, consentendo a un rilevatore addestrato su un modello da 7B di essere applicato (senza riaddestramento) a un modello più grande da 13B. Applichiamo ulteriormente questo rilevatore per mitigare le allucinazioni contestuali e troviamo che un semplice approccio di decodifica guidata da classificatore è in grado di ridurre la quantità di allucinazioni, ad esempio del 9,6% nel compito di riassunto XSum.
Dimostrare teoremi matematici utilizzando linguaggi formali verificabili al computer come Lean ha un impatto significativo sul ragionamento matematico. Un approccio alla dimostrazione formale di teoremi prevede la generazione di prove complete utilizzando Modelli Linguistici di Grande Dimensione (LLMs) basati su dimostrazioni in Linguaggio Naturale (NL). Metodi simili hanno mostrato risultati promettenti nella generazione di codice. Tuttavia, la maggior parte dei moderni LLMs presenta prestazioni subottimali a causa della scarsità di dati allineati tra NL e Linguaggio Formale (FL) per la dimostrazione di teoremi. Questa scarsità si traduce in una carenza di metodologie per l'addestramento degli LLMs e di tecniche per sfruttare appieno le loro capacità nella composizione di dimostrazioni formali. Per affrontare queste sfide, questo articolo propone **TheoremLlama**, un framework end-to-end per addestrare un LLM generico a diventare un esperto di Lean4. Questo framework comprende metodi di generazione di dataset allineati NL-FL, approcci di addestramento per il dimostratore di teoremi formali basato su LLM, e tecniche per la scrittura di dimostrazioni Lean4 con LLM. Utilizzando il metodo di generazione del dataset, forniamo *Open Bootstrapped Theorems* (OBT), un dataset allineato NL-FL e bootstrappato. Un'innovazione chiave in questo framework è il metodo di bootstrapping NL-FL, in cui le dimostrazioni NL vengono integrate nel codice Lean4 per i dataset di addestramento, sfruttando la capacità di ragionamento NL degli LLMs per il ragionamento formale. Il framework **TheoremLlama** raggiunge accuratezze cumulative del 36,48% e 33,61% rispettivamente sui dataset MiniF2F-Valid e Test, superando la baseline di GPT-4 del 22,95% e 25,41%. Abbiamo inoltre reso open-source i checkpoint del nostro modello e il dataset generato, e presto renderemo disponibile tutto il codice pubblicamente.
I modelli pre-addestrati producono rappresentazioni generiche robuste che possono essere adattate tramite fine-tuning. La differenza dei pesi appresi rispetto al modello pre-addestrato, nota come vettore di task, caratterizza la direzione e l'ampiezza del fine-tuning. L'importanza dei vettori di task è tale che semplici operazioni aritmetiche su di essi possono essere utilizzate per combinare rappresentazioni diverse provenienti da domini differenti. Questo articolo si basa su queste proprietà dei vettori di task e mira a rispondere a (1) se le componenti dei vettori di task, in particolare i blocchi di parametri, presentano caratteristiche simili, e (2) come tali blocchi possano essere utilizzati per migliorare la composizione e il trasferimento della conoscenza. A tal fine, introduciamo aTLAS, un algoritmo che combina linearmente blocchi di parametri con coefficienti appresi diversi, ottenendo un ridimensionamento anisotropo a livello di vettore di task. Dimostriamo che tali combinazioni lineari sfruttano esplicitamente la bassa dimensionalità intrinseca dei modelli pre-addestrati, con solo pochi coefficienti come parametri apprendibili. Inoltre, la composizione dei blocchi di parametri sfrutta le rappresentazioni già apprese, riducendo così la dipendenza da grandi quantità di dati. Dimostriamo l'efficacia del nostro metodo nell'aritmetica dei task, nel riconoscimento con pochi esempi e nell'adattamento al momento del test, con obiettivi supervisionati o non supervisionati. In particolare, mostriamo che (1) il ridimensionamento anisotropo appreso consente ai vettori di task di essere più disaccoppiati, causando meno interferenze nella composizione; (2) la composizione dei vettori di task eccelle con dati etichettati scarsi o assenti ed è meno soggetta a cambiamenti di dominio, portando così a una migliore generalizzabilità; (3) la miscelazione dei blocchi di parametri più informativi tra diversi vettori di task prima dell'addestramento può ridurre l'impronta di memoria e migliorare la flessibilità del trasferimento di conoscenza. Inoltre, mostriamo il potenziale di aTLAS come metodo PEFT, specialmente con meno dati, e dimostriamo la sua scalabilità.
Gli esseri umani descrivono scene complesse con composizionalità, utilizzando descrizioni testuali semplici arricchite con collegamenti e relazioni. Sebbene la ricerca visione-linguaggio abbia mirato a sviluppare modelli con capacità di comprensione composizionale, ciò non si riflette ancora nei dataset esistenti che, per la maggior parte, continuano a utilizzare testo semplice per descrivere le immagini. In questo lavoro, proponiamo una nuova strategia di annotazione, la descrizione basata su grafi (Graph-Based Captioning, GBC), che descrive un'immagine utilizzando una struttura a grafo etichettato, con nodi di vari tipi. I nodi in GBC vengono creati, in una prima fase, utilizzando strumenti di rilevamento di oggetti e descrizione densa annidati ricorsivamente per scoprire e descrivere i nodi delle entità, ulteriormente collegati tra loro in una seconda fase evidenziando, utilizzando nuovi tipi di nodi, composizioni e relazioni tra le entità. Poiché tutti i nodi GBC contengono descrizioni testuali semplici, GBC mantiene la flessibilità tipica del linguaggio naturale, ma può anche codificare informazioni gerarchiche nei suoi archi. Dimostriamo che GBC può essere prodotto automaticamente, utilizzando modelli multimodali LLM preesistenti e modelli di rilevamento a vocabolario aperto, costruendo un nuovo dataset, GBC10M, che raccoglie annotazioni GBC per circa 10 milioni di immagini del dataset CC12M. Utilizziamo GBC10M per mostrare la ricchezza delle descrizioni dei nodi rivelate da GBC, misurata con l'addestramento CLIP. Mostriamo che l'utilizzo delle annotazioni dei nodi GBC — in particolare quelle memorizzate nei nodi di composizione e relazione — comporta un significativo miglioramento delle prestazioni nei modelli downstream rispetto ad altri formati di dataset. Per esplorare ulteriormente le opportunità offerte da GBC, proponiamo anche un nuovo meccanismo di attenzione che può sfruttare l'intero grafo GBC, con risultati sperimentali incoraggianti che mostrano i benefici aggiuntivi derivanti dall'incorporazione della struttura a grafo. I nostri dataset sono rilasciati su https://huggingface.co/graph-based-captions.
I modelli di diffusione testo-video esistenti si basano esclusivamente su encoder testuali per il loro pre-addestramento. Questa limitazione deriva dall'assenza di dataset video multimodali su larga scala, risultando in una mancanza di ancoraggio visivo e limitando la loro versatilità e applicazione nell'integrazione multimodale. Per affrontare questo problema, costruiamo un ampio dataset di prompt multimodali utilizzando metodi di recupero per associare esempi contestuali ai prompt testuali forniti, e poi impieghiamo una strategia di addestramento in due fasi per abilitare diverse attività di generazione video all'interno dello stesso modello. Nella prima fase, proponiamo un framework di generazione video condizionale multimodale per il pre-addestramento su questi dataset arricchiti, stabilendo un modello di base per la generazione video ancorata. Nella seconda fase, ottimizziamo il modello della prima fase su tre compiti di generazione video, incorporando istruzioni multimodali. Questo processo affina ulteriormente la capacità del modello di gestire input e compiti diversi, garantendo un'integrazione fluida delle informazioni multimodali. Dopo questo processo di addestramento in due fasi, VIMI dimostra capacità di comprensione multimodale, producendo video contestualmente ricchi e personalizzati ancorati agli input forniti, come mostrato nella Figura 1. Rispetto ai precedenti metodi di generazione video ancorati visivamente, VIMI è in grado di sintetizzare video coerenti e temporalmente fluidi con ampi movimenti, mantenendo il controllo semantico. Infine, VIMI raggiunge anche risultati all'avanguardia nella generazione testo-video sul benchmark UCF101.
I grandi modelli linguistici (LLM) spesso manifestano comportamenti indesiderati, come allucinazioni e ripetizioni di sequenze. Proponiamo di considerare questi comportamenti come ripiegamenti che i modelli mostrano in condizioni di incertezza e di indagare la connessione tra di essi. Classifichiamo i comportamenti di ripiegamento -- ripetizioni di sequenze, testo degenerato e allucinazioni -- e li analizziamo in modo approfondito in modelli della stessa famiglia che differiscono per il numero di token di pre-addestramento, il conteggio dei parametri o l'inclusione di un addestramento al seguimento di istruzioni. I nostri esperimenti rivelano un ordine chiaro e consistente dei comportamenti di ripiegamento, lungo tutti questi assi: più un LLM è avanzato (cioè, addestrato su più token, ha più parametri o è ottimizzato per seguire istruzioni), il suo comportamento di ripiegamento passa dalle ripetizioni di sequenze, al testo degenerato, e poi alle allucinazioni. Inoltre, lo stesso ordine si osserva durante una singola generazione, anche per i modelli con le migliori prestazioni; man mano che l'incertezza aumenta, i modelli passano dal generare allucinazioni al produrre testo degenerato e poi ripetizioni di sequenze. Infine, dimostriamo che mentre tecniche di decodifica comuni, come il campionamento casuale, potrebbero alleviare alcuni comportamenti indesiderati come le ripetizioni di sequenze, aumentano le allucinazioni più difficili da rilevare.
I grandi modelli linguistici (LLM) sono recentemente diventati la principale fonte di risposte alle domande degli utenti online. Nonostante la loro capacità di fornire risposte eloquenti, la loro accuratezza e affidabilità possono rappresentare una sfida significativa. Questo è particolarmente vero per domini sensibili come la biomedicina, dove c'è un maggiore bisogno di risposte fattualmente corrette. Questo articolo introduce un sistema di generazione aumentata da recupero (RAG) biomedico progettato per migliorare l'affidabilità delle risposte generate. Il sistema si basa su un LLM ottimizzato per il question-answering con riferimenti, in cui gli abstract rilevanti recuperati da PubMed vengono passati al contesto dell'LLM come input attraverso un prompt. L'output è una risposta basata sugli abstract di PubMed, in cui ogni affermazione è referenziata di conseguenza, consentendo agli utenti di verificare la risposta. Il nostro sistema di recupero ottiene un miglioramento assoluto del 23% rispetto al motore di ricerca di PubMed. Sulla base di una valutazione manuale su un piccolo campione, il nostro componente LLM ottimizzato raggiunge risultati comparabili a GPT-4 Turbo nel referenziare gli abstract rilevanti. Rendiamo pubblicamente disponibili il dataset utilizzato per ottimizzare i modelli e i modelli ottimizzati basati su Mistral-7B-instruct-v0.1 e v0.2.
I recenti progressi nella modellazione del linguaggio hanno mostrato risultati promettenti quando applicati ai dati di serie temporali. In particolare, il fine-tuning di modelli linguistici pre-addestrati di grandi dimensioni (LLM) per compiti di classificazione di serie temporali ha raggiunto prestazioni all'avanguardia (SOTA) su benchmark standard. Tuttavia, questi modelli basati su LLM presentano uno svantaggio significativo dovuto alle grandi dimensioni del modello, con un numero di parametri addestrabili nell'ordine dei milioni. In questo articolo, proponiamo un approccio alternativo per sfruttare il successo della modellazione del linguaggio nel dominio delle serie temporali. Invece di effettuare il fine-tuning degli LLM, utilizziamo un modello di embedding linguistico per incorporare le serie temporali e poi abbiniamo gli embedding a una semplice testa di classificazione composta da reti neurali convoluzionali (CNN) e perceptron multistrato (MLP). Abbiamo condotto esperimenti estesi su dataset di benchmark consolidati per la classificazione di serie temporali. Abbiamo dimostrato che LETS-C non solo supera l'attuale SOTA in termini di accuratezza di classificazione, ma offre anche una soluzione leggera, utilizzando in media solo il 14,5% dei parametri addestrabili rispetto al modello SOTA. I nostri risultati suggeriscono che sfruttare gli encoder linguistici per incorporare dati di serie temporali, combinati con una testa di classificazione semplice ma efficace, rappresenta una direzione promettente per ottenere una classificazione di serie temporali ad alte prestazioni mantenendo un'architettura di modello leggera.