Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli visione-linguaggio (VLM) si sono distinti nelle attività multimodali, ma adattarli alla presa di decisioni incarnata in ambienti di mondo aperto presenta sfide. Un problema chiave è la difficoltà nel collegare in modo fluido entità individuali nelle osservazioni a basso livello con concetti astratti necessari per la pianificazione. Un approccio comune per affrontare questo problema è attraverso l'uso di agenti gerarchici, dove i VLM fungono da ragionatori di alto livello che suddividono i compiti in sotto-compiti eseguibili, tipicamente specificati utilizzando il linguaggio e osservazioni immaginate. Tuttavia, il linguaggio spesso non riesce a trasmettere efficacemente informazioni spaziali, mentre generare immagini future con sufficiente precisione rimane una sfida. Per affrontare queste limitazioni, proponiamo un prompting di contesto visivo-temporale, un nuovo protocollo di comunicazione tra i VLM e i modelli di politica. Questo protocollo sfrutta la segmentazione degli oggetti dalle osservazioni passate e presenti per guidare le interazioni politica-ambiente. Utilizzando questo approccio, addestriamo ROCKET-1, una politica a basso livello che predice azioni basate su osservazioni visive concatenate e maschere di segmentazione, con il tracciamento degli oggetti in tempo reale fornito da SAM-2. Il nostro metodo sblocca il pieno potenziale delle capacità di ragionamento visivo-linguistico dei VLM, consentendo loro di risolvere compiti creativi complessi, specialmente quelli fortemente dipendenti dalla comprensione spaziale. Gli esperimenti in Minecraft dimostrano che il nostro approccio consente agli agenti di completare compiti precedentemente irraggiungibili, evidenziando l'efficacia del prompting di contesto visivo-temporale nella presa di decisioni incarnata. Codici e dimostrazioni saranno disponibili sulla pagina del progetto: https://craftjarvis.github.io/ROCKET-1.
Il successo dei modelli trasformatore autoregressivi con token discreti ha ispirato approcci basati sulla quantizzazione per modalità continue, sebbene spesso limitino la qualità della ricostruzione. Introduciamo quindi SALAD, un modello di diffusione latente per token per la conversione testo-voce senza supervisione, che opera su rappresentazioni continue. SALAD si basa sul recentemente proposto modulo di diffusione espressivo per la generazione di immagini, estendendolo per generare output di lunghezza variabile. Il nostro approccio utilizza token semantici per fornire informazioni contestuali e determinare la condizione di arresto. Suggeriamo tre varianti continue per il nostro metodo, estendendo tecniche popolari di sintesi vocale discreta. Inoltre, implementiamo basi discrete per ciascuna variante e conduciamo un'analisi comparativa delle tecniche di modellizzazione della voce discrete rispetto a continue. I nostri risultati dimostrano che sia gli approcci continui che quelli discreti sono altamente competenti, e che SALAD raggiunge un punteggio di intelligibilità superiore ottenendo qualità della voce e similarità del parlante in linea con l'audio reale.
L'elettrocardiogramma (ECG) è uno strumento diagnostico non invasivo essenziale per valutare le condizioni cardiache. I metodi esistenti di interpretazione automatica soffrono di limitata generalizzabilità, concentrandosi su una stretta gamma di condizioni cardiache e dipendendo tipicamente da segnali fisiologici grezzi, che potrebbero non essere facilmente disponibili in contesti con risorse limitate dove sono accessibili solo immagini ECG stampate o digitali. I recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLMs) presentano opportunità promettenti per affrontare queste sfide. Tuttavia, l'applicazione dei MLLMs all'interpretazione delle immagini ECG rimane difficile a causa della mancanza di set di dati di sintonizzazione delle istruzioni e benchmark di immagini ECG ben definiti per valutazioni quantitative. Per affrontare queste sfide, presentiamo ECGInstruct, un ampio set di dati di sintonizzazione delle istruzioni per immagini ECG di oltre un milione di campioni, che copre una vasta gamma di compiti correlati all'ECG da diverse fonti di dati. Utilizzando ECGInstruct, sviluppiamo PULSE, un MLLM adattato per la comprensione delle immagini ECG. Inoltre, curiamo ECGBench, un nuovo benchmark di valutazione che copre quattro compiti chiave di interpretazione delle immagini ECG su nove diversi set di dati. I nostri esperimenti mostrano che PULSE stabilisce un nuovo stato dell'arte, superando i MLLMs generali con un miglioramento medio dell'accuratezza del 15% al 30%. Questo lavoro evidenzia il potenziale di PULSE per migliorare l'interpretazione dell'ECG nella pratica clinica.
In questo articolo, presentiamo \textit{FasterCache}, una nuova strategia senza addestramento progettata per accelerare l'inferenza dei modelli di diffusione video con generazione di alta qualità. Analizzando i metodi basati su cache esistenti, osserviamo che il riutilizzo diretto delle caratteristiche dei passaggi adiacenti degrada la qualità del video a causa della perdita di variazioni sottili. Effettuiamo inoltre un'indagine pionieristica sul potenziale di accelerazione della guida senza classificatore (CFG) e riveliamo una significativa ridondanza tra le caratteristiche condizionali e incondizionali nello stesso passaggio temporale. Approfittando di queste osservazioni, introduciamo FasterCache per accelerare in modo sostanziale la generazione di video basata sulla diffusione. Le nostre principali contribuzioni includono una strategia dinamica di riutilizzo delle caratteristiche che preserva sia la distinzione delle caratteristiche che la continuità temporale, e CFG-Cache che ottimizza il riutilizzo delle uscite condizionali e incondizionali per migliorare ulteriormente la velocità di inferenza senza compromettere la qualità del video. Valutiamo empiricamente FasterCache su modelli di diffusione video recenti. I risultati sperimentali mostrano che FasterCache può accelerare significativamente la generazione di video (ad esempio, un aumento di velocità del 1,67 volte su Vchitect-2.0) mantenendo una qualità del video paragonabile al basale, e superando costantemente i metodi esistenti sia nella velocità di inferenza che nella qualità del video.
La capacità di comprendere l'audio - che include il linguaggio parlato, suoni non verbali e musica - è cruciale affinché gli agenti di intelligenza artificiale possano interagire in modo efficace con il mondo. Presentiamo MMAU, un nuovo benchmark progettato per valutare i modelli di comprensione audio multimodale su compiti che richiedono conoscenze di livello esperto e ragionamento complesso. MMAU comprende 10.000 clip audio accuratamente selezionate abbinate a domande e risposte in linguaggio naturale annotate da umani che spaziano dal linguaggio parlato, ai suoni ambientali e alla musica. Include domande sull'estrazione di informazioni e sul ragionamento, che richiedono ai modelli di dimostrare 27 abilità distinte attraverso compiti unici e impegnativi. A differenza dei benchmark esistenti, MMAU enfatizza la percezione avanzata e il ragionamento con conoscenze specifiche del dominio, sfidando i modelli ad affrontare compiti simili a quelli affrontati dagli esperti. Valutiamo 18 modelli audio-linguistici (Large) open-source e proprietari, dimostrando le significative sfide poste da MMAU. In particolare, anche il più avanzato Gemini Pro v1.5 raggiunge solo il 52,97% di accuratezza, e il modello open-source all'avanguardia Qwen2-Audio raggiunge solo il 52,50%, evidenziando un ampio margine di miglioramento. Crediamo che MMAU spingerà la comunità della ricerca audio e multimodale a sviluppare modelli di comprensione audio più avanzati capaci di risolvere compiti audio complessi.
I modelli Vision-Language (VLMs) hanno recentemente fatto progressi significativi, ma la limitata scala e qualità dei dati di istruzioni open-source ostacolano le loro prestazioni rispetto ai modelli closed-source. In questo lavoro, affrontiamo questa limitazione introducendo Infinity-MM, un dataset di istruzioni multimodale su larga scala con 40 milioni di campioni, potenziato attraverso un rigoroso filtraggio della qualità e deduplicazione. Proponiamo inoltre un metodo di generazione di istruzioni sintetiche basato su VLMs open-source, utilizzando dettagliate annotazioni delle immagini e diversa generazione di domande. Utilizzando questi dati, abbiamo addestrato un VLM con 2 miliardi di parametri, Aquila-VL-2B, raggiungendo prestazioni all'avanguardia per modelli di dimensioni simili. Ciò dimostra che l'espansione dei dati di istruzioni e la generazione di dati sintetici possono migliorare significativamente le prestazioni dei modelli open-source.
La proliferazione dei grandi modelli linguistici (LLM) ha portato all'adozione di architetture Mixture-of-Experts (MoE) che sfruttano dinamicamente sotto-reti specializzate per migliorare l'efficienza e le prestazioni. Nonostante i loro vantaggi, i modelli MoE affrontano significativi problemi durante l'inferenza, inclusa una gestione inefficiente della memoria e un batching non ottimale, a causa di scelte progettuali non allineate tra l'architettura del modello e le politiche di sistema. Inoltre, l'approccio convenzionale di addestrare i MoE da zero è sempre più proibitivo in termini di costi. In questo articolo, proponiamo un nuovo framework denominato Read-ME che trasforma i densi LLM pre-addestrati in modelli MoE più piccoli (in contrasto con l'"upcycling" dei MoE generalisti), evitando i costi elevati dell'addestramento da zero. Il nostro approccio utilizza la sparsetà di attivazione per estrarre gli esperti. Per comporre gli esperti, esaminiamo il design del router a livello di layer ampiamente adottato e ne mostriamo la ridondanza, introducendo quindi il router di pre-gating scollegato dalla struttura di base del MoE che facilita il pre-calcolo e la pianificazione anticipata amichevoli per il sistema, migliorando il batching e la memorizzazione nella cache consapevoli degli esperti. La nostra progettazione congiunta affronta quindi lacune critiche sia sul fronte algoritmico che su quello sistemico, stabilendo un'alternativa scalabile ed efficiente per l'inferenza LLM in contesti con risorse limitate. Read-ME supera altri modelli densi open-source popolari delle stesse dimensioni, ottenendo miglioramenti fino al 10,1% su MMLU e riducendo la latenza media end-to-end fino al 6,1%. I codici sono disponibili su: https://github.com/VITA-Group/READ-ME.
I benchmark di NLP si basano su set di dati standardizzati per addestrare e valutare modelli, e sono cruciali per far progredire il campo. Tradizionalmente, le annotazioni degli esperti garantiscono etichette di alta qualità; tuttavia, il costo delle annotazioni degli esperti non scala bene con la crescente domanda di set di dati più grandi richiesti dai modelli moderni. Sebbene il crowd-sourcing fornisca una soluzione più scalabile, spesso avviene a spese della precisione e della coerenza delle annotazioni. Gli avanzamenti recenti nei grandi modelli linguistici (LLM) offrono nuove opportunità per potenziare il processo di annotazione, in particolare per rilevare errori di etichettatura nei set di dati esistenti. In questo lavoro, consideriamo l'approccio recente di LLM-come-giudice, sfruttando un insieme di LLM per individuare potenzialmente esempi mal etichettati. Attraverso uno studio di caso di quattro set di dati del benchmark TRUE, che coprono diverse attività e domini, analizziamo empiricamente la qualità dell'etichettatura dei set di dati esistenti e confrontiamo le annotazioni degli esperti, del crowd-sourcing e basate sui nostri LLM in termini di accordo, qualità dell'etichetta ed efficienza, dimostrando i punti di forza e le limitazioni di ciascun metodo di annotazione. Le nostre conclusioni rivelano un numero sostanziale di errori di etichettatura, che, una volta corretti, provocano un significativo miglioramento delle prestazioni del modello riportate. Ciò suggerisce che molti degli errori così detti dei LLM sono dovuti a errori di etichettatura piuttosto che a veri fallimenti del modello. Inoltre, discutiamo le implicazioni dei dati mal etichettati e proponiamo metodi per mitigarli nell'addestramento al fine di migliorare le prestazioni del modello.
I Transformers, la spina dorsale dei moderni grandi modelli linguistici (LLM), affrontano limitazioni architettoniche innate che ostacolano le loro capacità di ragionamento. A differenza delle reti ricorrenti, i Transformers mancano di connessioni ricorrenti, che li confinano a una computazione a profondità costante. Questa restrizione li colloca nella classe di complessità TC^0, rendendoli teoricamente incapaci di risolvere compiti che richiedono un ragionamento sempre più profondo all'aumentare della lunghezza dell'input. Il conteggio, un componente fondamentale di molti compiti di ragionamento, richiede anche che la profondità del ragionamento cresca linearmente per essere eseguito induttivamente. Sebbene studi precedenti abbiano stabilito i limiti superiori della capacità di conteggio nei modelli esperti basati su Transformer (ossia modelli specificamente addestrati per compiti di conteggio), questi risultati non si estendono direttamente ai LLM di uso generale a causa delle differenze nei meccanismi di ragionamento. Lavori recenti hanno evidenziato come il ragionamento a Catena di Pensiero (CoT) possa contribuire ad alleviare alcune delle limitazioni architettoniche dei Transformers nei compiti di conteggio. Tuttavia, poco attenzione è stata dedicata al ruolo della tokenizzazione in questi modelli. A differenza dei modelli esperti che spesso utilizzano la tokenizzazione a livello di carattere, i LLM si affidano tipicamente a tokenizzatori a livello di byte (BPE), che modificano fondamentalmente il modo in cui il ragionamento viene elaborato. Il nostro lavoro indaga l'impatto della tokenizzazione sulle capacità di conteggio dei LLM, scoprendo consistenti variazioni delle prestazioni basate sulle differenze nella tokenizzazione dell'input. Forniamo analisi sia teoriche che sperimentali, offrendo approfondimenti su come le scelte di tokenizzazione possano compromettere la computabilità teorica dei modelli, ispirando così la progettazione di nuovi metodi di tokenizzazione per potenziare il ragionamento nei LLM.
L'apprendimento dal feedback umano ha permesso l'allineamento dei modelli linguistici (LM) con le preferenze umane. Tuttavia, raccogliere direttamente le preferenze umane può essere costoso, richiedere molto tempo e avere una grande varianza. Un'alternativa interessante è estrarre le preferenze dai LM come fonte di annotazioni sintetiche in quanto sono più coerenti, economiche e scalabili rispetto all'annotazione umana; tuttavia, sono anche soggette a pregiudizi ed errori. In questo lavoro, presentiamo un framework di routing che combina input da umani e LM per ottenere una migliore qualità dell'annotazione, riducendo al contempo il costo totale dell'annotazione umana. Il nocciolo del nostro approccio è identificare le istanze di preferenza che trarranno beneficio dalle annotazioni umane. Formuliamo questo problema come un problema di ottimizzazione: dato un dataset di preferenze e una metrica di valutazione, addestriamo un modello di previsione delle prestazioni per prevedere le prestazioni di un modello di ricompensa su una combinazione arbitraria di annotazioni umane e LM e utilizziamo una strategia di routing che seleziona una combinazione che massimizza le prestazioni previste. Addestriamo il modello di previsione delle prestazioni su MultiPref, un nuovo dataset di preferenze con 10K istanze abbinate a etichette umane e LM. Mostreremo che la miscela ibrida selezionata di preferenze LM e umane dirette utilizzando il nostro framework di routing ottiene una migliore performance del modello di ricompensa rispetto all'uso esclusivo di uno dei due. Simuliamo la raccolta selettiva di preferenze umane su altri tre dataset e mostriamo che il nostro metodo generalizza bene a tutti e tre. Analizziamo le caratteristiche del modello di routing per identificare le caratteristiche delle istanze che possono beneficiare del feedback umano, ad esempio, prompt con una moderata preoccupazione per la sicurezza o una moderata complessità di intento. Rilasciamo il dataset, la piattaforma di annotazione e il codice sorgente utilizzati in questo studio per favorire una raccolta di preferenze più efficiente e accurata in futuro.
Studi recenti hanno identificato un fattore aggravante delle allucinazioni di LLM come l'incoerenza della conoscenza tra la preformazione e il raffinamento, dove dati di raffinamento sconosciuti inducono il LLM a creare output plausibili ma errati. In questo articolo, proponiamo una nuova strategia di raffinamento chiamata Prereq-Tune per affrontare questa incoerenza della conoscenza e ridurre le allucinazioni. Fondamentalmente, Prereq-Tune separa l'apprendimento delle abilità e della conoscenza, in modo che il modello impari solo le abilità del compito senza essere influenzato dall'incoerenza della conoscenza. Per raggiungere questo obiettivo, Prereq-Tune introduce una fase di apprendimento preliminare aggiuntiva per acquisire la conoscenza necessaria per SFT, consentendo al successivo SFT di concentrarsi solo sulle abilità del compito. Prereq-Tune può anche essere combinato con dati sintetici fittizi per potenziare il radicamento degli output di LLM alla loro conoscenza interna. Gli esperimenti mostrano che Prereq-Tune supera i baselines esistenti nel migliorare la factualità di LLM attraverso compiti di domande e risposte brevi e generazione di testi di lunghezza maggiore. Apre inoltre nuove possibilità per la generazione controllata dalla conoscenza in LLM. Il nostro codice è disponibile su https://github.com/UCSB-NLP-Chang/Prereq_tune.git.
I grandi modelli linguistici (LLM) possono memorizzare una quantità significativa di conoscenze fattuali nei loro parametri. Tuttavia, le conoscenze parametriche possono entrare in conflitto con le informazioni fornite nel contesto. Tali conflitti possono portare a comportamenti indesiderati del modello, come il ricorso a informazioni obsolete o errate. In questo lavoro, indaghiamo se i LLM possono identificare i conflitti di conoscenza e se è possibile sapere da quale fonte di conoscenza il modello si affiderà analizzando il flusso residuo del LLM. Attraverso compiti di esplorazione, scopriamo che i LLM possono registrare internamente il segnale di conflitto di conoscenza nel flusso residuo, che può essere rilevato con precisione esaminando le attivazioni del modello intermedio. Ciò ci consente di individuare i conflitti all'interno del flusso residuo prima di generare le risposte senza modificare l'input o i parametri del modello. Inoltre, scopriamo che il flusso residuo mostra modelli significativamente diversi quando il modello si affida a conoscenze contestuali rispetto a conoscenze parametriche per risolvere i conflitti. Questo modello può essere impiegato per stimare il comportamento dei LLM quando si verificano conflitti e prevenire risposte inaspettate prima di produrre le risposte. La nostra analisi offre spunti su come i LLM gestiscono internamente i conflitti di conoscenza e fornisce una base per lo sviluppo di metodi per controllare i processi di selezione delle conoscenze.
I video dei robot che interagiscono con gli oggetti codificano informazioni dettagliate sulla dinamica degli oggetti. Tuttavia, gli approcci esistenti alla previsione video di solito non considerano esplicitamente le informazioni tridimensionali dai video, come le azioni del robot e gli stati tridimensionali degli oggetti, limitando il loro utilizzo nelle applicazioni robotiche del mondo reale. In questo lavoro, presentiamo un framework per apprendere la dinamica degli oggetti direttamente da video RGB multi-vista considerando esplicitamente le traiettorie di azione del robot e i loro effetti sulla dinamica della scena. Utilizziamo la rappresentazione gaussiana tridimensionale del Splatting Gaussiano tridimensionale (3DGS) per addestrare un modello di dinamica basato su particelle utilizzando Reti Neurali Grafiche. Questo modello opera su particelle di controllo sparse campionate dalle ricostruzioni gaussiane tridimensionali tracciate in modo denso. Apprendendo il modello di dinamica neurale su dati offline di interazione del robot, il nostro metodo può prevedere i movimenti degli oggetti in diverse configurazioni iniziali e azioni del robot non viste. Le trasformazioni tridimensionali delle gaussiane possono essere interpolate dai movimenti delle particelle di controllo, consentendo la generazione delle previsioni degli stati futuri degli oggetti e raggiungendo la previsione video condizionata all'azione. Il modello di dinamica può anche essere applicato a framework di pianificazione basati su modelli per compiti di manipolazione degli oggetti. Conduciamo esperimenti su vari tipi di materiali deformabili, tra cui corde, vestiti e peluche, dimostrando la capacità del nostro framework di modellare forme complesse e dinamiche. La pagina del nostro progetto è disponibile su https://gs-dynamics.github.io.
La capacità di adattare credenze o comportamenti in risposta a esiti inaspettati, la riflessione, è fondamentale per l'interazione dei sistemi intelligenti con il mondo. Da una prospettiva delle scienze cognitive, ciò rappresenta un principio fondamentale dell'intelligenza applicabile sia ai sistemi umani che a quelli di intelligenza artificiale (IA). Per affrontare il dibattito sull'intelligenza dei grandi modelli linguistici (LLM), proponiamo Reflection-Bench, un benchmark completo che comprende 7 compiti che spaziano dalle funzioni cognitive di base cruciali per la riflessione, tra cui percezione, memoria, aggiornamento delle credenze, presa di decisioni, previsione, pensiero controfattuale e meta-riflessione. Valutiamo le performance di 13 prominenti LLM come OpenAI o1, GPT-4, Claude 3.5 Sonnet, ecc. I risultati indicano che gli attuali LLM mancano ancora di capacità di riflessione soddisfacenti. Discutiamo le cause sottostanti di questi risultati e suggeriamo possibili percorsi per futuri studi. In conclusione, Reflection-Bench offre strumenti di valutazione e ispirazione per lo sviluppo di IA in grado di interagire in modo affidabile con l'ambiente. I nostri dati e codici sono disponibili su https://github.com/YabYum/ReflectionBench.
La valutazione del bias delle fonti di notizie è fondamentale per professionisti, organizzazioni e ricercatori che si affidano a prove veritiere per la raccolta e la segnalazione di informazioni. Mentre alcuni indicatori di bias sono individuabili dall'analisi dei contenuti, descrizioni come bias politico e fake news pongono sfide maggiori. In questo articolo, proponiamo un'estensione di un metodo di stima dell'affidabilità dei media recentemente presentato che si concentra sulla modellazione delle fonti e sulle loro interazioni web longitudinali. Concretamente, valutiamo le prestazioni di classificazione di quattro strategie di apprendimento per rinforzo su un ampio grafo di hyperlink dei media. I nostri esperimenti, mirati a due complessi indicatori di bias, la segnalazione fattuale e il bias politico, hanno mostrato un significativo miglioramento delle prestazioni a livello di fonte mediatica. Inoltre, convalidiamo i nostri metodi sulla sfida CLEF 2023 CheckThat! Lab, superando i risultati riportati sia nel punteggio F1 che nella metrica MAE ufficiale. Inoltre, contribuiamo rilasciando il più grande dataset annotato di fonti mediatiche, categorizzato con etichette di segnalazione fattuale e bias politico. Le nostre conclusioni suggeriscono che il profilare le fonti mediatiche in base alle loro interazioni di hyperlink nel tempo è fattibile, offrendo una visione d'insieme in evoluzione dei paesaggi mediatici.
Il preaddestramento non supervisionato ha avuto un impatto trasformativo in molti ambiti supervisionati. Tuttavia, applicare tali concetti al reinforcement learning (RL) presenta una sfida unica in quanto il fine-tuning non comporta la mimica di dati specifici del compito, ma piuttosto l'esplorazione e la individuazione della soluzione attraverso un auto-miglioramento iterativo. In questo lavoro, studiamo come i dati di traiettoria precedenti non etichettati possano essere sfruttati per apprendere strategie di esplorazione efficienti. Mentre i dati precedenti possono essere utilizzati per preaddestrare un insieme di abilità a basso livello, o come dati off-policy aggiuntivi per il RL online, non è stato chiaro come combinare efficacemente queste idee per l'esplorazione online. Il nostro metodo SUPE (Skills from Unlabeled Prior data for Exploration) dimostra che una combinazione attenta di queste idee compone i loro benefici. Il nostro metodo estrae prima abilità a basso livello utilizzando un variational autoencoder (VAE), e poi pseudo-etichetta le traiettorie non etichettate utilizzando un modello di ricompensa ottimista, trasformando i dati precedenti in esempi di alto livello rilevanti per il compito. Infine, SUPE utilizza questi esempi trasformati come dati off-policy aggiuntivi per il RL online per apprendere una politica di alto livello che compone abilità a basso livello preaddestrate per esplorare in modo efficiente. Dimostriamo empiricamente che SUPE supera in modo affidabile le strategie precedenti, risolvendo con successo una serie di compiti a lungo termine e a ricompensa scarsa. Codice: https://github.com/rail-berkeley/supe.