Articoli di ricerca IA selezionati quotidianamente con traduzioni
Proponiamo Adam-mini, un ottimizzatore che raggiunge prestazioni pari o superiori a AdamW con un'impronta di memoria ridotta del 45% al 50%. Adam-mini riduce la memoria diminuendo le risorse dedicate al tasso di apprendimento in Adam (ovvero, 1/v). Abbiamo scoperto che ≥90% di questi tassi di apprendimento in v può essere rimosso senza conseguenze negative se (1) partizioniamo attentamente i parametri in blocchi seguendo il nostro principio proposto sulla struttura dell'Hessiano; (2) assegniamo un singolo ma efficace tasso di apprendimento a ciascun blocco di parametri. Abbiamo inoltre osservato che, per ciascuno di questi blocchi di parametri, esiste un singolo tasso di apprendimento di alta qualità che può superare Adam, a condizione che siano disponibili risorse sufficienti per individuarlo. Forniamo quindi un metodo economicamente vantaggioso per trovare buoni tassi di apprendimento e proponiamo Adam-mini. Empiricamente, abbiamo verificato che Adam-mini performa almeno quanto o meglio di AdamW su vari modelli linguistici con dimensioni che vanno da 125M a 7B per pre-addestramento, fine-tuning supervisionato e RLHF. La ridotta impronta di memoria di Adam-mini allevia anche i sovraccarichi di comunicazione tra GPU e CPU, aumentando così il throughput. Ad esempio, Adam-mini raggiunge un throughput del 49,6% superiore rispetto a AdamW durante il pre-addestramento di Llama2-7B su 2× GPU A800-80GB, risparmiando il 33% del tempo di clock per il pre-addestramento.
Gli agenti AI stanno diventando sempre più significativi in vari domini, consentendo processi decisionali autonomi e risoluzione di problemi. Per funzionare in modo efficace, questi agenti richiedono un processo di pianificazione che determina il miglior corso d'azione e poi esegue le azioni pianificate. In questo articolo, presentiamo un framework efficiente Planner-Action su dispositivo che separa la pianificazione e l'esecuzione delle azioni in due componenti distinti: un agente pianificatore basato su Phi-3 Mini, un LLM da 3,8 miliardi di parametri ottimizzato per dispositivi edge, e un agente d'azione che utilizza il modello Octopus per l'esecuzione di funzioni. L'agente pianificatore risponde inizialmente alle query dell'utente scomponendo i compiti in una sequenza di sotto-passi, che vengono poi eseguiti dall'agente d'azione. Per ottimizzare le prestazioni su dispositivi con risorse limitate, utilizziamo il fine-tuning del modello invece dell'apprendimento in-context, riducendo i costi computazionali e il consumo energetico mentre miglioriamo i tempi di risposta. Il nostro approccio prevede l'uso di GPT-4 per generare query e risposte di pianificazione diversificate basate sulle funzioni disponibili, con successive validazioni per garantire la qualità dei dati. Abbiamo eseguito il fine-tuning del modello Phi-3 Mini su questo dataset curato, raggiungendo un tasso di successo del 97% nel nostro ambiente di test in dominio. Per affrontare le sfide della pianificazione multi-dominio, abbiamo sviluppato un metodo di addestramento multi-LoRA che unisce i pesi da LoRA addestrati su sottoinsiemi distinti di funzioni. Questo approccio consente una gestione flessibile di query complesse e multi-dominio mantenendo l'efficienza computazionale su dispositivi con risorse limitate. Per supportare ulteriori ricerche, abbiamo reso open-source i pesi del nostro modello all'indirizzo https://huggingface.co/NexaAIDev/octopus-planning. Per la demo, si prega di consultare https://www.nexa4ai.com/octo-planner.
La comprensione dei grafici svolge un ruolo cruciale nell'applicazione dei Modelli Linguistici Multimodali di Grande Scala (MLLMs) a compiti reali come l'analisi di articoli scientifici o rapporti finanziari. Tuttavia, i dataset esistenti si concentrano spesso su grafici eccessivamente semplificati e omogenei con domande basate su modelli, portando a una misurazione eccessivamente ottimistica dei progressi. Dimostriamo che, sebbene i modelli open-source possano sembrare superare i forti modelli proprietari su questi benchmark, un semplice stress test con grafici o domande leggermente diversi può deteriorare le prestazioni fino al 34,5%. In questo lavoro, proponiamo CharXiv, una suite di valutazione completa che coinvolge 2.323 grafici naturali, impegnativi e diversificati tratti da articoli di arXiv. CharXiv include due tipi di domande: 1) domande descrittive sull'esame degli elementi di base del grafico e 2) domande di ragionamento che richiedono la sintesi di informazioni attraverso elementi visivi complessi nel grafico. Per garantire la qualità, tutti i grafici e le domande sono selezionati, curati e verificati manualmente da esperti umani. I nostri risultati rivelano un divario sostanziale e precedentemente sottostimato tra le capacità di ragionamento del più forte modello proprietario (cioè GPT-4o), che raggiunge un'accuratezza del 47,1%, e il più forte modello open-source (cioè InternVL Chat V1.5), che raggiunge il 29,2%. Tutti i modelli sono molto al di sotto delle prestazioni umane dell'80,5%, evidenziando le debolezze nelle capacità di comprensione dei grafici degli attuali MLLMs. Speriamo che CharXiv faciliti la ricerca futura sulla comprensione dei grafici da parte degli MLLMs fornendo una misurazione più realistica e fedele dei progressi. Pagina del progetto e classifica: https://charxiv.github.io/
Proponiamo un nuovo benchmark per la generazione testo-video (T2V), ChronoMagic-Bench, per valutare le capacità temporali e metamorfiche dei modelli T2V (ad esempio Sora e Lumiere) nella generazione di video time-lapse. A differenza dei benchmark esistenti che si concentrano sulla qualità visiva e sulla pertinenza testuale dei video generati, ChronoMagic-Bench si focalizza sulla capacità del modello di generare video time-lapse con un'ampiezza metamorfica significativa e coerenza temporale. Il benchmark mette alla prova i modelli T2V sulle loro capacità in fisica, biologia e chimica, attraverso query testuali libere. A tal fine, ChronoMagic-Bench introduce 1.649 prompt e video del mondo reale come riferimenti, categorizzati in quattro principali tipologie di video time-lapse: fenomeni biologici, creati dall'uomo, meteorologici e fisici, ulteriormente suddivisi in 75 sottocategorie. Questa categorizzazione valuta in modo completo la capacità del modello di gestire trasformazioni diverse e complesse. Per allineare accuratamente le preferenze umane con il benchmark, introduciamo due nuove metriche automatiche, MTScore e CHScore, per valutare gli attributi metamorfici e la coerenza temporale dei video. MTScore misura l'ampiezza metamorfica, riflettendo il grado di cambiamento nel tempo, mentre CHScore valuta la coerenza temporale, assicurando che i video generati mantengano una progressione logica e continuità. Basandoci su ChronoMagic-Bench, conduciamo valutazioni manuali complete di dieci modelli T2V rappresentativi, rivelando i loro punti di forza e debolezza attraverso diverse categorie di prompt, e fornendo un quadro di valutazione approfondito che affronta le attuali lacune nella ricerca sulla generazione video. Inoltre, creiamo un dataset su larga scala, ChronoMagic-Pro, contenente 460k coppie di video time-lapse in 720p e didascalie dettagliate che garantiscono alta pertinenza fisica e ampia ampiezza metamorfica.
Il modello Mixture-of-Experts (MoE) sta attirando crescente attenzione grazie alle sue proprietà uniche e alle prestazioni notevoli, specialmente per i compiti linguistici. Attivando in modo sparso un sottoinsieme di parametri per ogni token, l'architettura MoE può aumentare le dimensioni del modello senza sacrificare l'efficienza computazionale, raggiungendo un migliore compromesso tra prestazioni e costi di addestramento. Tuttavia, il meccanismo sottostante del MoE richiede ancora ulteriori esplorazioni, e il suo grado di modularità rimane discutibile. In questo articolo, facciamo un primo tentativo per comprendere il funzionamento interno dei modelli linguistici di grandi dimensioni basati su MoE. Nello specifico, studiamo in modo approfondito le caratteristiche parametriche e comportamentali di tre recenti modelli basati su MoE e riveliamo alcune osservazioni intriganti, tra cui: (1) I neuroni agiscono come esperti a grana fine. (2) Il router del MoE seleziona solitamente esperti con norme di output più grandi. (3) La diversità degli esperti aumenta con l'aumentare dello strato, mentre l'ultimo strato rappresenta un'eccezione. Sulla base di queste osservazioni, forniamo anche suggerimenti per una vasta gamma di praticanti del MoE, come la progettazione del router e l'allocazione degli esperti. Speriamo che questo lavoro possa illuminare future ricerche sul framework MoE e su altre architetture modulari. Il codice è disponibile all'indirizzo https://github.com/kamanphoebe/Look-into-MoEs.
I Registri Elettronici Sanitari (EHR) sono fondamentali per l'archiviazione completa delle cartelle cliniche dei pazienti, combinando dati strutturati (ad esempio, farmaci) con note cliniche dettagliate (ad esempio, annotazioni dei medici). Questi elementi sono essenziali per un recupero diretto dei dati e forniscono approfondimenti contestuali sulla cura del paziente. Tuttavia, spesso presentano discrepanze dovute a design non intuitivi dei sistemi EHR e a errori umani, rappresentando seri rischi per la sicurezza dei pazienti. Per affrontare questo problema, abbiamo sviluppato EHRCon, un nuovo dataset e task specificamente progettato per garantire la coerenza dei dati tra tabelle strutturate e note non strutturate negli EHR. EHRCon è stato creato in collaborazione con professionisti sanitari utilizzando il dataset EHR MIMIC-III e include annotazioni manuali di 3.943 entità su 105 note cliniche verificate rispetto alle voci del database per coerenza. EHRCon ha due versioni, una che utilizza lo schema originale di MIMIC-III e un'altra che utilizza lo schema OMOP CDM, al fine di aumentarne l'applicabilità e la generalizzabilità. Inoltre, sfruttando le capacità dei modelli linguistici di grandi dimensioni, introduciamo CheckEHR, un nuovo framework per verificare la coerenza tra note cliniche e tabelle del database. CheckEHR utilizza un processo in otto fasi e mostra risultati promettenti sia in contesti few-shot che zero-shot. Il codice è disponibile all'indirizzo https://github.com/dustn1259/EHRCon.
Presentiamo WildGuard – uno strumento di moderazione aperto e leggero per la sicurezza dei LLM che raggiunge tre obiettivi: (1) identificare intenti malevoli nei prompt degli utenti, (2) rilevare rischi di sicurezza nelle risposte del modello e (3) determinare il tasso di rifiuto del modello. Insieme, WildGuard soddisfa le crescenti esigenze di moderazione e valutazione automatica della sicurezza nelle interazioni con i LLM, fornendo uno strumento completo con maggiore accuratezza e ampia copertura su 13 categorie di rischio. Mentre gli strumenti di moderazione aperti esistenti, come Llama-Guard2, ottengono risultati ragionevoli nella classificazione delle interazioni dirette con i modelli, rimangono molto indietro rispetto a un GPT-4 sollecitato, specialmente nell'identificare jailbreak avversari e nel valutare i rifiuti dei modelli, una misura chiave per valutare i comportamenti di sicurezza nelle risposte dei modelli. Per affrontare queste sfide, abbiamo costruito WildGuardMix, un dataset di moderazione della sicurezza su larga scala e attentamente bilanciato per compiti multipli, con 92K esempi etichettati che coprono prompt semplici (diretti) e jailbreak avversari, accoppiati a varie risposte di rifiuto e conformità. WildGuardMix è una combinazione di WildGuardTrain, i dati di addestramento di WildGuard, e WildGuardTest, un set di test di moderazione di alta qualità annotato manualmente con 5K elementi etichettati che coprono ampi scenari di rischio. Attraverso valutazioni estensive su WildGuardTest e dieci benchmark pubblici esistenti, dimostriamo che WildGuard stabilisce prestazioni all'avanguardia nella moderazione della sicurezza open-source in tutti e tre i compiti rispetto a dieci modelli di moderazione open-source esistenti (ad esempio, fino al 26,4% di miglioramento nel rilevamento dei rifiuti). In modo significativo, WildGuard eguaglia e talvolta supera le prestazioni di GPT-4 (ad esempio, fino al 3,9% di miglioramento nell'identificazione della dannosità dei prompt). WildGuard funziona come un moderatore di sicurezza altamente efficace in un'interfaccia LLM, riducendo il tasso di successo degli attacchi jailbreak dal 79,8% al 2,4%.
Il calcio è uno sport di grande popolarità globale con un vasto pubblico. In questo articolo, consideriamo la costruzione di un modello automatico di commento delle partite di calcio per migliorare l'esperienza di visione del pubblico. In generale, apportiamo i seguenti contributi: in primo luogo, osservando il diffuso disallineamento video-testo nei dataset esistenti, abbiamo annotato manualmente i timestamp per 49 partite, stabilendo un benchmark più solido per la generazione di commenti alle partite di calcio, denominato SN-Caption-test-align; in secondo luogo, proponiamo una pipeline di allineamento temporale multi-modale per correggere e filtrare automaticamente il dataset esistente su larga scala, creando un dataset di commenti alle partite di calcio di qualità superiore per l'addestramento, denominato MatchTime; in terzo luogo, basandoci sul nostro dataset curato, abbiamo addestrato un modello automatico di generazione di commenti, chiamato MatchVoice. Esperimenti estesi e studi di ablazione hanno dimostrato l'efficacia della nostra pipeline di allineamento, e l'addestramento del modello sui dataset curati ha raggiunto prestazioni all'avanguardia per la generazione di commenti, dimostrando che un migliore allineamento può portare a significativi miglioramenti delle prestazioni nei task downstream.
La comunità dell'IA ha esplorato un percorso verso l'intelligenza artificiale generale (AGI) sviluppando "agenti linguistici", ovvero complesse pipeline di modelli linguistici di grandi dimensioni (LLM) che coinvolgono sia tecniche di prompting che metodi di utilizzo di strumenti. Sebbene gli agenti linguistici abbiano dimostrato capacità impressionanti in molti compiti del mondo reale, una limitazione fondamentale della ricerca attuale sugli agenti linguistici è che sono centrati sul modello o sull'ingegneria. Ciò significa che i progressi nei prompt, negli strumenti e nelle pipeline degli agenti linguistici richiedono notevoli sforzi di ingegneria manuale da parte di esperti umani, piuttosto che un apprendimento automatico dai dati. Crediamo che la transizione da un approccio centrato sul modello o sull'ingegneria a uno centrato sui dati, ovvero la capacità degli agenti linguistici di apprendere ed evolversi autonomamente negli ambienti, sia la chiave per raggiungere potenzialmente l'AGI. In questo lavoro, introduciamo l'apprendimento simbolico degli agenti, un framework sistematico che consente agli agenti linguistici di ottimizzarsi autonomamente in modo centrato sui dati utilizzando ottimizzatori simbolici. Nello specifico, consideriamo gli agenti come reti simboliche in cui i pesi apprendibili sono definiti dai prompt, dagli strumenti e dal modo in cui sono combinati. L'apprendimento simbolico degli agenti è progettato per ottimizzare la rete simbolica all'interno degli agenti linguistici imitando due algoritmi fondamentali dell'apprendimento connessionista: la retropropagazione e la discesa del gradiente. Invece di gestire pesi numerici, l'apprendimento simbolico degli agenti lavora con simulacri in linguaggio naturale di pesi, perdita e gradienti. Condividiamo esperimenti di proof-of-concept su benchmark standard e compiti complessi del mondo reale, dimostrando che l'apprendimento simbolico degli agenti consente agli agenti linguistici di aggiornarsi dopo essere stati creati e distribuiti in ambienti reali, dando vita a "agenti auto-evolutivi".
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato impressionanti capacità di ragionamento, in particolare nella risoluzione di problemi matematici testuali. Tuttavia, i dataset esistenti di fine-tuning per istruzioni basate su immagini open-source, che contengono un numero limitato di coppie domanda-risposta per immagine, non sfruttano appieno le informazioni visive per migliorare le capacità di ragionamento matematico multimodale dei Multimodal LLM (MLLM). Per colmare questa lacuna, affrontiamo la mancanza di dataset matematici multimodali di alta qualità e diversificati raccogliendo 40K immagini di alta qualità con coppie domanda-risposta da 24 dataset esistenti e sintetizzando 320K nuove coppie, creando il dataset MathV360K, che migliora sia l'ampiezza che la profondità delle domande matematiche multimodali. Introduciamo Math-LLaVA, un modello basato su LLaVA-1.5 fine-tuned con MathV360K. Questo approccio innovativo migliora significativamente le capacità di ragionamento matematico multimodale di LLaVA-1.5, ottenendo un aumento di 19 punti e prestazioni comparabili a GPT-4V sul minitest split di MathVista. Inoltre, Math-LLaVA dimostra una maggiore generalizzabilità, mostrando miglioramenti sostanziali sul benchmark MMMU. La nostra ricerca evidenzia l'importanza della diversità e della sintesi dei dataset nel migliorare le capacità di ragionamento matematico degli MLLM. Il codice e i dati sono disponibili al seguente indirizzo: https://github.com/HZQ950419/Math-LLaVA.
Le politiche basate su reti neurali profonde sono state recentemente implementate in un'ampia gamma di contesti, dalla biotecnologia ai sistemi finanziari automatizzati. Tuttavia, l'utilizzo di reti neurali profonde per approssimare la funzione di valore solleva preoccupazioni riguardo alla stabilità del confine decisionale, in particolare per quanto riguarda la sensibilità del processo decisionale delle politiche a caratteristiche impercettibili e non robuste, dovute alle altamente non convesse e complesse varietà neurali profonde. Queste preoccupazioni rappresentano un ostacolo alla comprensione del ragionamento effettuato dalle politiche neurali profonde e dei loro limiti fondamentali. Pertanto, è cruciale sviluppare tecniche che mirino a comprendere le sensibilità nelle rappresentazioni apprese dalle politiche delle reti neurali. Per raggiungere questo obiettivo, introduciamo un metodo teoricamente fondato che fornisce un'analisi sistematica delle direzioni instabili nel confine decisionale delle politiche neurali profonde, sia nel tempo che nello spazio. Attraverso esperimenti nell'ambiente Arcade Learning Environment (ALE), dimostriamo l'efficacia della nostra tecnica nell'identificare direzioni correlate di instabilità e nel misurare come gli spostamenti dei campioni rimodellino l'insieme delle direzioni sensibili nel panorama delle politiche neurali. Soprattutto, dimostriamo che le tecniche di addestramento robusto all'avanguardia portano all'apprendimento di direzioni instabili disgiunte, con oscillazioni notevolmente più ampie nel tempo, rispetto all'addestramento standard. Crediamo che i nostri risultati rivelino le proprietà fondamentali del processo decisionale delle politiche di apprendimento per rinforzo e possano contribuire alla costruzione di politiche neurali profonde affidabili e robuste.
Introduciamo WildTeaming, un framework automatico di red-teaming per la sicurezza degli LLM che estrae dalle interazioni reali tra utenti e chatbot per scoprire 5.7K cluster unici di nuove tattiche di jailbreak, e poi combina più tattiche per un'esplorazione sistematica di nuovi jailbreak. Rispetto ai lavori precedenti che hanno eseguito red-teaming tramite lavoratori umani reclutati, ottimizzazione basata su gradienti o revisione iterativa con LLM, il nostro lavoro indaga i jailbreak provenienti da utenti di chatbot che non erano specificamente istruiti per violare il sistema. WildTeaming rivela vulnerabilità precedentemente non identificate dei LLM di frontiera, risultando in attacchi avversari fino a 4.6 volte più diversificati e di successo rispetto ai metodi di jailbreak all'avanguardia. Mentre esistono molti dataset per la valutazione dei jailbreak, pochissimi dataset open-source esistono per l'addestramento sui jailbreak, poiché i dati di addestramento sulla sicurezza sono stati chiusi anche quando i pesi del modello sono aperti. Con WildTeaming creiamo WildJailbreak, un dataset sintetico su larga scala e open-source per la sicurezza con 262K coppie prompt-risposta vanilla (richieste dirette) e avversarie (jailbreak complessi). Per mitigare comportamenti di sicurezza esagerati, WildJailbreak fornisce due tipi contrastanti di query: 1) query dannose (vanilla e avversarie) e 2) query benigne che assomigliano nelle forme a quelle dannose ma non contengono alcun danno. Poiché WildJailbreak migliora notevolmente la qualità e la scala delle risorse esistenti per la sicurezza, ci permette in modo unico di esaminare gli effetti di scalabilità dei dati e l'interazione tra proprietà dei dati e capacità del modello durante l'addestramento sulla sicurezza. Attraverso esperimenti estesi, identifichiamo le proprietà di addestramento che consentono un equilibrio ideale dei comportamenti di sicurezza: protezione appropriata senza rifiuti eccessivi, gestione efficace delle query vanilla e avversarie e una diminuzione minima, se presente, delle capacità generali. Tutti i componenti di WildJailbreak contribuiscono al raggiungimento di comportamenti di sicurezza bilanciati nei modelli.
Il recente successo dei modelli multimodali di grandi dimensioni intervallati (LMM) nell'apprendimento few-shot suggerisce che l'apprendimento in contesto (ICL) con molti esempi possa essere promettente per l'apprendimento di nuovi compiti. Tuttavia, questa configurazione di ICL multimodale many-shot presenta un problema cruciale: è fondamentalmente limitata dalla lunghezza del contesto del modello impostata durante il pre-training. Il problema è particolarmente evidente nel dominio multimodale, che elabora sia testo che immagini, richiedendo token aggiuntivi. Ciò motiva la necessità di un metodo multimodale per comprimere molti esempi in un numero inferiore di token senza fine-tuning. In questo lavoro, abilitiamo gli LMM a eseguire l'apprendimento in contesto multimodale many-shot sfruttando i Vettori di Compito Multimodali (MTV)—rappresentazioni implicite compatte degli esempi in contesto compressi nelle teste di attenzione del modello. Nello specifico, dimostriamo prima l'esistenza di tali MTV negli LMM e poi sfruttiamo questi MTV estratti per abilitare l'apprendimento in contesto many-shot per vari compiti di visione e linguaggio. I nostri esperimenti suggeriscono che gli MTV possono scalare in termini di prestazioni con il numero di esempi compressi e generalizzare a compiti simili fuori dominio senza ulteriore lunghezza del contesto per l'inferenza.
Il servizio di modelli linguistici di grandi dimensioni (LLM) è evoluto da sistemi senza stato a sistemi con stato, sfruttando tecniche come la memorizzazione contestuale (context caching) e l'inferenza disaggregata. Queste ottimizzazioni estendono la durata e il dominio della cache KV, rendendo necessaria un nuovo approccio architetturale. Presentiamo MemServe, un sistema unificato che integra ottimizzazioni sia inter-richiesta che intra-richiesta. MemServe introduce MemPool, un pool di memoria elastico che gestisce la memoria distribuita e le cache KV tra le istanze di servizio. Utilizzando le API di MemPool, MemServe combina per la prima volta la memorizzazione contestuale con l'inferenza disaggregata, supportato da uno scheduler globale che migliora il riutilizzo della cache attraverso una politica basata su un albero di prompt globale e consapevole della località. I test dimostrano che MemServe migliora significativamente il tempo di completamento del lavoro e il tempo alla prima risposta.