Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo DeepSeek-Coder-V2, un modello linguistico open-source per il codice basato su Mixture-of-Experts (MoE) che raggiunge prestazioni paragonabili a GPT4-Turbo in compiti specifici per il codice. Nello specifico, DeepSeek-Coder-V2 è ulteriormente pre-addestrato a partire da un checkpoint intermedio di DeepSeek-V2 con l'aggiunta di 6 trilioni di token. Attraverso questo pre-addestramento continuato, DeepSeek-Coder-V2 migliora sostanzialmente le capacità di codifica e ragionamento matematico di DeepSeek-V2, mantenendo prestazioni comparabili nei compiti linguistici generali. Rispetto a DeepSeek-Coder-33B, DeepSeek-Coder-V2 dimostra progressi significativi in vari aspetti dei compiti legati al codice, nonché nelle capacità di ragionamento e generali. Inoltre, DeepSeek-Coder-V2 amplia il supporto per i linguaggi di programmazione da 86 a 338, estendendo la lunghezza del contesto da 16K a 128K. Nelle valutazioni standard dei benchmark, DeepSeek-Coder-V2 raggiunge prestazioni superiori rispetto a modelli closed-source come GPT4-Turbo, Claude 3 Opus e Gemini 1.5 Pro nei benchmark di codifica e matematica.
La stima accurata della profondità nelle immagini a 360 gradi è fondamentale per applicazioni di realtà virtuale, navigazione autonoma e media immersivi. I metodi esistenti di stima della profondità progettati per immagini in prospettiva falliscono quando applicati a immagini a 360 gradi a causa delle diverse proiezioni della fotocamera e delle distorsioni, mentre i metodi specifici per 360 gradi ottengono risultati inferiori a causa della mancanza di coppie di dati etichettati. Proponiamo un nuovo framework di stima della profondità che utilizza efficacemente dati a 360 gradi non etichettati. Il nostro approccio impiega modelli all'avanguardia di stima della profondità in prospettiva come modelli insegnanti per generare etichette pseudo-attraverso una tecnica di proiezione a sei facce cubiche, consentendo un'etichettatura efficiente della profondità nelle immagini a 360 gradi. Questo metodo sfrutta la crescente disponibilità di grandi dataset. Il nostro approccio include due fasi principali: la generazione offline di maschere per le regioni non valide e un regime di addestramento congiunto semi-supervisionato online. Abbiamo testato il nostro approccio su dataset di riferimento come Matterport3D e Stanford2D3D, mostrando miglioramenti significativi nell'accuratezza della stima della profondità, specialmente in scenari zero-shot. La nostra pipeline di addestramento proposta può migliorare qualsiasi stimatore di profondità monoculare a 360 gradi e dimostra un trasferimento efficace della conoscenza attraverso diverse proiezioni della fotocamera e tipi di dati. Consulta la nostra pagina del progetto per i risultati: https://albert100121.github.io/Depth-Anywhere/
L'allineamento umano nei grandi modelli linguistici (LLM) è un'area di ricerca attiva. Un recente lavoro rivoluzionario, l'ottimizzazione diretta delle preferenze (DPO), ha notevolmente semplificato il processo rispetto ai precedenti approcci di apprendimento per rinforzo basato sul feedback umano (RLHF), bypassando la fase di apprendimento della ricompensa in RLHF. DPO, dopo l'addestramento, fornisce un modello di ricompensa implicito. In questo lavoro, facciamo una nuova osservazione: questo modello di ricompensa implicito può essere utilizzato in modo autonomo per allineare ulteriormente l'LLM. Il nostro approccio consiste nell'utilizzare le ricompense di un modello LLM corrente per costruire un dataset di preferenze, che viene poi utilizzato in successivi cicli di DPO. Incorporiamo perfezionamenti che riducono il bias legato alla lunghezza delle risposte e migliorano la qualità del dataset di preferenze per ulteriormente affinare il nostro metodo. Il nostro approccio, denominato auto-allineamento con ricompense implicite DPO (DICE), mostra notevoli miglioramenti nell'allineamento e ottiene prestazioni superiori rispetto a Gemini Pro su AlpacaEval 2, raggiungendo un tasso di vittoria controllato per lunghezza del 27,55% contro GPT-4 Turbo, ma con solo 8 miliardi di parametri e senza feedback esterno. Il nostro codice è disponibile all'indirizzo https://github.com/sail-sg/dice.
I modelli linguistici e visivi di grandi dimensioni (LLVM) sono stati guidati dal potere di generalizzazione dei grandi modelli linguistici (LLM) e dall'avvento della messa a punto visiva tramite istruzioni. Oltre a scalare direttamente queste dimensioni, tali modelli consentono agli LLVM di dimostrare prestazioni potenti nel linguaggio visivo (VL) coprendo una vasta gamma di compiti attraverso istruzioni in linguaggio naturale. Tuttavia, gli LLVM open-source esistenti che si comportano in modo paragonabile agli LLVM closed-source come GPT-4V sono spesso considerati troppo grandi (ad esempio, 26B, 34B e 110B parametri), con un numero maggiore di strati. Questi modelli di grandi dimensioni richiedono risorse costose e di fascia alta sia per l'addestramento che per l'inferenza. Per affrontare questo problema, presentiamo una nuova famiglia efficiente di LLVM con dimensioni di modello LLM di 1.8B, 3.8B e 7B, denominata Traversal of Layers (TroL), che consente il riutilizzo degli strati in modo token-wise. Questa tecnica di attraversamento degli strati simula l'effetto di guardare indietro e ripercorrere il flusso di risposta, aumentando il numero di strati di propagazione in avanti senza aggiungere fisicamente più strati. Dimostriamo che TroL utilizza un approccio semplice di attraversamento degli strati, ma supera in modo efficiente gli LLVM open-source con dimensioni di modello maggiori e rivaleggia con le prestazioni degli LLVM closed-source di dimensioni sostanziali.
Presentiamo ChatGLM, una famiglia in evoluzione di modelli linguistici di grandi dimensioni che abbiamo sviluppato nel tempo. Questo rapporto si concentra principalmente sulla serie linguistica GLM-4, che include GLM-4, GLM-4-Air e GLM-4-9B. Questi rappresentano i nostri modelli più avanzati, addestrati con tutte le intuizioni e le lezioni apprese dalle tre generazioni precedenti di ChatGLM. Ad oggi, i modelli GLM-4 sono pre-addestrati su dieci trilioni di token, principalmente in cinese e inglese, insieme a un piccolo insieme di corpus provenienti da 24 lingue, e allineati principalmente per l'uso in cinese e inglese. L'allineamento di alta qualità è ottenuto attraverso un processo di post-addestramento multi-fase, che include la messa a punto supervisionata e l'apprendimento dal feedback umano. Le valutazioni mostrano che GLM-4 1) rivaleggia o supera GPT-4 in termini di metriche generali come MMLU, GSM8K, MATH, BBH, GPQA e HumanEval, 2) si avvicina a GPT-4-Turbo nel seguire le istruzioni, misurato da IFEval, 3) eguaglia GPT-4 Turbo (128K) e Claude 3 per i compiti di contesto lungo, e 4) supera GPT-4 negli allineamenti cinesi, misurati da AlignBench. Il modello GLM-4 All Tools è ulteriormente allineato per comprendere l'intento dell'utente e decidere autonomamente quando e quale strumento utilizzare — inclusi browser web, interprete Python, modello text-to-image e funzioni definite dall'utente — per completare efficacemente compiti complessi. Nelle applicazioni pratiche, eguaglia e persino supera GPT-4 All Tools in compiti come l'accesso a informazioni online tramite navigazione web e la risoluzione di problemi matematici utilizzando l'interprete Python. Nel corso del tempo, abbiamo reso open source una serie di modelli, tra cui ChatGLM-6B (tre generazioni), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM e CodeGeeX, attirando oltre 10 milioni di download su Hugging Face solo nel 2023. I modelli open possono essere accessibili tramite https://github.com/THUDM e https://huggingface.co/THUDM.
I modelli visione-linguaggio (VLMs) hanno ottenuto un notevole successo in vari compiti multimodali, ma sono spesso limitati dalla finestra contestuale ridotta e dall'elevato costo computazionale richiesto per elaborare input di immagini ad alta risoluzione e video. La compressione visiva può alleviare questo problema riducendo il numero di token visivi. Approcci precedenti comprimono i token visivi con moduli esterni e costringono i LLM a comprendere quelli compressi, portando a una perdita di informazioni visive. Tuttavia, il paradigma di comprensione dei token visivi da parte dei LLM non è pienamente sfruttato nel processo di apprendimento della compressione. Proponiamo VoCo-LLaMA, il primo approccio a comprimere i token visivi utilizzando i LLM. Introducendo token di compressione visiva durante la fase di ottimizzazione delle istruzioni visive e sfruttando la distillazione dell'attenzione, il nostro metodo distilla il modo in cui i LLM comprendono i token visivi nel loro trattamento dei token VoCo. VoCo-LLaMA facilita una compressione visiva efficace e migliora l'efficienza computazionale durante la fase di inferenza. In particolare, il nostro metodo ottiene una perdita di prestazioni minima con un rapporto di compressione di 576 volte, risultando in una riduzione fino al 94,8% delle FLOP e un'accelerazione del 69,6% nel tempo di inferenza. Inoltre, attraverso un addestramento continuo utilizzando sequenze di token compressi in serie temporali di fotogrammi video, VoCo-LLaMA dimostra la capacità di comprendere le correlazioni temporali, superando i metodi precedenti su benchmark popolari di risposta a domande video. Il nostro approccio presenta una promettente via per sbloccare il pieno potenziale della finestra contestuale dei VLMs, consentendo applicazioni multimodali più scalabili. La pagina del progetto, insieme al codice associato, è accessibile tramite https://yxxxb.github.io/VoCo-LLaMA-page/{this https URL}.
Gli agenti software sono emersi come strumenti promettenti per affrontare compiti complessi di ingegneria del software. Tuttavia, i lavori esistenti semplificano eccessivamente i flussi di lavoro di sviluppo software seguendo il modello a cascata. Pertanto, proponiamo AgileCoder, un sistema multi-agente che integra la Metodologia Agile (AM) nel framework. Questo sistema assegna ruoli specifici dell'AM, come Product Manager, Developer e Tester, a diversi agenti, che poi collaborano per sviluppare software basandosi sugli input dell'utente. AgileCoder migliora l'efficienza dello sviluppo organizzando il lavoro in sprint, concentrandosi sullo sviluppo incrementale del software attraverso gli sprint. Inoltre, introduciamo il Dynamic Code Graph Generator, un modulo che crea dinamicamente un Grafo delle Dipendenze del Codice man mano che vengono apportate modifiche alla codebase. Ciò consente agli agenti di comprendere meglio la codebase, portando a una generazione e modifica del codice più precisa durante il processo di sviluppo del software. AgileCoder supera i benchmark esistenti, come ChatDev e MetaGPT, stabilendo un nuovo standard e dimostrando le capacità dei sistemi multi-agente in ambienti avanzati di ingegneria del software. Il nostro codice sorgente è disponibile all'indirizzo https://github.com/FSoft-AI4Code/AgileCoder.
La Generazione Aumentata con Recupero (Retrieval Augmented Generation, RAG) arricchisce la capacità dei modelli linguistici di ragionare utilizzando contesti esterni per migliorare le risposte a un determinato prompt dell'utente. Questo approccio ha guadagnato popolarità grazie alle sue applicazioni pratiche in vari ambiti dei modelli linguistici, come la ricerca, il question/answering e i chatbot. Tuttavia, la natura esatta di come funzioni questo approccio non è ancora del tutto chiara. In questo articolo, esaminiamo in modo meccanicistico la pipeline RAG per evidenziare che i modelli linguistici prendono scorciatoie e hanno una forte tendenza a utilizzare solo le informazioni contestuali per rispondere alla domanda, affidandosi minimamente alla loro memoria parametrica. Analizziamo questo comportamento meccanicistico nei modelli linguistici con: (i) l'Analisi di Mediazione Causale per dimostrare che la memoria parametrica viene utilizzata in misura minima quando si risponde a una domanda e (ii) i Contributi dell'Attenzione e i Knockout per mostrare che il flusso residuo dell'ultimo token non si arricchisce dal token soggetto nella domanda, ma da altri token informativi nel contesto. Troviamo che questo comportamento di scorciatoia è pronunciato sia nei modelli della famiglia LLaMa che in quelli della famiglia Phi.
Il fine-tuning supervisionato potenzia le capacità di problem solving dei modelli linguistici in vari compiti di ragionamento matematico. Per massimizzare tali benefici, la ricerca esistente si concentra sull'ampliamento del set di allenamento con diverse tecniche di aumento dei dati, efficaci per contesti standard di domanda-risposta a singolo round. Il nostro lavoro introduce una tecnica innovativa mirata a coltivare una comprensione più profonda dei problemi di allenamento, migliorando le prestazioni non solo in contesti standard ma anche in scenari più complessi che richiedono pensiero riflessivo. Nello specifico, proponiamo l'aumento riflessivo, un metodo che incorpora la riflessione sul problema in ogni istanza di allenamento. Esso allena il modello a considerare prospettive alternative e a interagire con astrazioni e analogie, favorendo così una comprensione approfondita attraverso il ragionamento riflessivo. Esperimenti estesi convalidano il raggiungimento del nostro obiettivo, evidenziando i vantaggi unici del nostro metodo e la sua natura complementare rispetto alle tecniche di aumento esistenti.
L'evoluzione dell'Intelligenza Artificiale (IA) è stata significativamente accelerata dai progressi nei Modelli Linguistici di Grande Scala (LLM) e nei Modelli Multimodali di Grande Scala (LMM), che gradualmente dimostrano potenziali capacità di ragionamento cognitivo nella risoluzione di problemi e nella scoperta scientifica (ad esempio, AI4Science), una volta esclusive dell'intelletto umano. Per valutare in modo completo le prestazioni dei modelli attuali nelle capacità di ragionamento cognitivo, introduciamo OlympicArena, che include 11.163 problemi bilingue in modalità testuale e interleaved testo-immagine. Queste sfide abbracciano un'ampia gamma di discipline che coprono sette campi e 62 competizioni olimpiche internazionali, rigorosamente esaminate per evitare perdite di dati. Sosteniamo che le sfide nei problemi delle competizioni olimpiche sono ideali per valutare il ragionamento cognitivo dell'IA a causa della loro complessità e natura interdisciplinare, essenziali per affrontare sfide scientifiche complesse e facilitare scoperte. Oltre a valutare le prestazioni in varie discipline utilizzando criteri basati solo sulla risposta, conduciamo esperimenti e analisi dettagliate da molteplici prospettive. Approfondiamo le capacità di ragionamento cognitivo dei modelli, le loro prestazioni in diverse modalità e i loro risultati nelle valutazioni a livello di processo, cruciali per compiti che richiedono ragionamenti complessi con soluzioni lunghe. Le nostre valutazioni estensive rivelano che anche modelli avanzati come GPT-4o raggiungono solo un'accuratezza complessiva del 39,97%, illustrando le attuali limitazioni dell'IA nel ragionamento complesso e nell'integrazione multimodale. Attraverso OlympicArena, miriamo a far progredire l'IA verso la superintelligenza, dotandola degli strumenti per affrontare sfide più complesse nella scienza e oltre. Forniamo anche un insieme completo di risorse per supportare la ricerca sull'IA, inclusi un dataset di benchmark, una piattaforma di annotazione open-source, uno strumento di valutazione dettagliato e una classifica con funzionalità di invio automatico.
I Large Language Model (LLM) vengono addestrati su enormi quantità di dati, la maggior parte dei quali viene raccolta automaticamente da internet. Questi dati includono documenti enciclopedici che contengono una vasta quantità di conoscenza generale (ad esempio, Wikipedia), ma che potrebbero sovrapporsi ai dataset di benchmark utilizzati per valutare gli LLM. Di conseguenza, valutare i modelli su porzioni di test che potrebbero essere finite nel set di addestramento rischia di portare a conclusioni fuorvianti. Per promuovere una valutazione solida dei modelli linguistici, introduciamo un nuovo dataset di test chiamato RepLiQA, adatto per attività di risposta alle domande e recupero di argomenti. RepLiQA è una raccolta di cinque suddivisioni di set di test, quattro delle quali non sono mai state pubblicate su internet o esposte alle API degli LLM prima di questa pubblicazione. Ogni campione in RepLiQA comprende: (1) un documento di riferimento creato da un annotatore umano e che descrive uno scenario immaginario (ad esempio, un articolo di giornale) assente da internet; (2) una domanda sull'argomento del documento; (3) una risposta corretta derivata direttamente dalle informazioni nel documento; e (4) il paragrafo estratto dal documento di riferimento che contiene la risposta. In questo modo, risposte accurate possono essere generate solo se un modello è in grado di trovare contenuti rilevanti all'interno del documento fornito. Abbiamo eseguito un benchmark su larga scala che include diversi LLM all'avanguardia per evidenziare le differenze di prestazione tra modelli di vari tipi e dimensioni in un contesto di modellazione linguistica condizionale. Le suddivisioni rilasciate di RepLiQA sono disponibili qui: https://huggingface.co/datasets/ServiceNow/repliqa.
I modelli linguistici tipicamente tokenizzano il testo grezzo in sequenze di identificatori di sottoparole provenienti da un vocabolario predefinito, un processo intrinsecamente sensibile a errori tipografici, variazioni di lunghezza e largamente inconsapevole della struttura interna dei token - problematiche che definiamo la maledizione della tokenizzazione. In questo studio, approfondiamo questi inconvenienti e dimostriamo che i grandi modelli linguistici (LLM) rimangono suscettibili a tali problemi. Questo studio indaga sistematicamente queste sfide e il loro impatto sugli LLM attraverso tre domande di ricerca critiche: (1) risoluzione di problemi complessi, (2) analisi della struttura dei token e (3) resilienza alle variazioni tipografiche. Le nostre scoperte rivelano che il ridimensionamento dei parametri del modello può mitigare il problema della tokenizzazione; tuttavia, gli LLM continuano a soffrire di bias indotti da errori di battitura e altre variazioni nel formato del testo. I nostri esperimenti mostrano che la regolarizzazione delle sottoparole, come il BPE-dropout, può mitigare questo problema. Rilasceremo il nostro codice e i dati per facilitare ulteriori ricerche.
I modelli linguistici allineati alla sicurezza spesso presentano meccanismi di sicurezza fragili e squilibrati, aumentando la probabilità di generare contenuti non sicuri. Inoltre, l'incorporazione di nuove conoscenze attraverso tecniche di editing nei modelli linguistici può ulteriormente compromettere la sicurezza. Per affrontare questi problemi, proponiamo SafeInfer, una strategia di allineamento della sicurezza adattiva al contesto e al momento della decodifica, progettata per generare risposte sicure alle query degli utenti. SafeInfer si compone di due fasi: la fase di amplificazione della sicurezza, che utilizza esempi dimostrativi sicuri per regolare gli stati nascosti del modello e aumentare la probabilità di output più sicuri, e la fase di decodifica guidata dalla sicurezza, che influenza la selezione dei token basandosi su distribuzioni ottimizzate per la sicurezza, garantendo che il contenuto generato sia conforme alle linee guida etiche. Inoltre, presentiamo HarmEval, un nuovo benchmark per valutazioni estensive della sicurezza, progettato per affrontare potenziali scenari di abuso in conformità con le politiche dei principali colossi tecnologici dell'IA.
Garantire l'allineamento sicuro dei grandi modelli linguistici (LLM) con i valori umani è fondamentale man mano che diventano parte integrante di applicazioni come la traduzione e il rispondere a domande. I metodi attuali di allineamento faticano a gestire intenzioni dinamiche degli utenti e obiettivi complessi, rendendo i modelli vulnerabili alla generazione di contenuti dannosi. Proponiamo Safety Arithmetic, un framework senza necessità di addestramento che migliora la sicurezza degli LLM in diversi scenari: modelli di base, modelli ottimizzati con supervisione (SFT) e modelli modificati. Safety Arithmetic prevede la Rimozione della Direzione Dannosa per evitare contenuti nocivi e l'Allineamento alla Sicurezza per promuovere risposte sicure. Inoltre, presentiamo NoIntentEdit, un dataset che evidenzia casi di modifica che potrebbero compromettere la sicurezza del modello se utilizzati in modo non intenzionale. I nostri esperimenti dimostrano che Safety Arithmetic migliora significativamente le misure di sicurezza, riduce l'eccessiva cautela e mantiene l'utilità del modello, superando i metodi esistenti nel garantire la generazione di contenuti sicuri.
Il progresso dei grandi modelli linguistici (LLM) ha ampliato significativamente l'ambito delle applicazioni nell'elaborazione del linguaggio naturale, con i modelli linguistici multi-modali che estendono queste capacità per integrare e interpretare dati visivi. Tuttavia, i benchmark esistenti per i modelli linguistici visivi (VLM) si concentrano principalmente su input a immagine singola, trascurando l'aspetto cruciale della comprensione multi-immagine. In questo articolo, introduciamo un benchmark relazionale multi-immagine, denominato MIRB, progettato per valutare la capacità dei VLM di confrontare, analizzare e ragionare su più immagini. Il nostro benchmark comprende quattro categorie: percezione, conoscenza del mondo visivo, ragionamento e ragionamento multi-hop. Attraverso una valutazione completa di un'ampia gamma di modelli open-source e proprietari, dimostriamo che, sebbene i VLM open-source si siano avvicinati alle prestazioni di GPT-4V nei compiti a immagine singola, rimane un divario significativo nelle prestazioni nei compiti di ragionamento multi-immagine. Le nostre scoperte rivelano inoltre che anche il modello all'avanguardia GPT-4V fatica con il nostro benchmark, sottolineando la necessità di ulteriori ricerche e sviluppi in questo settore. Crediamo che il nostro contributo con MIRB possa servire come banco di prova per lo sviluppo della prossima generazione di modelli multi-modali.
Nonostante i recenti progressi nelle tecniche di ricostruzione umana ad alta fedeltà, i requisiti di immagini acquisite in modo denso o di ottimizzazione lunga e specifica per ogni istanza limitano significativamente la loro applicabilità in scenari più ampi. Per affrontare questi problemi, presentiamo HumanSplat, che predice le proprietà di 3D Gaussian Splatting di qualsiasi essere umano a partire da una singola immagine in modo generalizzabile. In particolare, HumanSplat comprende un modello di diffusione multi-vista 2D e un trasformatore di ricostruzione latente con prior strutturali umane, che integrano abilmente prior geometriche e caratteristiche semantiche all’interno di un framework unificato. È stato inoltre progettato una funzione di perdita gerarchica che incorpora informazioni semantiche umane per ottenere una modellazione delle texture ad alta fedeltà e vincolare meglio le viste multiple stimate. Esperimenti completi su benchmark standard e immagini in contesti reali dimostrano che HumanSplat supera i metodi state-of-the-art esistenti nel raggiungere una sintesi fotorealistica di nuove viste.
I dati tabellari -- dati strutturati, eterogenei, in formato foglio di calcolo con righe e colonne -- sono ampiamente utilizzati nella pratica in molti domini. Tuttavia, mentre i recenti modelli di base hanno ridotto la necessità di sviluppare dataset e predittori specifici per singoli compiti in domini come il modeling linguistico e la visione artificiale, questo paradigma di transfer learning non ha avuto un impatto simile nel dominio tabellare. In questo lavoro, cerchiamo di colmare questa lacuna e presentiamo TabuLa-8B, un modello linguistico per la predizione tabellare. Definiamo un processo per estrarre un ampio dataset di addestramento di alta qualità dal corpus TabLib, proponendo metodi per il filtraggio e il controllo di qualità dei dati tabellari. Utilizzando il dataset risultante, che comprende oltre 1,6 miliardi di righe provenienti da 3,1 milioni di tabelle uniche, ottimizziamo un modello linguistico di grandi dimensioni (LLM) Llama 3-8B per la predizione di dati tabellari (classificazione e regressione binata) utilizzando uno schema innovativo di impacchettamento e attenzione per la predizione tabellare. Attraverso la valutazione su una suite di test composta da 329 dataset, scopriamo che TabuLa-8B ha un'accuratezza zero-shot su tabelle mai viste che supera di oltre 15 punti percentuali (pp) l'indovinamento casuale, un risultato non raggiungibile con i modelli di predizione tabellare all'avanguardia esistenti (ad esempio XGBoost, TabPFN). Nello scenario few-shot (1-32 esempi), senza alcuna ottimizzazione sui dataset target, TabuLa-8B è dal 5 al 15 pp più accurato rispetto ai modelli XGBoost e TabPFN che sono esplicitamente addestrati su quantità di dati uguali o persino fino a 16 volte superiori. Rilasciamo il nostro modello, il codice e i dati insieme alla pubblicazione di questo articolo.
Per valutare la conoscenza nei grandi modelli linguistici (LLM), i metodi attuali interrogano il modello e poi valutano le risposte generate. In questo lavoro, ci chiediamo se la valutazione possa essere effettuata prima che il modello abbia generato qualsiasi testo. Nello specifico, è possibile stimare quanto un modello sia informato su una determinata entità, solo a partire dai suoi calcoli interni? Studiamo questa domanda con due compiti: data un'entità soggetto, l'obiettivo è prevedere (a) la capacità del modello di rispondere a domande comuni sull'entità, e (b) la veridicità delle risposte generate dal modello riguardo all'entità. Esperimenti con una varietà di LLM dimostrano che KEEN, una semplice sonda addestrata sulle rappresentazioni interne del soggetto, riesce in entrambi i compiti, mostrando una forte correlazione sia con l'accuratezza delle risposte del modello per soggetto, sia con FActScore, una recente metrica di veridicità nella generazione aperta. Inoltre, KEEN si allinea naturalmente con il comportamento di cautela del modello e riflette fedelmente i cambiamenti nella conoscenza del modello dopo il fine-tuning. Infine, mostriamo una variante di KEEN più interpretabile ma altrettanto performante, che evidenzia un piccolo insieme di token correlati con la mancanza di conoscenza del modello. Essendo semplice e leggero, KEEN può essere sfruttato per identificare lacune e cluster di conoscenza sulle entità nei LLM, e guidare decisioni come l'arricchimento delle query con il recupero di informazioni.
La binarizzazione, che converte i parametri di peso in valori binari, è emersa come una strategia efficace per ridurre le dimensioni dei grandi modelli linguistici (LLM). Tuttavia, le tecniche di binarizzazione tipiche riducono significativamente l'efficacia linguistica degli LLM. Per affrontare questo problema, introduciamo una nuova tecnica di binarizzazione chiamata Mixture of Scales (BinaryMoS). A differenza dei metodi convenzionali, BinaryMoS utilizza più esperti di scalatura per i pesi binari, fondendo dinamicamente questi esperti per ogni token per generare in modo adattivo fattori di scalatura. Questo approccio adattivo ai token potenzia la capacità rappresentativa degli LLM binarizzati consentendo aggiustamenti contestuali ai valori dei pesi binari. Inoltre, poiché questo processo adattivo coinvolge solo i fattori di scalatura e non l'intera matrice dei pesi, BinaryMoS mantiene un'efficienza di compressione simile ai metodi di binarizzazione statica tradizionali. I nostri risultati sperimentali rivelano che BinaryMoS supera le tecniche di binarizzazione convenzionali in vari compiti di elaborazione del linguaggio naturale e supera persino i metodi di quantizzazione a 2 bit, pur mantenendo dimensioni del modello simili alle tecniche di binarizzazione statica.
I modelli di diffusione Text-to-Image (T2I) hanno dimostrato capacità impressionanti nella generazione di immagini. Tuttavia, la loro intensità computazionale impedisce alle organizzazioni con risorse limitate di implementare modelli T2I dopo averli ottimizzati sui loro dati target interni. Sebbene le tecniche di pruning offrano una potenziale soluzione per ridurre il carico computazionale dei modelli T2I, i metodi di pruning statico utilizzano lo stesso modello potato per tutti gli input, trascurando i requisiti di capacità variabili per prompt diversi. Il pruning dinamico affronta questo problema utilizzando una sotto-rete separata per ogni prompt, ma impedisce il parallelismo batch sulle GPU. Per superare queste limitazioni, introduciamo l'Adaptive Prompt-Tailored Pruning (APTP), un nuovo metodo di pruning basato sui prompt progettato per i modelli di diffusione T2I. Al centro del nostro approccio c'è un modello di routing dei prompt, che impara a determinare la capacità richiesta per un prompt di testo in input e lo indirizza a un codice di architettura, dato un budget computazionale totale desiderato per i prompt. Ogni codice di architettura rappresenta un modello specializzato adattato ai prompt assegnati, e il numero di codici è un iperparametro. Addestriamo il router dei prompt e i codici di architettura utilizzando l'apprendimento contrastivo, garantendo che prompt simili siano mappati su codici vicini. Inoltre, impieghiamo il trasporto ottimale per evitare che i codici collassino in uno solo. Dimostriamo l'efficacia di APTP potando Stable Diffusion (SD) V2.1 utilizzando CC3M e COCO come dataset target. APTP supera le baseline di pruning a modello singolo in termini di punteggi FID, CLIP e CMMD. La nostra analisi dei cluster appresi da APTP rivela che sono semanticamente significativi. Mostriamo anche che APTP può scoprire automaticamente prompt precedentemente considerati empiricamente difficili per SD, ad esempio prompt per generare immagini di testo, assegnandoli a codici di capacità superiore.
La rapida evoluzione dei modelli linguistici ha reso necessario lo sviluppo di benchmark più impegnativi. Gli attuali benchmark statici spesso faticano a distinguere in modo coerente le capacità dei diversi modelli e non riescono ad allinearsi alle preferenze degli utenti nel mondo reale. D'altro canto, piattaforme live basate sul crowdsourcing come Chatbot Arena raccolgono un'ampia gamma di prompt naturali e feedback degli utenti. Tuttavia, questi prompt variano in termini di sofisticazione e il feedback non può essere applicato offline a nuovi modelli. Per garantire che i benchmark tengano il passo con lo sviluppo dei modelli linguistici (LLM), affrontiamo il problema di come valutare i benchmark in base alla loro capacità di distinguere con sicurezza i modelli e al loro allineamento con le preferenze umane. Sulla base di questi principi, abbiamo sviluppato BenchBuilder, un benchmark dinamico che filtra prompt di alta qualità da fonti di dati live per consentire valutazioni offline su prompt freschi e impegnativi. BenchBuilder identifica sette indicatori di un prompt di alta qualità, come la necessità di conoscenze di dominio, e utilizza un annotatore LLM per selezionare un sottoinsieme di prompt di alta qualità da vari cluster tematici. Il processo di valutazione LLM impiega un giudice LLM per garantire un benchmark completamente automatizzato, di alta qualità e in costante aggiornamento. Abbiamo applicato BenchBuilder ai prompt di Chatbot Arena per creare Arena-Hard-Auto v0.1: 500 prompt utente impegnativi provenienti da un'ampia gamma di attività. Arena-Hard-Auto v0.1 offre intervalli di confidenza 3 volte più stretti rispetto a MT-Bench e raggiunge un accordo all'avanguardia del 89,1% con le classifiche delle preferenze umane, tutto al costo di soli $25 e senza l'uso di etichettatori umani. La pipeline di BenchBuilder migliora i benchmark di valutazione e fornisce uno strumento prezioso per gli sviluppatori, consentendo loro di estrarre benchmark di alta qualità da dati estesi con uno sforzo minimo.
La conoscenza medica è contestuale e richiede un ragionamento coerente attraverso varie espressioni linguistiche naturali di frasi semanticamente equivalenti. Questo è particolarmente cruciale per i nomi dei farmaci, dove i pazienti spesso utilizzano nomi commerciali come Advil o Tylenol invece dei loro equivalenti generici. Per studiare questo fenomeno, abbiamo creato un nuovo dataset di robustezza, RABBITS, per valutare le differenze di prestazione su benchmark medici dopo aver sostituito i nomi commerciali e generici dei farmaci utilizzando annotazioni di esperti medici. Abbiamo valutato sia modelli linguistici open-source che basati su API su MedQA e MedMCQA, rivelando un calo costante delle prestazioni compreso tra l'1 e il 10\%. Inoltre, abbiamo identificato una potenziale fonte di questa fragilità nella contaminazione dei dati di test nei dataset di pre-addestramento ampiamente utilizzati. Tutto il codice è accessibile su https://github.com/BittermanLab/RABBITS, e una classifica HuggingFace è disponibile su https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.
L'allineamento diretto dalle preferenze (DAP) è emerso come un paradigma promettente per allineare i grandi modelli linguistici (LLM) ai desiderata umani a partire da dataset di preferenze pre-raccolti e offline. Mentre studi recenti indicano che i metodi DAP offline esistenti possono trarre beneficio diretto da campioni di addestramento online, sottolineiamo la necessità di sviluppare algoritmi DAP online specifici per sfruttare appieno il potenziale dell'addestramento online. In particolare, identifichiamo che il LLM appreso dovrebbe aderire alla prossimità del LLM comportamentale, che raccoglie i campioni di addestramento. A tal fine, proponiamo l'ottimizzazione delle preferenze online in prossimità del LLM comportamentale (BPO), enfatizzando l'importanza di costruire una regione di fiducia appropriata per l'allineamento dei LLM. Abbiamo condotto esperimenti estesi per validare l'efficacia e l'applicabilità del nostro approccio integrandolo con vari metodi DAP, ottenendo miglioramenti significativi delle prestazioni su un'ampia gamma di task quando si addestra con la stessa quantità di dati di preferenza. Anche introducendo solo una fase aggiuntiva di raccolta dati, il nostro BPO online migliora la baseline DAP offline dal 72,0% all'80,2% su TL;DR e dall'82,2% all'89,1% su Anthropic Helpfulness in termini di tasso di vittoria rispetto al testo di riferimento umano.
Valutare l'efficacia dei grandi modelli linguistici (LLM) nell'affrontare compiti diversi è essenziale per comprenderne punti di forza e debolezze. Le tecniche di valutazione convenzionali applicano tipicamente una singola strategia di prompting in modo uniforme su tutti i dataset, senza considerare i diversi gradi di complessità dei compiti. Introduciamo la Tassonomia del Prompting Gerarchico (HPT), una tassonomia che utilizza un Framework di Prompting Gerarchico (HPF) composto da cinque strategie di prompting uniche, organizzate dalla più semplice alla più complessa, per valutare i LLM in modo più preciso e offrire una prospettiva più chiara. Questa tassonomia assegna un punteggio, chiamato Hierarchical Prompting Score (HP-Score), sia ai dataset che ai LLM in base alle regole della tassonomia, fornendo una comprensione sfumata della loro capacità di risolvere compiti diversi e offrendo una misura universale della complessità dei compiti. Inoltre, introduciamo il Framework di Prompting Gerarchico Adattivo, che automatizza la selezione delle strategie di prompting appropriate per ciascun compito. Questo studio confronta i framework di prompting gerarchico manuale e adattivo utilizzando quattro LLM ottimizzati per le istruzioni, ovvero Llama 3 8B, Phi 3 3.8B, Mistral 7B e Gemma 7B, su quattro dataset: BoolQ, CommonSenseQA (CSQA), IWSLT-2017 en-fr (IWSLT) e SamSum. Gli esperimenti dimostrano l'efficacia di HPT, fornendo un metodo affidabile per confrontare diversi compiti e le capacità dei LLM. Questo lavoro porta allo sviluppo di una metrica di valutazione universale che può essere utilizzata per valutare sia la complessità dei dataset che le capacità dei LLM. L'implementazione sia di HPF manuale che di HPF adattivo è pubblicamente disponibile.
Il video editing rappresenta una pietra angolare dei media digitali, dall'intrattenimento e l'educazione alla comunicazione professionale. Tuttavia, i metodi precedenti spesso trascurano la necessità di comprendere in modo completo sia i contesti globali che locali, portando a modifiche inaccurate e incoerenti nella dimensione spazio-temporale, specialmente per video lunghi. In questo articolo, introduciamo VIA, un framework unificato di adattamento spazio-temporale per il video editing globale e locale, spingendo i limiti della modifica coerente di video della durata di minuti. Innanzitutto, per garantire la coerenza locale all'interno dei singoli fotogrammi, il fondamento di VIA è un nuovo metodo di adattamento dell'editing in fase di test, che adatta un modello di editing di immagini pre-addestrato per migliorare la coerenza tra le potenziali direzioni di modifica e l'istruzione testuale, e adatta variabili latenti mascherate per un controllo locale preciso. Inoltre, per mantenere la coerenza globale lungo la sequenza video, introduciamo un adattamento spazio-temporale che adatta variabili di attenzione coerenti nei fotogrammi chiave e le applica strategicamente su tutta la sequenza per realizzare gli effetti di editing. Esperimenti estensivi dimostrano che, rispetto ai metodi di base, il nostro approccio VIA produce modifiche più fedeli ai video sorgente, più coerenti nel contesto spazio-temporale e più precise nel controllo locale. Ancora più importante, mostriamo che VIA può raggiungere una modifica coerente di video lunghi in pochi minuti, sbloccando il potenziale per compiti avanzati di video editing su sequenze video lunghe.
Il superallineamento, in cui gli esseri umani fungono da supervisori deboli di modelli superumani, è diventato un problema importante e ampiamente discusso nell'attuale era di rapido sviluppo dei Large Language Model (LLM). Il lavoro recente ha studiato preliminarmente questo problema utilizzando modelli deboli per supervisionare modelli forti. Si è scoperto che studenti forti supervisionati debolmente possono superare costantemente insegnanti deboli verso l'obiettivo di allineamento, portando a un fenomeno di generalizzazione da debole a forte. Tuttavia, ci preoccupa che dietro un fenomeno così promettente possa esistere un problema di inganno da debole a forte, in cui i modelli forti potrebbero ingannare i modelli deboli mostrando un buon allineamento nelle aree note ai modelli deboli ma producendo comportamenti disallineati nei casi che i modelli deboli non conoscono. Abbiamo quindi compiuto un primo passo verso l'esplorazione di questo problema di sicurezza in un caso specifico ma realistico di allineamento multi-obiettivo, in cui potrebbero esserci alcuni obiettivi di allineamento in conflitto tra loro (ad esempio, utilità rispetto a innocuità). Tale conflitto potrebbe portare i modelli forti a ingannare i modelli deboli in una dimensione di allineamento per ottenere un alto reward in un'altra dimensione di allineamento. I nostri esperimenti sia sul task di modellazione del reward che sullo scenario di ottimizzazione delle preferenze indicano: (1) l'inganno da debole a forte esiste; (2) il fenomeno di inganno potrebbe intensificarsi all'aumentare del divario di capacità tra modelli deboli e forti. Discutiamo anche potenziali soluzioni e scopriamo che il bootstrapping con un modello intermedio può mitigare l'inganno in una certa misura. Il nostro lavoro evidenzia l'urgente necessità di prestare maggiore attenzione alla vera affidabilità del superallineamento.
I modelli linguistici abilitati alla visione (VLMs) vengono ora utilizzati per costruire agenti multimodali autonomi in grado di compiere azioni in ambienti reali. In questo articolo, dimostriamo che gli agenti multimodali presentano nuovi rischi per la sicurezza, nonostante attaccare gli agenti sia più impegnativo rispetto ad attacchi precedenti a causa dell'accesso limitato e della conoscenza parziale dell'ambiente. I nostri attacchi utilizzano stringhe di testo avversarie per guidare perturbazioni basate su gradienti su un'immagine trigger nell'ambiente: (1) il nostro attacco al captioner colpisce i captioner white-box se vengono utilizzati per elaborare immagini in didascalie come input aggiuntivi per il VLM; (2) il nostro attacco CLIP colpisce un insieme di modelli CLIP in modo congiunto, il che può trasferirsi a VLMs proprietari. Per valutare gli attacchi, abbiamo curato VisualWebArena-Adv, un insieme di task avversari basati su VisualWebArena, un ambiente per task di agenti multimodali basati sul web. Con una norma L-infinito di 16/256 su una singola immagine, l'attacco al captioner può far sì che un agente GPT-4V potenziato da captioner esegua gli obiettivi avversari con un tasso di successo del 75%. Quando rimuoviamo il captioner o utilizziamo GPT-4V per generare le proprie didascalie, l'attacco CLIP può raggiungere tassi di successo del 21% e del 43%, rispettivamente. Esperimenti su agenti basati su altri VLMs, come Gemini-1.5, Claude-3 e GPT-4o, mostrano differenze interessanti nella loro robustezza. Un'analisi più approfondita rivela diversi fattori chiave che contribuiscono al successo dell'attacco, e discutiamo anche le implicazioni per le difese. Pagina del progetto: https://chenwu.io/attack-agent Codice e dati: https://github.com/ChenWu98/agent-attack
In questo articolo, evidenziamo come una mappatura subottimale tra rumore e dati porti a un addestramento lento dei modelli di diffusione. Durante l'addestramento di diffusione, i metodi attuali diffondono ogni immagine in tutto lo spazio del rumore, risultando in una miscela di tutte le immagini in ogni punto dello strato di rumore. Sottolineiamo che questa miscela casuale di mappatura rumore-dati complica l'ottimizzazione della funzione di denoising nei modelli di diffusione. Traendo ispirazione dal fenomeno dell'immiscibilità in fisica, proponiamo la Diffusione Immiscibile, un metodo semplice ed efficace per migliorare la miscela casuale della mappatura rumore-dati. In fisica, la miscibilità può variare in base a diverse forze intermolecolari. Pertanto, l'immiscibilità significa che la miscela delle sorgenti molecolari è distinguibile. Ispirati da ciò, proponiamo una strategia di addestramento basata su assegnazione e successiva diffusione. Nello specifico, prima di diffondere i dati dell'immagine nel rumore, assegniamo un rumore target di diffusione per i dati dell'immagine minimizzando la distanza totale tra coppie immagine-rumore in un mini-batch. L'assegnazione funziona analogamente a forze esterne per separare le aree diffusibili delle immagini, mitigando così le difficoltà intrinseche nell'addestramento di diffusione. Il nostro approccio è notevolmente semplice, richiedendo solo una riga di codice per limitare l'area diffusibile di ogni immagine preservando la distribuzione gaussiana del rumore. Ciò garantisce che ogni immagine sia proiettata solo su rumore vicino. Per affrontare l'elevata complessità dell'algoritmo di assegnazione, utilizziamo un metodo di assegnazione quantizzata per ridurre il sovraccarico computazionale a un livello trascurabile. Gli esperimenti dimostrano che il nostro metodo raggiunge un addestramento fino a 3 volte più veloce per i modelli di consistenza e DDIM sul dataset CIFAR, e fino a 1,3 volte più veloce sui dataset CelebA per i modelli di consistenza. Inoltre, conduciamo un'analisi approfondita sulla Diffusione Immiscibile, che getta luce su come essa migliori la velocità di addestramento di diffusione aumentando al contempo la fedeltà.
I modelli di grandi dimensioni per la generazione di musica da testo hanno compiuto progressi significativi, facilitando la creazione di composizioni musicali di alta qualità e varietà a partire da prompt testuali forniti. Tuttavia, i prompt testuali in ingresso potrebbero non catturare con precisione i requisiti dell'utente, specialmente quando l'obiettivo è generare musica che incarni un concetto specifico derivato da una collezione di riferimento designata. In questo articolo, proponiamo un metodo innovativo per la generazione personalizzata di musica da testo, in grado di catturare il concetto da un brano musicale di riferimento della durata di due minuti e generare un nuovo brano conforme al concetto. Raggiungiamo questo obiettivo ottimizzando un modello pre-addestrato per la generazione di musica da testo utilizzando il brano di riferimento. Tuttavia, l'ottimizzazione diretta di tutti i parametri porta a problemi di overfitting. Per affrontare questa problematica, proponiamo un metodo di Ottimizzazione dei Parametri Pivotal che consente al modello di assimilare il nuovo concetto preservando le sue capacità generative originali. Inoltre, identifichiamo un potenziale conflitto di concetti quando si introducono più concetti nel modello pre-addestrato. Presentiamo una strategia di potenziamento del concetto per distinguere più concetti, consentendo al modello ottimizzato di generare musica che incorpori singoli o molteplici concetti simultaneamente. Poiché siamo i primi a lavorare sul compito di generazione musicale personalizzata, introduciamo anche un nuovo dataset e un protocollo di valutazione per il nuovo compito. Il nostro Jen1-DreamStyler proposto supera diverse baseline sia nelle valutazioni qualitative che quantitative. Le demo saranno disponibili su https://www.jenmusic.ai/research#DreamStyler.
In questo articolo, presentiamo un metodo di Adattamento a Basso Rango (LoRA) ispirato ai sottospazi, che è computazionalmente efficiente, facile da implementare e immediatamente applicabile a modelli linguistici di grandi dimensioni, multimodali e di diffusione. Inizialmente, scomponiamo in modo equivalente i pesi di LoRA in due sottospazi e scopriamo che semplicemente mescolarli può migliorare le prestazioni. Per studiare tale fenomeno, lo esaminiamo attraverso una lente fine dei sottospazi, dimostrando che tale modifica equivale all'utilizzo di un mixer fisso per fondere i sottospazi. Per essere più flessibili, apprendiamo congiuntamente il mixer con i pesi originali di LoRA e denominiamo il metodo Mixture-of-Subspaces LoRA (MoSLoRA). MoSLoRA supera costantemente LoRA in compiti di diverse modalità, tra cui il ragionamento di senso comune, il tuning delle istruzioni visive e la generazione di immagini da testo guidata da soggetti, dimostrando la sua efficacia e robustezza. I codici sono disponibili su https://github.com/wutaiqiang/MoSLoRA{github}.