Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti progressi nei modelli linguistici multimodali open-source (MLLMs) si sono concentrati principalmente sul potenziamento delle capacità di base, lasciando un significativo divario nell'allineamento con le preferenze umane. Questo articolo introduce OmniAlign-V, un dataset completo di 200.000 campioni di addestramento di alta qualità che presentano immagini diverse, domande complesse e formati di risposta variati, per migliorare l'allineamento degli MLLMs con le preferenze umane. Presentiamo inoltre MM-AlignBench, un benchmark annotato manualmente progettato specificamente per valutare l'allineamento degli MLLMs con i valori umani. I risultati sperimentali dimostrano che il fine-tuning degli MLLMs con OmniAlign-V, utilizzando il Supervised Fine-Tuning (SFT) o l'ottimizzazione diretta delle preferenze (DPO), migliora significativamente l'allineamento con le preferenze umane, mantenendo o migliorando le prestazioni sui benchmark standard di VQA e preservando le loro capacità fondamentali. I nostri dataset, benchmark, codice e checkpoint sono stati rilasciati su https://github.com/PhoenixZ810/OmniAlign-V.
Il recente rilascio di DeepSeek-R1 ha dimostrato l'enorme potenziale dell'apprendimento per rinforzo (Reinforcement Learning, RL) nel migliorare le capacità di ragionamento generale dei grandi modelli linguistici (Large Language Models, LLMs). Mentre DeepSeek-R1 e altri lavori successivi si concentrano principalmente sull'applicazione dell'RL a problemi di programmazione competitiva e matematica, questo articolo introduce SWE-RL, il primo approccio per scalare il ragionamento basato su RL dei LLM per l'ingegneria del software nel mondo reale. Sfruttando una ricompensa leggera basata su regole (ad esempio, il punteggio di similarità tra le soluzioni reali e quelle generate dal LLM), SWE-RL consente ai LLM di recuperare autonomamente i processi di ragionamento e le soluzioni di uno sviluppatore, apprendendo da estesi dati di evoluzione del software open-source — il registro dell'intero ciclo di vita di un software, inclusi snapshot del codice, modifiche al codice ed eventi come issue e pull request. Addestrato su Llama 3, il nostro modello di ragionamento risultante, Llama3-SWE-RL-70B, raggiunge un tasso di risoluzione del 41.0% su SWE-bench Verified, una raccolta verificata da esseri umani di issue reali di GitHub. A nostra conoscenza, si tratta della migliore performance riportata per LLM di medie dimensioni (<100B) fino ad oggi, paragonabile anche a LLM proprietari leader come GPT-4o. Sorprendentemente, nonostante l'RL sia stato eseguito esclusivamente su dati di evoluzione del software, Llama3-SWE-RL ha sviluppato anche abilità di ragionamento generalizzato. Ad esempio, mostra risultati migliorati in cinque task fuori dominio, ovvero codifica di funzioni, uso di librerie, ragionamento sul codice, matematica e comprensione del linguaggio generale, mentre una baseline di fine-tuning supervisionato porta addirittura a un degrado medio delle prestazioni. Nel complesso, SWE-RL apre una nuova direzione per migliorare le capacità di ragionamento dei LLM attraverso l'apprendimento per rinforzo su dati massicci di ingegneria del software.
Un'implementazione efficiente dell'attenzione è essenziale per i modelli di grandi dimensioni a causa della sua complessità temporale quadratica. Fortunatamente, l'attenzione presenta comunemente una sparsità, ovvero molti valori nella mappa di attenzione sono prossimi allo zero, consentendo l'omissione dei calcoli corrispondenti. Molti studi hanno sfruttato il modello sparso per accelerare l'attenzione. Tuttavia, la maggior parte dei lavori esistenti si concentra sull'ottimizzazione dell'attenzione all'interno di modelli specifici sfruttando determinati schemi sparsi della mappa di attenzione. Un'attenzione sparsa universale che garantisca sia l'accelerazione che le prestazioni end-to-end di modelli diversi rimane elusiva. In questo articolo, proponiamo SpargeAttn, un'attenzione sparsa e quantizzata universale per qualsiasi modello. Il nostro metodo utilizza un filtro online a due stadi: nella prima fase, prevediamo rapidamente e con precisione la mappa di attenzione, consentendo di saltare alcune moltiplicazioni di matrici nell'attenzione. Nella seconda fase, progettiamo un filtro online softmax-aware che non comporta costi aggiuntivi e salta ulteriori moltiplicazioni di matrici. Gli esperimenti dimostrano che il nostro metodo accelera significativamente modelli diversi, inclusi quelli per la generazione di linguaggio, immagini e video, senza sacrificare le metriche end-to-end. I codici sono disponibili all'indirizzo https://github.com/thu-ml/SpargeAttn.
La coerenza dello sfondo rimane una sfida significativa nei compiti di modifica delle immagini. Nonostante i notevoli progressi, i lavori esistenti devono ancora affrontare un compromesso tra il mantenimento della somiglianza con l'immagine originale e la generazione di contenuti che si allineano con l'obiettivo. Qui proponiamo KV-Edit, un approccio senza addestramento che utilizza la cache KV nei DiT per mantenere la coerenza dello sfondo, dove i token dello sfondo vengono preservati anziché rigenerati, eliminando la necessità di meccanismi complessi o di un addestramento costoso, generando infine nuovi contenuti che si integrano perfettamente con lo sfondo all'interno delle regioni fornite dall'utente. Esploriamo ulteriormente il consumo di memoria della cache KV durante la modifica e ottimizziamo la complessità spaziale a O(1) utilizzando un metodo senza inversione. Il nostro approccio è compatibile con qualsiasi modello generativo basato su DiT senza ulteriore addestramento. Gli esperimenti dimostrano che KV-Edit supera significativamente gli approcci esistenti sia in termini di qualità dello sfondo che dell'immagine, superando persino i metodi basati sull'addestramento. La pagina del progetto è disponibile all'indirizzo https://xilluill.github.io/projectpages/KV-Edit.
La generazione di immagini multi-strato è un compito fondamentale che consente agli utenti di isolare, selezionare e modificare specifici strati di immagini, rivoluzionando così le interazioni con i modelli generativi. In questo articolo, introduciamo l'Anonymous Region Transformer (ART), che facilita la generazione diretta di immagini trasparenti multi-strato variabili basate su un prompt testuale globale e un layout di regioni anonime. Ispirati dalla teoria degli schemi, che suggerisce che la conoscenza è organizzata in strutture (schemi) che consentono alle persone di interpretare e apprendere nuove informazioni collegandole a conoscenze pregresse, questo layout di regioni anonime permette al modello generativo di determinare autonomamente quale insieme di token visivi debba allinearsi con quali token testuali, in contrasto con il layout semantico precedentemente dominante per il compito di generazione di immagini. Inoltre, il meccanismo di ritaglio regionale strato per strato, che seleziona solo i token visivi appartenenti a ciascuna regione anonima, riduce significativamente i costi computazionali dell'attenzione e consente la generazione efficiente di immagini con numerosi strati distinti (ad esempio, 50+). Rispetto all'approccio di attenzione completa, il nostro metodo è oltre 12 volte più veloce e presenta meno conflitti tra gli strati. Inoltre, proponiamo un autoencoder di alta qualità per immagini trasparenti multi-strato che supporta la codifica e decodifica diretta della trasparenza di immagini multi-strato variabili in modo congiunto. Consentendo un controllo preciso e una generazione scalabile degli strati, ART stabilisce un nuovo paradigma per la creazione di contenuti interattivi.
I rapidi progressi nel campo del calcolo aumentano in modo significativo la scala e il costo dell'addestramento dei Large Language Models (LLM). Prevedere con precisione le prestazioni sui task downstream prima dell'addestramento del modello è cruciale per un'allocazione efficiente delle risorse, ma rimane una sfida a causa di due vincoli principali: (1) il "fenomeno dell'emergenza", in cui le metriche di prestazione downstream diventano significative solo dopo un addestramento esteso, limitando la capacità di utilizzare modelli più piccoli per la previsione; (2) distribuzioni irregolari della difficoltà dei task e l'assenza di leggi di scala consistenti, che portano a una variabilità sostanziale delle metriche. I metodi esistenti di previsione delle prestazioni soffrono di accuratezza e affidabilità limitate, ostacolando così la valutazione delle potenziali capacità degli LLM. Per affrontare queste sfide, proponiamo un framework di previsione delle prestazioni downstream basato sul Clustering-On-Difficulty (COD). COD costruisce prima un sottoinsieme di supporto prevedibile raggruppando i task in base alle caratteristiche di difficoltà, escludendo strategicamente i cluster non emergenti e non scalabili. I punteggi sul sottoinsieme selezionato fungono da predittori intermedi efficaci delle prestazioni downstream sull'intero set di valutazione. Con supporto teorico, deriviamo una funzione di mappatura che trasforma le metriche di prestazione dal sottoinsieme prevedibile all'intero set di valutazione, garantendo così un'estrapolazione accurata delle prestazioni downstream degli LLM. Il metodo proposto è stato applicato per prevedere la scalabilità delle prestazioni di un LLM da 70B, fornendo indicazioni utili per l'allocazione delle risorse di addestramento e assistendo nel monitoraggio del processo di addestramento. In particolare, COD raggiunge un'accuratezza predittiva notevole sul LLM da 70B sfruttando un insieme di modelli più piccoli, dimostrando una deviazione media assoluta dell'1,36% su otto importanti benchmark di valutazione degli LLM.
L'esperimentazione scientifica, pietra angolare del progresso umano, richiede rigore nella affidabilità, controllo metodico e interpretabilità per ottenere risultati significativi. Nonostante le crescenti capacità dei grandi modelli linguistici (LLM) nell'automatizzare diversi aspetti del processo scientifico, automatizzare l'esperimentazione rigorosa rimane una sfida significativa. Per affrontare questa lacuna, proponiamo Curie, un framework di agenti di intelligenza artificiale progettato per incorporare il rigore nel processo sperimentale attraverso tre componenti chiave: un modulo di rigore intra-agente per migliorare l'affidabilità, un modulo di rigore inter-agente per mantenere il controllo metodico e un modulo di conoscenza sperimentale per migliorare l'interpretabilità. Per valutare Curie, progettiamo un nuovo benchmark sperimentale composto da 46 domande in quattro domini dell'informatica, derivate da influenti articoli di ricerca e ampiamente adottati progetti open-source. Rispetto alla migliore base di confronto testata, otteniamo un miglioramento del 3,4 volte nel rispondere correttamente alle domande sperimentali. Curie è open-source su https://github.com/Just-Curieous/Curie.
Studi recenti hanno esplorato la combinazione di diversi LoRA per generare congiuntamente stile e contenuto appresi. Tuttavia, i metodi esistenti non riescono a preservare efficacemente sia il soggetto originale che lo stile contemporaneamente o richiedono un addestramento aggiuntivo. In questo articolo, sosteniamo che le proprietà intrinseche del LoRA possono guidare efficacemente i modelli di diffusione nella fusione di soggetto e stile appresi. Basandoci su questa intuizione, proponiamo K-LoRA, un approccio di fusione LoRA semplice ma efficace che non richiede addestramento. In ogni livello di attenzione, K-LoRA confronta gli elementi Top-K in ciascun LoRA da fondere, determinando quale LoRA selezionare per una fusione ottimale. Questo meccanismo di selezione garantisce che le caratteristiche più rappresentative sia del soggetto che dello stile vengano mantenute durante il processo di fusione, bilanciando efficacemente i loro contributi. I risultati sperimentali dimostrano che il metodo proposto integra efficacemente le informazioni sul soggetto e sullo stile apprese dai LoRA originali, superando approcci basati su addestramento all'avanguardia sia nei risultati qualitativi che quantitativi.
Per sfruttare le informazioni visive, il Multimodal Large Language Model (MLLM) si affida al processo di percezione del suo encoder visivo. La completezza e l'accuratezza della percezione visiva influenzano significativamente la precisione del ragionamento spaziale, della comprensione fine e di altre attività. Tuttavia, l'MLLM manca ancora della capacità autonoma di controllare i propri processi di percezione visiva, ad esempio, rivedere selettivamente regioni specifiche di un'immagine o concentrarsi su informazioni relative a categorie specifiche di oggetti. In questo lavoro, proponiamo il concetto di Visual Perception Token, con l'obiettivo di dotare l'MLLM di un meccanismo per controllare i suoi processi di percezione visiva. Progettiamo due tipi di Visual Perception Token, denominati Region Selection Token e Vision Re-Encoding Token. Gli MLLM generano autonomamente questi token, proprio come generano testo, e li utilizzano per attivare azioni aggiuntive di percezione visiva. Il Region Selection Token identifica esplicitamente regioni specifiche di un'immagine che richiedono un'ulteriore percezione, mentre il Vision Re-Encoding Token utilizza i suoi stati nascosti come segnali di controllo per guidare ulteriori processi di percezione visiva. Esperimenti estesi dimostrano i vantaggi di questi token nella gestione del ragionamento spaziale, nel miglioramento della comprensione fine e in altre attività. In media, l'introduzione dei Visual Perception Token migliora le prestazioni di un modello da 2B del 23,6%, aumentando il suo punteggio da 0,572 a 0,708, e supera persino un modello da 7B parametri del 13,4% (da 0,624). Consultate il nostro repository all'indirizzo https://github.com/yu-rp/VisualPerceptionToken.
La stabilità dell'addestramento rappresenta una sfida persistente nel pre-training di grandi modelli linguistici (LLM), in particolare per architetture come i Transformer Post-Norm, che sono soggetti a esplosione e dissipazione del gradiente. In questo articolo, proponiamo il Decoupling Scala-Distribuzione (SDD), un approccio innovativo che stabilizza l'addestramento disaccoppiando esplicitamente la scala e la distribuzione della matrice dei pesi nei livelli completamente connessi. SDD applica un meccanismo di normalizzazione per regolare le attivazioni e un vettore di scalatura apprendibile per mantenere gradienti ben condizionati, prevenendo efficacemente l'esplosione e la dissipazione del gradiente. Questa separazione migliora l'efficienza dell'ottimizzazione, specialmente nelle reti profonde, garantendo una propagazione stabile del gradiente. I risultati sperimentali dimostrano che il nostro metodo stabilizza l'addestramento su varie architetture LLM e supera le tecniche esistenti in diverse configurazioni di normalizzazione. Inoltre, il metodo proposto è leggero e compatibile con i framework esistenti, rendendolo una soluzione pratica per stabilizzare l'addestramento degli LLM. Il codice è disponibile all'indirizzo https://github.com/kaihemo/SDD.
Introduciamo WebGames, una suite di benchmark completa progettata per valutare agenti AI generici per la navigazione web attraverso una raccolta di oltre 50 sfide interattive. Queste sfide sono state specificamente create per essere semplici per gli esseri umani, mentre testano sistematicamente i limiti degli attuali sistemi di AI in termini di interazioni di base con il browser, elaborazione avanzata degli input, compiti cognitivi, automazione dei flussi di lavoro e intrattenimento interattivo. Il nostro framework elimina le dipendenze esterne attraverso un ambiente di test ermetico, garantendo una valutazione riproducibile con soluzioni di riferimento verificabili. Valutiamo i principali modelli visione-linguaggio, tra cui GPT-4o, Claude Computer-Use, Gemini-1.5-Pro e Qwen2-VL, confrontandoli con le prestazioni umane. I risultati rivelano un divario significativo nelle capacità, con il miglior sistema AI che raggiunge solo un tasso di successo del 43,1% rispetto al 95,7% delle prestazioni umane, evidenziando limitazioni fondamentali nell'abilità degli attuali sistemi AI di gestire modelli di interazione web che gli esseri umani trovano intuitivi. Il benchmark è disponibile pubblicamente su webgames.convergence.ai, offrendo un'implementazione leggera lato client che facilita cicli di valutazione rapidi. Grazie alla sua architettura modulare e alle specifiche standardizzate delle sfide, WebGames fornisce una solida base per misurare i progressi nello sviluppo di agenti di navigazione web più capaci.
Motivati dalla riduzione dei costi computazionali e di memorizzazione dei LLM, la compressione dei modelli e la compressione della cache KV hanno attirato molta attenzione da parte dei ricercatori. Tuttavia, i metodi attuali si concentrano principalmente sul mantenimento delle prestazioni dei LLM compressi, misurate attraverso la perplessità o l'accuratezza semplice in compiti di domande e risposte su conoscenza di senso comune e ragionamento aritmetico di base. In questo blog, presentiamo una breve rassegna dei recenti progressi nei LLM relativi alla generazione aumentata da recupero, al ragionamento a più passaggi, agli strumenti esterni e all'espressività computazionale, tutti elementi che migliorano sostanzialmente le prestazioni dei LLM. Successivamente, proponiamo un'ipotesi di LLM lotteria che suggerisce che, per un dato LLM e un determinato compito, esiste un LLM lotteria più piccolo in grado di produrre le stesse prestazioni del LLM originale con l'assistenza del ragionamento a più passaggi e degli strumenti esterni. Sulla base della rassegna dei progressi attuali nei LLM, discutiamo e riassumiamo le capacità essenziali che il LLM lotteria e la compressione della cache KV devono possedere, attualmente trascurate nei metodi esistenti.
I Modelli di Linguaggio Multimodali di Grandi Dimensioni (MLLMs) hanno registrato un rapido progresso nelle attività di riconoscimento visivo negli ultimi anni. Data la loro potenziale integrazione in molte applicazioni critiche, è importante comprendere i limiti della loro percezione visiva. In questo lavoro, studiamo se i MLLMs possano percepire piccoli dettagli visivi in modo efficace quanto quelli di dimensioni maggiori quando rispondono a domande su immagini. Osserviamo che le loro prestazioni sono molto sensibili alla dimensione del soggetto visivo della domanda e dimostriamo inoltre che questo effetto è effettivamente causale attraverso uno studio di intervento. Successivamente, esaminiamo i modelli di attenzione dei MLLMs quando rispondono a domande visive e troviamo in modo intrigante che essi sanno costantemente dove guardare, anche quando forniscono una risposta sbagliata. Sulla base di questi risultati, proponiamo quindi metodi di intervento visivo senza addestramento che sfruttano la conoscenza interna di qualsiasi MLLM stesso, sotto forma di mappe di attenzione e gradienti, per migliorare la sua percezione dei piccoli dettagli visivi. Valutiamo i nostri metodi proposti su due MLLMs ampiamente utilizzati e su sette benchmark di risposta a domande visive e mostriamo che possono migliorare significativamente l'accuratezza dei MLLMs senza richiedere alcun addestramento. I nostri risultati chiariscono il rischio nell'applicare i MLLMs alle attività di riconoscimento visivo riguardanti piccoli dettagli e indicano che l'intervento visivo utilizzando lo stato interno del modello è una direzione promettente per mitigare questo rischio.
La generazione iterativa di dati e il riaddestramento del modello sono ampiamente utilizzati per allineare i grandi modelli linguistici (LLM). Questo processo coinvolge tipicamente un modello di policy per generare risposte on-policy e un modello di reward per guidare la selezione dei dati di addestramento. L'ottimizzazione diretta delle preferenze (Direct Preference Optimization, DPO) migliora ulteriormente questo processo costruendo coppie di preferenze tra risposte scelte e rifiutate. In questo lavoro, miriamo a scalare il numero di campioni on-policy attraverso un campionamento casuale ripetuto per migliorare le prestazioni di allineamento. La pratica convenzionale seleziona il campione con il reward più alto come scelto e quello con il reward più basso come rifiutato per il DPO. Tuttavia, i nostri esperimenti rivelano che questa strategia porta a un declino delle prestazioni all'aumentare della dimensione del campione. Per affrontare questo problema, investigiamo la costruzione dei dati di preferenza attraverso la lente della distribuzione normale sottostante dei reward dei campioni. Categorizziamo lo spazio dei reward in sette punti rappresentativi ed esploriamo sistematicamente tutte le 21 combinazioni a coppie (C_7^2). Attraverso valutazioni su quattro modelli utilizzando AlpacaEval 2, scopriamo che selezionare la risposta rifiutata alla posizione di reward mu - 2sigma, piuttosto che al reward minimo, è cruciale per ottenere prestazioni ottimali. Introduciamo infine una strategia scalabile per la costruzione dei dati di preferenza che migliora costantemente le prestazioni del modello all'aumentare della scala del campione.
Le valutazioni dei grandi modelli linguistici (LLM) di solito si basano su metriche aggregate come accuratezza o preferenza umana, facendo una media tra utenti e prompt. Questa media oscura le variazioni specifiche degli utenti e dei prompt nelle prestazioni del modello. Per affrontare questo problema, proponiamo Prompt-to-Leaderboard (P2L), un metodo che produce classifiche specifiche per un prompt. L'idea principale è addestrare un LLM che prende prompt in linguaggio naturale in input per produrre un vettore di coefficienti di Bradley-Terry che vengono poi utilizzati per prevedere il voto di preferenza umana. Le classifiche dipendenti dal prompt risultanti consentono una valutazione specifica del compito non supervisionata, un instradamento ottimale delle query ai modelli, la personalizzazione e la valutazione automatizzata dei punti di forza e di debolezza del modello. I dati provenienti da Chatbot Arena suggeriscono che P2L cattura meglio il paesaggio sfumato delle prestazioni del modello linguistico rispetto alla classifica media. Inoltre, le nostre scoperte suggeriscono che la capacità di P2L di produrre valutazioni specifiche del prompt segue una scalabilità di legge di potenza simile a quella osservata negli stessi LLM. Nel gennaio 2025, il router che abbiamo addestrato basandoci su questa metodologia ha raggiunto il primo posto nella classifica di Chatbot Arena. Il nostro codice è disponibile a questo link GitHub: https://github.com/lmarena/p2l.
In questo articolo, presentiamo LDGen, un nuovo metodo per integrare grandi modelli linguistici (LLM) nei modelli di diffusione testo-immagine esistenti riducendo al minimo le richieste computazionali. Gli encoder di testo tradizionali, come CLIP e T5, presentano limitazioni nel trattamento multilingue, ostacolando la generazione di immagini in diverse lingue. Affrontiamo queste sfide sfruttando le capacità avanzate dei LLM. Il nostro approccio utilizza una strategia di rappresentazione linguistica che applica ottimizzazione gerarchica della didascalia e tecniche di istruzioni umane per estrarre informazioni semantiche precise. Successivamente, incorporiamo un adattatore leggero e un raffinatore cross-modale per facilitare l'allineamento efficiente delle caratteristiche e l'interazione tra i LLM e le caratteristiche dell'immagine. LDGen riduce il tempo di addestramento e consente la generazione di immagini multilingue senza bisogno di adattamento. I risultati sperimentali indicano che il nostro metodo supera i modelli di riferimento sia nell'aderenza alla richiesta che nella qualità estetica delle immagini, supportando senza problemi diverse lingue. Pagina del progetto: https://zrealli.github.io/LDGen.
I modelli fondazionali uditivi, inclusi i grandi modelli linguistici (LLM) uditivi, elaborano tutti gli input sonori in modo uniforme, indipendentemente dalla percezione dell'ascoltatore. Tuttavia, la percezione uditiva umana è intrinsecamente selettiva: gli ascoltatori si concentrano su specifici parlanti ignorando gli altri in scene uditive complesse. I modelli esistenti non incorporano questa selettività, limitando la loro capacità di generare risposte allineate alla percezione. Per affrontare questo problema, introduciamo la Comprensione della Scena Uditiva Informata dall'Intenzione (II-ASU) e presentiamo Auditory Attention-Driven LLM (AAD-LLM), un sistema prototipale che integra segnali cerebrali per inferire l'attenzione dell'ascoltatore. AAD-LLM estende un LLM uditivo incorporando registrazioni di elettroencefalografia intracranica (iEEG) per decodificare a quale parlante l'ascoltatore sta prestando attenzione e affinare le risposte di conseguenza. Il modello prevede prima il parlante a cui si sta prestando attenzione dall'attività neurale, quindi condiziona la generazione della risposta su questo stato attentivo inferito. Valutiamo AAD-LLM su descrizione del parlante, trascrizione ed estrazione del parlato e risposta a domande in scenari con più parlanti, con valutazioni sia oggettive che soggettive che mostrano un migliorato allineamento con l'intenzione dell'ascoltatore. Compiendo un primo passo verso l'IA uditiva consapevole dell'intenzione, questo lavoro esplora un nuovo paradigma in cui la percezione dell'ascoltatore informa l'ascolto automatico, aprendo la strada a futuri sistemi uditivi centrati sull'ascoltatore. Demo e codice disponibili: https://aad-llm.github.io.
I Large Language Models (LLM) sono emersi come strumenti trasformativi nell'intelligenza artificiale (IA), mostrando notevoli capacità in diverse attività come la generazione di testo, il ragionamento e la presa di decisioni. Sebbene il loro successo sia stato principalmente guidato dai progressi nella potenza computazionale e nelle architetture di apprendimento profondo, problemi emergenti - in aree come la quantificazione dell'incertezza, la presa di decisioni, l'inferenza causale e lo spostamento della distribuzione - richiedono un coinvolgimento più profondo con il campo della statistica. Questo articolo esplora le possibili aree in cui gli statistici possono apportare importanti contributi allo sviluppo dei LLM, in particolare quelli che mirano a garantire affidabilità e trasparenza per gli utenti umani. Pertanto, ci concentriamo su questioni come la quantificazione dell'incertezza, l'interpretabilità, l'equità, la privacy, il watermarking e l'adattamento del modello. Consideriamo anche possibili ruoli per i LLM nell'analisi statistica. Attraverso il collegamento tra IA e statistica, miriamo a promuovere una collaborazione più profonda che favorisca lo sviluppo delle basi teoriche e delle applicazioni pratiche dei LLM, plasmando in definitiva il loro ruolo nel affrontare complessi problemi sociali.
I modelli dello spazio degli stati (SSM), come Mamba, sono emersi come un'efficiente alternativa ai trasformatori per la modellizzazione di sequenze a lungo contesto. Tuttavia, nonostante la loro crescente adozione, gli SSM mancano degli strumenti di interpretabilità che sono stati cruciali per la comprensione e il miglioramento delle architetture basate sull'attenzione. Mentre gli sforzi recenti forniscono approfondimenti sui meccanismi interni di Mamba, non decompongono esplicitamente le contribuzioni a livello di token, lasciando delle lacune nella comprensione di come Mamba elabori selettivamente le sequenze attraverso i livelli. In questo lavoro, presentiamo LaTIM, un nuovo metodo di decomposizione a livello di token per sia Mamba-1 che Mamba-2 che consente un'interpretabilità dettagliata. Valutiamo ampiamente il nostro metodo su diverse attività, tra cui la traduzione automatica, la copiatura e la generazione basata sul recupero, dimostrandone l'efficacia nel rivelare i modelli di interazione da token a token di Mamba.
Presentiamo Shakti VLM, una famiglia di modelli visione-linguaggio con capacità di 1B e 4B parametri, progettata per affrontare le sfide di efficienza dei dati nell'apprendimento multimodale. Mentre i recenti VLM raggiungono prestazioni elevate attraverso un ampio volume di dati di addestramento, i modelli Shakti sfruttano innovazioni architetturali per ottenere risultati competitivi con un minor numero di token. Tra i progressi chiave figurano la QK-Normalization per la stabilità dell'attenzione, tecniche di normalizzazione ibrida e un miglioramento della codifica posizionale. Una strategia di addestramento in tre fasi ottimizza ulteriormente l'efficienza dell'apprendimento. Le valutazioni dimostrano che Shakti-VLM-1B e Shakti-VLM-4B eccellono nella comprensione di documenti, ragionamento visivo, estrazione OCR e ragionamento multimodale generale. I nostri risultati evidenziano come alte prestazioni possano essere raggiunte attraverso il design del modello e la strategia di addestramento piuttosto che il semplice volume di dati, rendendo Shakti una soluzione efficiente per attività multimodali su scala aziendale.
Introduciamo WiCkeD, un metodo semplice per aumentare la complessità dei benchmark a scelta multipla esistenti sostituendo casualmente una scelta con "Nessuna delle precedenti", un metodo spesso utilizzato nei test educativi. Dimostriamo che WiCkeD può essere applicato automaticamente a qualsiasi benchmark esistente, rendendolo più impegnativo. Applichiamo WiCkeD a 6 benchmark popolari e lo utilizziamo per valutare 18 LLM open-weight. Le prestazioni dei modelli diminuiscono in media di 12,1 punti rispetto alle versioni originali dei dataset. Utilizzando la catena di pensiero su 3 dataset MMLU, la diminuzione delle prestazioni per la variante WiCkeD è simile a quella osservata quando si utilizzano direttamente gli LLM, dimostrando che WiCkeD è altrettanto impegnativo per i modelli con capacità di ragionamento potenziate. WiCkeD mette anche in luce che alcuni modelli sono più sensibili al ragionamento extra richiesto, fornendo informazioni aggiuntive rispetto ai benchmark originali. Rilasciamo il nostro codice e i dati su https://github.com/ahmedselhady/wicked-benchmarks.
I moderni modelli linguistici si basano su vocabolari statici, fissati prima del preaddestramento, in contrasto con l'acquisizione adattiva del vocabolario osservata nell'apprendimento linguistico umano. Per colmare questa lacuna, introduciamo l'apprendimento del curriculum del vocabolario, un approccio che migliora l'efficienza del preaddestramento con guadagni di scala log-lineare rispetto alla dimensione del vocabolario. Il nostro metodo alterna l'espansione del vocabolario guidata dall'entropia e l'ottimizzazione del modello, consentendo ai modelli di apprendere rappresentazioni trasferibili attraverso diverse granularità di tokenizzazione. Questo approccio dà naturalmente origine a un modello ottimale di allocazione della computazione: i token più lunghi catturano contenuti prevedibili, mentre i token più corti si concentrano su contesti più complessi e difficili da prevedere. Gli esperimenti sui modelli GPT su piccola scala dimostrano un'efficienza di scalabilità migliorata, rafforzando l'efficacia della tokenizzazione dinamica. Rilasciamo il nostro codice per supportare ulteriori ricerche e pianifichiamo di estendere i nostri esperimenti a modelli più grandi e a domini diversi.