Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli visione-linguaggio (VLMs) offrono prestazioni eccezionali ma richiedono risorse computazionali significative, limitandone il dispiegamento su dispositivi mobili e periferici. I VLMs più piccoli tendono a replicare le scelte progettuali dei modelli più grandi, come un'estesa tokenizzazione delle immagini, portando a un uso inefficiente della memoria GPU e a una praticità limitata per applicazioni su dispositivo. Introduciamo SmolVLM, una serie di modelli multimodali compatti specificamente progettati per inferenza efficiente in termini di risorse. Esploriamo sistematicamente configurazioni architetturali, strategie di tokenizzazione e curatela dei dati ottimizzati per un basso sovraccarico computazionale. Attraverso questo processo, identifichiamo scelte progettuali chiave che garantiscono sostanziali miglioramenti nelle prestazioni su compiti di immagini e video con un'impronta di memoria minima. Il nostro modello più piccolo, SmolVLM-256M, utilizza meno di 1 GB di memoria GPU durante l'inferenza e supera il modello Idefics-80B, 300 volte più grande, nonostante un divario di sviluppo di 18 mesi. Il nostro modello più grande, con 2,2 miliardi di parametri, rivaleggia con i VLMs all'avanguardia che consumano il doppio della memoria GPU. I modelli SmolVLM vanno oltre le immagini statiche, dimostrando robuste capacità di comprensione video. I nostri risultati evidenziano che ottimizzazioni architetturali strategiche, tokenizzazione aggressiva ma efficiente e dati di addestramento accuratamente curati migliorano significativamente le prestazioni multimodali, facilitando dispiegamenti pratici ed energeticamente efficienti su scale significativamente più ridotte.
I Transformer odierni continuano a lottare per generare video di un minuto perché i livelli di self-attention sono inefficienti per contesti lunghi. Alternative come i livelli Mamba hanno difficoltà con storie complesse a più scene perché i loro stati nascosti sono meno espressivi. Sperimentiamo con i livelli di Test-Time Training (TTT), i cui stati nascosti possono essere essi stessi reti neurali, e quindi più espressivi. L'aggiunta di livelli TTT a un Transformer pre-addestrato gli consente di generare video di un minuto a partire da storyboard testuali. Come prova di concetto, abbiamo curato un dataset basato sui cartoni animati di Tom e Jerry. Rispetto ai baseline come Mamba~2, Gated DeltaNet e livelli di attenzione a finestra scorrevole, i livelli TTT generano video molto più coerenti che raccontano storie complesse, superando di 34 punti Elo in una valutazione umana di 100 video per metodo. Sebbene promettenti, i risultati contengono ancora artefatti, probabilmente a causa delle capacità limitate del modello pre-addestrato da 5B. L'efficienza della nostra implementazione può anche essere migliorata. Abbiamo sperimentato solo con video di un minuto a causa dei vincoli di risorse, ma l'approccio può essere esteso a video più lunghi e storie più complesse. Video di esempio, codice e annotazioni sono disponibili su: https://test-time-training.github.io/video-dit
La capacità di un modello linguistico di riflettere sul proprio ragionamento rappresenta un vantaggio cruciale per risolvere problemi complessi. Sebbene la maggior parte delle ricerche recenti si sia concentrata su come questa capacità si sviluppi durante l'apprendimento per rinforzo, dimostriamo che in realtà emerge molto prima, durante la fase di pre-addestramento del modello. Per studiare questo fenomeno, introduciamo errori deliberati nelle catene di ragionamento e testiamo se il modello è ancora in grado di arrivare alla risposta corretta riconoscendo e correggendo questi errori. Monitorando le prestazioni attraverso diverse fasi del pre-addestramento, osserviamo che questa capacità di autocorrezione appare precocemente e migliora costantemente nel tempo. Ad esempio, un modello OLMo2-7B pre-addestrato su 4 trilioni di token mostra autocorrezione nei nostri sei compiti di autoriflessione.
Studi recenti hanno dimostrato che il ridimensionamento del calcolo al momento del test migliora efficacemente le prestazioni dei piccoli modelli linguistici (sLM). Tuttavia, le ricerche precedenti hanno principalmente esaminato il ridimensionamento del calcolo al momento del test utilizzando un modello più grande come verificatore, lasciando poco esplorata l'autoverifica da parte degli sLM. In questo lavoro, indaghiamo se gli sLM possano autoverificare in modo affidabile i propri output sotto il ridimensionamento del calcolo al momento del test. Scopriamo che, anche con la distillazione della conoscenza da verificatori più grandi, gli sLM faticano nei compiti di verifica che richiedono memorizzazione, come calcoli numerici e verifica dei fatti. Per affrontare questa limitazione, proponiamo l'autoverifica integrata con strumenti (T1), che delega i passaggi di verifica ad alta intensità di memorizzazione a strumenti esterni, come un interprete di codice. La nostra analisi teorica mostra che l'integrazione di strumenti riduce le richieste di memorizzazione e migliora le prestazioni del ridimensionamento del calcolo al momento del test. Esperimenti sul benchmark MATH dimostrano che, con T1, un modello Llama-3.2 1B sotto ridimensionamento del calcolo al momento del test supera il modello Llama-3.1 8B significativamente più grande. Inoltre, T1 si generalizza efficacemente sia a compiti matematici (MATH500) che a compiti intensivi di conoscenza multi-dominio (MMLU-Pro). I nostri risultati evidenziano il potenziale dell'integrazione di strumenti per migliorare sostanzialmente le capacità di autoverifica degli sLM.
La descrizione a livello di regione mira a generare descrizioni in linguaggio naturale per specifiche regioni di un'immagine, evidenziandone le caratteristiche distintive. Tuttavia, i metodi esistenti faticano a produrre descrizioni uniche su più livelli di granularità, limitandone l'applicabilità nel mondo reale. Per soddisfare l'esigenza di una comprensione dettagliata a livello di regione, introduciamo il dataset URECA, un dataset su larga scala progettato per la descrizione di regioni a più livelli di granularità. A differenza dei dataset precedenti che si concentrano principalmente su oggetti salienti, il dataset URECA garantisce una mappatura unica e coerente tra regioni e descrizioni, incorporando un insieme diversificato di oggetti, parti ed elementi di sfondo. Al centro di questo processo c'è una pipeline di curatela dei dati a stadi, in cui ogni stadio affina progressivamente la selezione delle regioni e la generazione delle descrizioni. Sfruttando i Modelli Linguistici Multimodali di Grande Scala (MLLMs) in ogni stadio, la nostra pipeline produce descrizioni distintive e contestualmente fondate, con una maggiore accuratezza e diversità semantica. Basandoci su questo dataset, presentiamo URECA, un nuovo modello di descrizione progettato per codificare efficacemente regioni a più livelli di granularità. URECA mantiene proprietà spaziali essenziali come posizione e forma attraverso modifiche semplici ma significative agli MLLMs esistenti, consentendo descrizioni di regioni dettagliate e semanticamente ricche. Il nostro approccio introduce la modellazione dinamica delle maschere e un codificatore di maschere ad alta risoluzione per migliorare l'unicità delle descrizioni. Gli esperimenti dimostrano che URECA raggiunge prestazioni all'avanguardia sul dataset URECA e si generalizza bene ai benchmark esistenti per la descrizione a livello di regione.
I recenti progressi nei modelli linguistici di ragionamento hanno dimostrato prestazioni notevoli in compiti complessi, ma il loro processo esteso di ragionamento a catena di pensiero aumenta il sovraccarico inferenziale. Sebbene la quantizzazione sia stata ampiamente adottata per ridurre il costo inferenziale dei grandi modelli linguistici, il suo impatto sui modelli di ragionamento rimane poco studiato. In questo studio, conduciamo la prima analisi sistematica sui modelli di ragionamento quantizzati, valutando le famiglie open-source DeepSeek-R1-Distilled Qwen e LLaMA, che vanno da 1,5B a 70B parametri, e QwQ-32B. La nostra indagine copre la quantizzazione dei pesi, della cache KV e delle attivazioni utilizzando algoritmi all'avanguardia a diverse larghezze di bit, con una valutazione estesa su benchmark di ragionamento matematico (AIME, MATH-500), scientifico (GPQA) e di programmazione (LiveCodeBench). I nostri risultati rivelano che, sebbene sia possibile ottenere una quantizzazione senza perdite con W8A8 o W4A16, larghezze di bit inferiori introducono rischi significativi di accuratezza. Identifichiamo inoltre la dimensione del modello, l'origine del modello e la difficoltà del compito come determinanti critici delle prestazioni. Contrariamente alle aspettative, i modelli quantizzati non mostrano una maggiore lunghezza dell'output. Inoltre, un ridimensionamento strategico delle dimensioni del modello o dei passi di ragionamento può migliorare efficacemente le prestazioni. Tutti i modelli quantizzati e i codici saranno resi disponibili open-source su https://github.com/ruikangliu/Quantized-Reasoning-Models.
Presentiamo VAPO, un framework innovativo di Ottimizzazione Prossimale delle Politiche Aumentata basata su Valori, specificamente progettato per modelli di ragionamento all'interno del paradigma basato su valori. Testato sul dataset AIME 2024, VAPO, costruito sul modello pre-addestrato Qwen 32B, raggiunge un punteggio all'avanguardia di 60.4. In un confronto diretto in condizioni sperimentali identiche, VAPO supera i risultati precedentemente riportati di DeepSeek-R1-Zero-Qwen-32B e DAPO di oltre 10 punti. Il processo di addestramento di VAPO si distingue per la sua stabilità ed efficienza, raggiungendo prestazioni all'avanguardia in appena 5.000 passi. Inoltre, in più esecuzioni indipendenti, non si verificano crash di addestramento, sottolineandone l'affidabilità. Questa ricerca approfondisce il ragionamento a catena di pensiero lunga (long-CoT) utilizzando un framework di apprendimento per rinforzo basato su valori. Identifichiamo tre sfide principali che affliggono i metodi basati su valori: il bias del modello di valore, la presenza di lunghezze di sequenza eterogenee e la scarsità di segnali di ricompensa. Attraverso una progettazione sistematica, VAPO offre una soluzione integrata che allevia efficacemente queste sfide, consentendo prestazioni migliorate nei compiti di ragionamento long-CoT.
I modelli di diffusione sono ampiamente utilizzati per compiti di editing di immagini. I metodi di editing esistenti spesso progettano una procedura di manipolazione della rappresentazione curando una direzione di modifica nello spazio di embedding testuale o nello spazio dei punteggi. Tuttavia, tale procedura affronta una sfida chiave: sovrastimare la forza della modifica compromette la coerenza visiva, mentre sottostimarla fallisce nel compito di editing. È importante notare che ogni immagine sorgente può richiedere una diversa forza di editing, ed è costoso cercare una forza appropriata attraverso tentativi ed errori. Per affrontare questa sfida, proponiamo Concept Lancet (CoLan), un framework plug-and-play zero-shot per la manipolazione della rappresentazione basata su principi nell'editing di immagini basato su diffusione. Al momento dell'inferenza, scomponiamo l'input sorgente nello spazio latente (embedding testuale o punteggio di diffusione) come una combinazione lineare sparsa delle rappresentazioni dei concetti visivi raccolti. Questo ci permette di stimare accuratamente la presenza di concetti in ciascuna immagine, informando così la modifica. In base al compito di editing (sostituire/aggiungere/rimuovere), eseguiamo un processo personalizzato di trapianto di concetti per imporre la corrispondente direzione di modifica. Per modellare sufficientemente lo spazio dei concetti, curiamo un dataset di rappresentazione concettuale, CoLan-150K, che contiene descrizioni e scenari diversificati di termini e frasi visivi per il dizionario latente. Esperimenti su molteplici baseline di editing di immagini basate su diffusione mostrano che i metodi equipaggiati con CoLan raggiungono prestazioni all'avanguardia in termini di efficacia di editing e preservazione della coerenza.
Presentiamo LiveVQA, un dataset raccolto automaticamente contenente le ultime conoscenze visive provenienti da Internet con problemi VQA sintetizzati. LiveVQA è composto da 3.602 domande visive a singolo e multi-hop tratte da 6 siti web di notizie in 14 categorie, caratterizzate da una coerenza di alta qualità tra immagini e testo e da informazioni autentiche. La nostra valutazione su 15 MLLM (ad esempio, GPT-4o, Gemma-3 e la famiglia Qwen-2.5-VL) dimostra che i modelli più potenti ottengono prestazioni migliori in generale, con capacità avanzate di ragionamento visivo che si rivelano cruciali per le domande multi-hop complesse. Nonostante le eccellenti prestazioni sui problemi testuali, i modelli dotati di strumenti come i motori di ricerca mostrano ancora lacune significative quando affrontano domande visive che richiedono le ultime conoscenze visive, evidenziando aree importanti per la ricerca futura.
Il ragionamento è centrale per l'intelligenza umana, consentendo una risoluzione strutturata dei problemi in compiti diversi. I recenti progressi nei grandi modelli linguistici (LLM) hanno notevolmente migliorato le loro capacità di ragionamento nei domini aritmetici, del senso comune e simbolici. Tuttavia, estendere efficacemente queste capacità in contesti multimodali, dove i modelli devono integrare sia input visivi che testuali, rimane una sfida significativa. Il ragionamento multimodale introduce complessità, come la gestione di informazioni conflittuali tra le modalità, che richiedono ai modelli di adottare strategie interpretative avanzate. Affrontare queste sfide implica non solo algoritmi sofisticati, ma anche metodologie robuste per valutare l'accuratezza e la coerenza del ragionamento. Questo articolo offre una panoramica concisa ma approfondita delle tecniche di ragionamento nei LLM sia testuali che multimodali. Attraverso un confronto accurato e aggiornato, formuliamo chiaramente le principali sfide e opportunità del ragionamento, evidenziando metodi pratici per l'ottimizzazione post-addestramento e l'inferenza al momento del test. Il nostro lavoro fornisce intuizioni e indicazioni preziose, colmando il divario tra framework teorici e implementazioni pratiche, e traccia direzioni chiare per la ricerca futura.
La proliferazione di Large Language Models (LLM) accessibili tramite API a scatola chiusa introduce una significativa sfida in termini di fiducia: gli utenti pagano per servizi basati sulle capacità pubblicizzate del modello (ad esempio, dimensioni, prestazioni), ma i fornitori potrebbero sostituire segretamente il modello specificato con un'alternativa più economica e di qualità inferiore per ridurre i costi operativi. Questa mancanza di trasparenza mina l'equità, erode la fiducia e complica il benchmarking affidabile. Rilevare tali sostituzioni è difficile a causa della natura a scatola chiusa, che tipicamente limita l'interazione a query di input-output. Questo articolo formalizza il problema del rilevamento delle sostituzioni di modelli nelle API di LLM. Valutiamo sistematicamente le tecniche di verifica esistenti, inclusi test statistici basati sull'output, valutazioni di benchmark e analisi delle probabilità logaritmiche, in vari scenari realistici di attacco come la quantizzazione del modello, la sostituzione randomizzata e l'evasione del benchmark. I nostri risultati rivelano i limiti dei metodi che si basano esclusivamente sugli output testuali, specialmente contro attacchi sottili o adattivi. Sebbene l'analisi delle probabilità logaritmiche offra garanzie più solide quando disponibile, la sua accessibilità è spesso limitata. Concludiamo discutendo il potenziale delle soluzioni basate su hardware come gli Ambienti di Esecuzione Fidati (TEE) come percorso verso l'integrità provabile del modello, evidenziando i compromessi tra sicurezza, prestazioni e adozione da parte dei fornitori. Il codice è disponibile all'indirizzo https://github.com/sunblaze-ucb/llm-api-audit.
I modelli di diffusione approssimano la distribuzione di denoising come una Gaussiana e ne predicono la media, mentre i modelli di flow matching riformulano la media Gaussiana come velocità di flusso. Tuttavia, questi ultimi ottengono prestazioni inferiori nel campionamento con pochi passi a causa dell'errore di discretizzazione e tendono a produrre colori eccessivamente saturi sotto la guida senza classificatore (CFG). Per affrontare queste limitazioni, proponiamo un nuovo modello di Gaussian mixture flow matching (GMFlow): invece di predire la media, GMFlow predice parametri dinamici di miscela Gaussiana (GM) per catturare una distribuzione multi-modale della velocità di flusso, che può essere appresa con una perdita di divergenza KL. Dimostriamo che GMFlow generalizza i precedenti modelli di diffusione e flow matching, in cui viene appresa una singola Gaussiana con una perdita di denoising L_2. Per l'inferenza, deriviamo risolutori GM-SDE/ODE che sfruttano distribuzioni di denoising analitiche e campi di velocità per un campionamento preciso con pochi passi. Inoltre, introduciamo un nuovo schema di guida probabilistica che mitiga i problemi di sovrasaturazione della CFG e migliora la qualità della generazione di immagini. Esperimenti estensivi dimostrano che GMFlow supera costantemente i baseline di flow matching in termini di qualità di generazione, raggiungendo una Precisione di 0,942 con soli 6 passi di campionamento su ImageNet 256×256.
I Modelli Linguistici di Grande Dimensione Potenziati da Strumenti (TA-LLMs) hanno mostrato potenziale nelle applicazioni del mondo reale, ma affrontano sfide nella gestione di query incomplete e richieste fuori dallo scopo. Mentre gli approcci esistenti si basano principalmente su Fine-Tuning Supervisionato con traiettorie esperte, proponiamo DiaTool-DPO, un metodo innovativo che migliora le capacità dialogiche dei TA-LLM attraverso l'ottimizzazione diretta delle preferenze. Modelliamo le interazioni dei TA-LLM come un Processo Decisionale di Markov con 5 stati dialogici distinti e categorizziamo le query degli utenti in 3 tipi in base alle loro traiettorie di transizione di stato. Costruiamo automaticamente dataset di traiettorie accoppiate di flussi dialogici corretti e errati e introduciamo una funzione di perdita specializzata per il controllo del dialogo. La nostra valutazione completa dimostra che DiaTool-DPO si avvicina alle prestazioni di GPT-4o (94,8% nella raccolta di informazioni, 91% nel rifiuto delle chiamate agli strumenti) con miglioramenti sostanziali rispetto alla baseline (rispettivamente 44% e 9,6%) mantenendo le funzionalità principali. Il nostro approccio apre nuove possibilità per lo sviluppo di TA-LLM in grado di gestire scenari reali diversificati senza richiedere ulteriori dimostrazioni esperte o etichettatura umana.
Presentiamo la metodologia di valutazione, i dataset e i risultati della BOP Challenge 2024, la sesta di una serie di competizioni pubbliche organizzate per catturare lo stato dell'arte nella stima della posa 6D degli oggetti e nelle attività correlate. Nel 2024, il nostro obiettivo è stato quello di far evolvere BOP da configurazioni di laboratorio a scenari reali. In primo luogo, abbiamo introdotto nuovi task model-free, in cui non sono disponibili modelli 3D degli oggetti e i metodi devono acquisire gli oggetti solo a partire da video di riferimento forniti. In secondo luogo, abbiamo definito un nuovo e più pratico task di rilevamento 6D degli oggetti, in cui le identità degli oggetti visibili in un'immagine di test non vengono fornite come input. In terzo luogo, abbiamo introdotto i nuovi dataset BOP-H3, registrati con sensori ad alta risoluzione e visori AR/VR, che riproducono fedelmente scenari reali. BOP-H3 include modelli 3D e video di acquisizione per supportare sia task model-based che model-free. I partecipanti hanno gareggiato su sette tracce di challenge, ciascuna definita da un task, una configurazione di acquisizione degli oggetti e un gruppo di dataset. È degno di nota che il miglior metodo del 2024 per la localizzazione 6D model-based di oggetti non visti (FreeZeV2.1) raggiunge un'accuratezza del 22% superiore su BOP-Classic-Core rispetto al miglior metodo del 2023 (GenFlow), e si posiziona solo al 4% di distanza dal miglior metodo del 2023 per oggetti visti (GPose2023), nonostante sia significativamente più lento (24,9 vs 2,7s per immagine). Un metodo più pratico del 2024 per questo task è Co-op, che impiega solo 0,8s per immagine ed è 25 volte più veloce e il 13% più accurato rispetto a GenFlow. I metodi mantengono un ranking simile nel rilevamento 6D rispetto alla localizzazione 6D, ma con tempi di esecuzione più elevati. Nel rilevamento 2D model-based di oggetti non visti, il miglior metodo del 2024 (MUSE) raggiunge un miglioramento relativo del 21% rispetto al miglior metodo del 2023 (CNOS). Tuttavia, l'accuratezza del rilevamento 2D per oggetti non visti rimane ancora notevolmente inferiore (-53%) rispetto all'accuratezza per oggetti visti (GDet2023). Il sistema di valutazione online rimane aperto ed è disponibile all'indirizzo http://bop.felk.cvut.cz/.
La comprensione di scene 3D da immagini singole è un problema fondamentale nella visione artificiale, con numerose applicazioni nei campi della grafica, della realtà aumentata e della robotica. Sebbene gli approcci basati su modelli di diffusione abbiano mostrato potenziale, spesso faticano a mantenere la coerenza degli oggetti e delle scene, specialmente in scenari complessi del mondo reale. Per affrontare queste limitazioni, proponiamo un approccio generativo autoregressivo chiamato Local Random Access Sequence (LRAS) modeling, che utilizza la quantizzazione di patch locali e la generazione di sequenze ordinate casualmente. Utilizzando il flusso ottico come rappresentazione intermedia per l'editing di scene 3D, i nostri esperimenti dimostrano che LRAS raggiunge capacità all'avanguardia nella sintesi di nuove viste e nella manipolazione di oggetti 3D. Inoltre, mostriamo che il nostro framework si estende naturalmente alla stima della profondità auto-supervisionata attraverso una semplice modifica del design della sequenza. Raggiungendo prestazioni solide in molteplici compiti di comprensione di scene 3D, LRAS fornisce un framework unificato ed efficace per costruire la prossima generazione di modelli di visione 3D.
Presentiamo Clinical ModernBERT, un encoder basato su transformer pre-addestrato su vasta letteratura biomedica, note cliniche e ontologie mediche, incorporando abstract di PubMed, dati clinici MIMIC IV e codici medici con le loro descrizioni testuali. Basandoci su ModernBERT, l'attuale stato dell'arte degli encoder di testo in linguaggio naturale che include aggiornamenti architetturali come gli embedding posizionali rotazionali (RoPE), Flash Attention e una lunghezza contestuale estesa fino a 8.192 token, il nostro modello adatta queste innovazioni specificamente per i domini biomedici e clinici. Clinical ModernBERT eccelle nel produrre rappresentazioni semanticamente ricche ottimizzate per attività con contesti lunghi. Validiamo ciò sia analizzando i suoi pesi pre-addestrati che attraverso valutazioni empiriche su una suite completa di benchmark di NLP clinico.
Presentiamo un approccio innovativo per l'addestramento di modelli linguistici di piccole dimensioni per il ranking di documenti ad alta intensità di ragionamento, che combina la distillazione della conoscenza con l'ottimizzazione tramite apprendimento per rinforzo. Mentre i metodi esistenti spesso si basano su costose annotazioni umane o su grandi modelli linguistici black-box, la nostra metodologia sfrutta dati web e un modello linguistico insegnante (LLM) per generare automaticamente esempi di addestramento di alta qualità con spiegazioni sulla rilevanza. Inquadrando il ranking di documenti come un problema di apprendimento per rinforzo e incentivando capacità di ragionamento esplicite, addestriamo un modello linguistico compatto da 3 miliardi di parametri che raggiunge prestazioni all'avanguardia sul benchmark BRIGHT. Il nostro modello si posiziona al terzo posto nella classifica pur utilizzando un numero significativamente inferiore di parametri rispetto ad altri approcci, superando modelli oltre 20 volte più grandi. Attraverso esperimenti estensivi, dimostriamo che la generazione di spiegazioni durante l'inferenza, anziché la previsione diretta dei punteggi di rilevanza, consente un ragionamento più efficace con modelli linguistici più piccoli. La natura auto-supervisionata del nostro metodo offre una soluzione scalabile e interpretabile per i moderni sistemi di information retrieval.
I Vision Foundation Models (VFMs) e i Vision-Language Models (VLMs) hanno guadagnato popolarità nella Segmentazione Semantica Generalizzata a Dominio (DGSS) grazie alle loro forti capacità di generalizzazione. Tuttavia, i metodi DGSS esistenti spesso si affidano esclusivamente a VFMs o VLMs, trascurando i loro punti di forza complementari. I VFMs (ad esempio, DINOv2) eccellono nel catturare caratteristiche a grana fine, mentre i VLMs (ad esempio, CLIP) forniscono un allineamento robusto con il testo ma faticano con una granularità grossolana. Nonostante i loro punti di forza complementari, integrare efficacemente VFMs e VLMs con meccanismi di attenzione è impegnativo, poiché l'aumento dei token di patch complica la modellazione di sequenze lunghe. Per affrontare questo problema, proponiamo MFuser, un nuovo framework di fusione basato su Mamba che combina in modo efficiente i punti di forza di VFMs e VLMs mantenendo una scalabilità lineare nella lunghezza delle sequenze. MFuser è composto da due componenti chiave: MVFuser, che funge da co-adattatore per ottimizzare congiuntamente i due modelli catturando sia le dinamiche sequenziali che spaziali; e MTEnhancer, un modulo ibrido attenzione-Mamba che affina gli embedding di testo incorporando priorità di immagine. Il nostro approccio raggiunge una precisa località delle caratteristiche e un forte allineamento del testo senza comportare un significativo sovraccarico computazionale. Esperimenti estensivi dimostrano che MFuser supera significativamente i metodi DGSS all'avanguardia, raggiungendo 68.20 mIoU su benchmark sintetico-reale e 71.87 mIoU su benchmark reale-reale. Il codice è disponibile all'indirizzo https://github.com/devinxzhang/MFuser.
L'aumento del calcolo al momento del test è emerso come una direzione promettente per migliorare le prestazioni dei modelli linguistici, in particolare negli scenari in cui il fine-tuning del modello è impraticabile o impossibile a causa di vincoli computazionali o di pesi del modello privati. Tuttavia, i metodi esistenti di ricerca al momento del test che utilizzano un modello di ricompensa (RM) spesso peggiorano in qualità man mano che il calcolo aumenta, a causa dell'ottimizzazione eccessiva di quelli che sono intrinsecamente proxy di ricompensa imperfetti. Introduciamo QAlign, un nuovo approccio di allineamento al momento del test. Man mano che aumentiamo il calcolo al momento del test, QAlign converge a campionare dalla distribuzione allineata ottimale per ogni singolo prompt. Adottando i recenti progressi nel Markov chain Monte Carlo per la generazione di testo, il nostro metodo consente output meglio allineati senza modificare il modello sottostante o addirittura senza richiedere l'accesso ai logit. Dimostriamo l'efficacia di QAlign su benchmark di ragionamento matematico (GSM8K e GSM-Symbolic) utilizzando un RM specifico per il compito, mostrando miglioramenti costanti rispetto ai metodi esistenti di calcolo al momento del test come best-of-n e voto a maggioranza. Inoltre, quando applicato con RM più realistici addestrati sul dataset di preferenze Tulu 3, QAlign supera l'ottimizzazione diretta delle preferenze (DPO), best-of-n, voto a maggioranza e voto a maggioranza ponderato su una gamma diversificata di dataset (GSM8K, MATH500, IFEval, MMLU-Redux e TruthfulQA). Una soluzione pratica per allineare i modelli linguistici al momento del test utilizzando calcoli aggiuntivi senza degradazione, il nostro approccio espande i limiti delle capacità che possono essere ottenute da modelli linguistici pronti all'uso senza ulteriore addestramento.
I modelli linguistici multimodali di grandi dimensioni (MLLM) eccellono nei compiti di visione e linguaggio, ma presentano anche rischi significativi di generare contenuti dannosi, in particolare attraverso attacchi di jailbreak. Gli attacchi di jailbreak si riferiscono a manipolazioni intenzionali che bypassano i meccanismi di sicurezza nei modelli, portando alla generazione di contenuti inappropriati o non sicuri. Rilevare tali attacchi è fondamentale per garantire un impiego responsabile degli MLLM. I metodi esistenti per il rilevamento dei jailbreak affrontano tre principali sfide: (1) Molti si basano sugli stati nascosti o sui gradienti del modello, limitando la loro applicabilità ai modelli white-box, dove il funzionamento interno del modello è accessibile; (2) Comportano un elevato overhead computazionale dovuto all'analisi basata sull'incertezza, che limita il rilevamento in tempo reale, e (3) Richiedono dataset dannosi completamente etichettati, che sono spesso scarsi negli scenari reali. Per affrontare questi problemi, introduciamo un framework adattivo al tempo di test chiamato JAILDAM. Il nostro metodo sfrutta un approccio basato sulla memoria guidato da rappresentazioni di conoscenza non sicura guidate da policy, eliminando la necessità di un'esposizione esplicita a dati dannosi. Aggiornando dinamicamente la conoscenza non sicura durante il test, il nostro framework migliora la generalizzazione a strategie di jailbreak non viste, mantenendo al contempo l'efficienza. Esperimenti su più benchmark di jailbreak per modelli di visione e linguaggio dimostrano che JAILDAM offre prestazioni all'avanguardia nel rilevamento di contenuti dannosi, migliorando sia l'accuratezza che la velocità.
I modelli linguistici di grandi dimensioni (LLM) stanno avanzando a un ritmo senza precedenti a livello globale, con regioni che adottano sempre più questi modelli per applicazioni nella loro lingua principale. La valutazione di questi modelli in ambienti linguistici diversi, specialmente nelle lingue a bassa risorsa, è diventata una sfida importante per il mondo accademico e industriale. Gli attuali framework di valutazione sono sproporzionatamente concentrati sull'inglese e su un numero ristretto di lingue ad alta risorsa, trascurando così le prestazioni realistiche degli LLM in scenari multilingue e a bassa risorsa. Per colmare questa lacuna, introduciamo GlotEval, un framework leggero progettato per la valutazione massicciamente multilingue. Supportando sette compiti chiave (traduzione automatica, classificazione del testo, riassunto, generazione aperta, comprensione della lettura, etichettatura di sequenze e valutazione intrinseca), che coprono decine o centinaia di lingue, GlotEval mette in evidenza un benchmarking multilingue coerente, modelli di prompt specifici per lingua e traduzione automatica non centrata sull'inglese. Ciò consente una diagnosi precisa dei punti di forza e di debolezza del modello in contesti linguistici diversi. Uno studio di caso sulla traduzione multilingue dimostra l'applicabilità di GlotEval per valutazioni multilingue e specifiche per lingua.
I modelli linguistici di grandi dimensioni (LLM) mostrano significative disparità di prestazioni tra le lingue, beneficiando principalmente delle lingue ad alto livello di risorse mentre marginalizzano quelle sottorappresentate. Il Pretraining Continuo (CPT) è emerso come un approccio promettente per affrontare questo squilibrio, sebbene l'efficacia relativa delle strategie di dati monolingue, bilingue e arricchite con codice rimanga poco chiara. Questo studio valuta sistematicamente 36 configurazioni di CPT che coinvolgono tre modelli base multilingue, su oltre 30 lingue classificate come altruistiche, egoiste e stagnanti, che coprono vari livelli di risorse. I nostri risultati rivelano tre principali intuizioni: (1) Il CPT bilingue migliora la classificazione multilingue ma spesso causa problemi di mescolanza linguistica durante la generazione. (2) L'inclusione di dati di programmazione durante il CPT migliora costantemente l'accuratezza della classificazione multilingue, beneficiando in particolare le lingue a basso livello di risorse, ma introduce un compromesso degradando leggermente la qualità della generazione. (3) Contrariamente al lavoro precedente, osserviamo deviazioni sostanziali dalle classificazioni linguistiche in base al loro impatto sul trasferimento cross-linguale: le lingue classificate come altruistiche spesso influiscono negativamente sulle lingue correlate, le lingue egoiste mostrano un comportamento condizionale e dipendente dalla configurazione, e le lingue stagnanti dimostrano una sorprendente adattabilità in determinate condizioni di CPT. Queste interazioni sfumate evidenziano la complessità dell'apprendimento della rappresentazione multilingue, sottolineando l'importanza di studi sistematici sulla classificazione linguistica generalizzabile per informare le future strategie di CPT multilingue.