Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo RWKV-7 "Goose", una nuova architettura per la modellazione di sequenze, insieme a modelli linguistici pre-addestrati che stabiliscono un nuovo stato dell'arte nelle prestazioni downstream su scala di 3 miliardi di parametri per task multilingue, eguagliando le attuali prestazioni di punta per la lingua inglese nonostante siano stati addestrati su un numero significativamente inferiore di token rispetto ad altri modelli top da 3B. Tuttavia, i modelli RWKV-7 richiedono solo un utilizzo di memoria costante e un tempo di inferenza costante per token. RWKV-7 introduce una nuova formulazione generalizzata della regola delta con gate vettoriali e tassi di apprendimento in-context, oltre a una regola rilassata di sostituzione dei valori. Dimostriamo che RWKV-7 è in grado di eseguire il tracciamento dello stato e riconoscere tutti i linguaggi regolari, mantenendo al contempo la parallelizzabilità dell'addestramento. Ciò supera le capacità dei Transformer sotto le congetture di complessità standard, che sono limitati a TC^0. Per dimostrare la capacità di modellazione linguistica di RWKV-7, presentiamo anche un corpus multilingue open source esteso da 3,1 trilioni di token, e addestriamo quattro modelli RWKV-7 con un numero di parametri compreso tra 0,19 miliardi e 2,9 miliardi su questo dataset. Per promuovere apertura, riproducibilità e adozione, rilasciamo i nostri modelli e l'elenco dei componenti del dataset su https://huggingface.co/RWKV, e il nostro codice di addestramento e inferenza su https://github.com/RWKV/RWKV-LM, tutto sotto licenza Apache 2.0.
Lo scaling dell'inferenza conferisce ai LLM capacità di ragionamento senza precedenti, con l'apprendimento per rinforzo come tecnica centrale per elicitare ragionamenti complessi. Tuttavia, i dettagli tecnici chiave dei LLM all'avanguardia per il ragionamento rimangono nascosti (come nel blog OpenAI o1 e nel rapporto tecnico DeepSeek R1), lasciando la comunità ancora in difficoltà nel riprodurre i loro risultati di addestramento RL. Proponiamo l'algoritmo Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO) e rendiamo completamente open-source un sistema RL su larga scala all'avanguardia che raggiunge 50 punti su AIME 2024 utilizzando il modello base Qwen2.5-32B. A differenza dei lavori precedenti che omettono i dettagli di addestramento, introduciamo quattro tecniche chiave del nostro algoritmo che rendono possibile il RL su larga scala per i LLM. Inoltre, rendiamo open-source il nostro codice di addestramento, basato sul framework verl, insieme a un dataset accuratamente curato e processato. Questi componenti del nostro sistema open-source migliorano la riproducibilità e supportano la ricerca futura nel campo del RL su larga scala per i LLM.
I video sintetici sono oggi ampiamente utilizzati per integrare la scarsità e la diversità dei video del mondo reale. Gli attuali dataset sintetici replicano principalmente scenari reali, lasciando inesplorati concetti video impossibili, controfattuali e anti-reali. Questo lavoro mira a rispondere a due domande: 1) I modelli di generazione video odierni sono in grado di seguire efficacemente i prompt per creare contenuti video impossibili? 2) I modelli di comprensione video odierni sono sufficientemente avanzati per comprendere video impossibili? A tal fine, introduciamo IPV-Bench, un nuovo benchmark progettato per valutare e promuovere il progresso nella comprensione e generazione video. IPV-Bench è supportato da una tassonomia completa, che comprende 4 domini e 14 categorie. Presenta scene diverse che sfidano le leggi fisiche, biologiche, geografiche o sociali. Sulla base della tassonomia, è stato costruito un insieme di prompt per valutare i modelli di generazione video, mettendo alla prova le loro capacità di seguire i prompt e di creatività. Inoltre, è stato curato un benchmark video per valutare i Video-LLM sulla loro capacità di comprendere video impossibili, che richiede in particolare ragionamenti sulla dinamica temporale e sulla conoscenza del mondo. Valutazioni complete rivelano limitazioni e spunti per le future direzioni dei modelli video, aprendo la strada ai modelli video di prossima generazione.
La creatività è un aspetto fondamentale dell'intelligenza, che coinvolge la capacità di generare soluzioni nuove e appropriate in contesti diversi. Mentre i Large Language Models (LLM) sono stati ampiamente valutati per le loro capacità creative, la valutazione dei Multimodal Large Language Models (MLLM) in questo ambito rimane largamente inesplorata. Per colmare questa lacuna, introduciamo Creation-MMBench, un benchmark multimodale progettato specificamente per valutare le capacità creative degli MLLM in compiti basati su immagini del mondo reale. Il benchmark comprende 765 casi di test che coprono 51 task dettagliati. Per garantire una valutazione rigorosa, definiamo criteri di valutazione specifici per ogni caso di test, guidando l'analisi sia della qualità generale delle risposte che della coerenza fattuale con gli input visivi. I risultati sperimentali rivelano che gli attuali MLLM open-source hanno prestazioni significativamente inferiori rispetto ai modelli proprietari nei compiti creativi. Inoltre, la nostra analisi dimostra che il fine-tuning visivo può avere un impatto negativo sulle capacità creative del LLM di base. Creation-MMBench fornisce intuizioni preziose per avanzare nella creatività degli MLLM e stabilisce una base per futuri miglioramenti nell'intelligenza generativa multimodale. I dati completi e il codice di valutazione sono disponibili su https://github.com/open-compass/Creation-MMBench.
Gli esperti umani eccellono nella discriminazione visiva fine grazie alla capacità di sfruttare la conoscenza del dominio per affinare le caratteristiche percettive, un'abilità che rimane sottosviluppata negli attuali Modelli Linguistici Multimodali di Grande Scala (MLLM). Nonostante possiedano una vasta conoscenza a livello esperto, gli MLLM faticano a integrare il ragionamento nella percezione visiva, spesso generando risposte dirette senza un'analisi più approfondita. Per colmare questa lacuna, introduciamo il knowledge-intensive visual grounding (KVG), un nuovo compito di grounding visivo che richiede sia una percezione fine sia l'integrazione di conoscenze specifiche del dominio. Per affrontare le sfide del KVG, proponiamo DeepPerception, un MLLM potenziato con capacità di percezione visiva cognitiva. Il nostro approccio consiste in (1) una pipeline di sintesi automatica dei dati che genera campioni di addestramento di alta qualità e allineati alla conoscenza, e (2) un framework di addestramento in due fasi che combina il fine-tuning supervisionato per l'impalcatura del ragionamento cognitivo e l'apprendimento per rinforzo per ottimizzare la sinergia percezione-cognizione. Per valutare le prestazioni, introduciamo KVG-Bench, un dataset completo che copre 10 domini con 1.3K casi di test curati manualmente. I risultati sperimentali dimostrano che DeepPerception supera significativamente il fine-tuning diretto, ottenendo miglioramenti di accuratezza del +8,08% su KVG-Bench e mostrando una generalizzazione cross-domain superiore del +4,60% rispetto agli approcci di base. Le nostre scoperte evidenziano l'importanza di integrare processi cognitivi negli MLLM per una percezione visiva simile a quella umana e aprono nuove direzioni per la ricerca sul ragionamento multimodale. I dati, i codici e i modelli sono rilasciati su https://github.com/thunlp/DeepPerception.
Gli oggetti articolati su larga scala e di alta qualità sono estremamente necessari per molteplici attività legate all'AI incarnata. La maggior parte dei metodi esistenti per creare oggetti articolati sono basati su dati o simulazioni, che sono limitati dalla scala e dalla qualità dei dati di addestramento o dalla fedeltà e dal lavoro intensivo della simulazione. In questo articolo, proponiamo Infinite Mobility, un metodo innovativo per sintetizzare oggetti articolati ad alta fedeltà attraverso la generazione procedurale. Uno studio con utenti e una valutazione quantitativa dimostrano che il nostro metodo può produrre risultati che superano gli attuali metodi all'avanguardia e sono paragonabili ai dataset annotati manualmente sia per le proprietà fisiche che per la qualità delle mesh. Inoltre, mostriamo che i nostri dati sintetici possono essere utilizzati come dati di addestramento per modelli generativi, consentendo un'ulteriore scalabilità. Il codice è disponibile all'indirizzo https://github.com/Intern-Nexus/Infinite-Mobility.
La generazione di audio e musica è emersa come un compito cruciale in molte applicazioni, tuttavia gli approcci esistenti presentano significative limitazioni: operano in isolamento senza capacità unificate tra le modalità, soffrono di una scarsità di dati di addestramento multimodali di alta qualità e faticano a integrare efficacemente input diversi. In questo lavoro, proponiamo AudioX, un modello unificato di Diffusion Transformer per la generazione di Anything-to-Audio e musica. A differenza dei precedenti modelli specifici per dominio, AudioX può generare sia audio generico che musica di alta qualità, offrendo al contempo un controllo flessibile tramite linguaggio naturale e un'elaborazione senza soluzione di continuità di varie modalità, tra cui testo, video, immagini, musica e audio. La sua innovazione chiave è una strategia di addestramento multimodale mascherato che maschera gli input tra le modalità e costringe il modello a imparare da input mascherati, producendo rappresentazioni robuste e unificate cross-modali. Per affrontare la scarsità di dati, abbiamo curato due dataset completi: vggsound-caps con 190K didascalie audio basate sul dataset VGGSound, e V2M-caps con 6 milioni di didascalie musicali derivate dal dataset V2M. Esperimenti estensivi dimostrano che AudioX non solo eguaglia o supera i modelli specializzati all'avanguardia, ma offre anche una notevole versatilità nella gestione di diverse modalità di input e compiti di generazione all'interno di un'architettura unificata. Il codice e i dataset saranno disponibili su https://zeyuet.github.io/AudioX/.
La generazione di didascalie per immagini è stata una sfida di lunga data nella ricerca visione-linguaggio. Con l'ascesa dei LLM, i moderni Modelli Visione-Linguaggio (VLM) producono descrizioni di immagini dettagliate e complete. Tuttavia, la valutazione della qualità di tali didascalie rimane un problema irrisolto. Questo articolo affronta due questioni chiave: (1) Quanto bene si comportano effettivamente gli attuali VLM nella generazione di didascalie, specialmente rispetto agli esseri umani? Abbiamo creato CapArena, una piattaforma con oltre 6000 battaglie a coppie di didascalie e voti di preferenza umana di alta qualità. La nostra valutazione in stile arena rappresenta una pietra miliare, dimostrando che i modelli leader come GPT-4o raggiungono o addirittura superano le prestazioni umane, mentre la maggior parte dei modelli open-source rimane indietro. (2) Le metriche automatizzate possono valutare in modo affidabile la qualità dettagliata delle didascalie? Utilizzando le annotazioni umane di CapArena, valutiamo le metriche tradizionali e recenti per la generazione di didascalie, nonché il VLM-as-a-Judge. La nostra analisi rivela che, sebbene alcune metriche (ad esempio, METEOR) mostrino un discreto accordo a livello di didascalia con gli esseri umani, i loro bias sistematici portano a incoerenze nella classifica dei modelli. Al contrario, il VLM-as-a-Judge dimostra una robusta capacità di discernimento sia a livello di didascalia che di modello. Basandoci su queste intuizioni, rilasciamo CapArena-Auto, un benchmark automatizzato accurato ed efficiente per la generazione di didascalie dettagliate, raggiungendo una correlazione del 94,3% con le classifiche umane a soli $4 per test. Dati e risorse saranno open-source su https://caparena.github.io.
I grandi modelli linguistici (LLM) possono gestire un'ampia varietà di compiti generali con semplici prompt, senza la necessità di un addestramento specifico per ogni task. I Modelli Linguistici Multimodali (MLLM), costruiti sugli LLM, hanno dimostrato un potenziale impressionante nell'affrontare compiti complessi che coinvolgono dati visivi, uditivi e testuali. Tuttavia, questioni critiche relative alla veridicità, alla sicurezza, al ragionamento di tipo o1 e all'allineamento con le preferenze umane rimangono insufficientemente affrontate. Questa lacuna ha stimolato l'emergere di vari algoritmi di allineamento, ciascuno mirato a diversi scenari applicativi e obiettivi di ottimizzazione. Studi recenti hanno dimostrato che gli algoritmi di allineamento rappresentano un approccio potente per risolvere le sfide sopra menzionate. In questo articolo, miriamo a fornire una revisione completa e sistematica degli algoritmi di allineamento per gli MLLM. Nello specifico, esploriamo quattro aspetti chiave: (1) gli scenari applicativi coperti dagli algoritmi di allineamento, inclusa la comprensione generale delle immagini, multi-immagine, video e audio, e le applicazioni multimodali estese; (2) i fattori fondamentali nella costruzione di dataset di allineamento, incluse le fonti dei dati, le risposte del modello e le annotazioni delle preferenze; (3) i benchmark utilizzati per valutare gli algoritmi di allineamento; e (4) una discussione sulle potenziali direzioni future per lo sviluppo degli algoritmi di allineamento. Questo lavoro cerca di aiutare i ricercatori a organizzare i progressi attuali nel campo e ispirare metodi di allineamento migliori. La pagina del progetto di questo articolo è disponibile all'indirizzo https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.
Le connessioni residue sono fondamentali per le moderne architetture di deep learning, poiché consentono l'addestramento di reti molto profonde mitigando il problema della scomparsa del gradiente. Le Hyper-Connections hanno recentemente generalizzato le connessioni residue introducendo molteplici intensità di connessione a diverse profondità, affrontando così l'effetto altalenante tra la scomparsa del gradiente e il collasso della rappresentazione. Tuttavia, le Hyper-Connections aumentano i costi di accesso alla memoria espandendo la larghezza degli stati nascosti. In questo articolo, proponiamo le Frac-Connections, un approccio innovativo che divide gli stati nascosti in più parti anziché espanderne la larghezza. Le Frac-Connections mantengono parzialmente i vantaggi delle Hyper-Connections riducendo al contempo il consumo di memoria. Per validarne l'efficacia, abbiamo condotto esperimenti su larga scala su task linguistici, con il più grande modello da 7B MoE addestrato su fino a 3T token, dimostrando che le Frac-Connections superano significativamente le connessioni residue.
Introduciamo Cosmos-Transfer, un modello di generazione condizionata di mondi in grado di creare simulazioni basate su molteplici input di controllo spaziale di varie modalità, come segmentazione, profondità e contorni. Nel design, lo schema condizionato spaziale è adattivo e personalizzabile. Consente di ponderare diversamente i diversi input condizionati in diverse posizioni spaziali. Ciò permette una generazione di mondi altamente controllabile e trova applicazione in vari casi d'uso di trasferimento da mondo a mondo, incluso Sim2Real. Abbiamo condotto valutazioni approfondite per analizzare il modello proposto e dimostrare le sue applicazioni per l'AI Fisica, tra cui il Sim2Real nella robotica e l'arricchimento dei dati per veicoli autonomi. Inoltre, dimostriamo una strategia di scalabilità dell'inferenza per ottenere una generazione di mondi in tempo reale con un rack NVIDIA GB200 NVL72. Per contribuire ad accelerare lo sviluppo della ricerca in questo campo, abbiamo reso open-source i nostri modelli e il codice all'indirizzo https://github.com/nvidia-cosmos/cosmos-transfer1.
Nonostante i rapidi progressi nei benchmark di intelligenza artificiale, il significato reale delle prestazioni nei benchmark rimane poco chiaro. Per quantificare le capacità dei sistemi di IA in termini di capacità umane, proponiamo una nuova metrica: l'orizzonte temporale di completamento del 50% delle attività. Questo rappresenta il tempo che gli esseri umani impiegano tipicamente per completare compiti che i modelli di IA possono eseguire con un tasso di successo del 50%. Abbiamo inizialmente cronometrato esseri umani con competenze specifiche del dominio su una combinazione di RE-Bench, HCAST e 66 nuovi compiti più brevi. Su questi compiti, i modelli di IA all'avanguardia attuali, come Claude 3.7 Sonnet, hanno un orizzonte temporale del 50% di circa 50 minuti. Inoltre, l'orizzonte temporale delle IA all'avanguardia è raddoppiato approssimativamente ogni sette mesi dal 2019, sebbene la tendenza possa essersi accelerata nel 2024. L'aumento degli orizzonti temporali dei modelli di IA sembra essere principalmente guidato da una maggiore affidabilità e capacità di adattarsi agli errori, combinata con migliori capacità di ragionamento logico e utilizzo di strumenti. Discutiamo i limiti dei nostri risultati, incluso il loro grado di validità esterna, e le implicazioni dell'aumentata autonomia per capacità pericolose. Se questi risultati si generalizzano ai compiti software del mondo reale, l'estrapolazione di questa tendenza prevede che entro 5 anni i sistemi di IA saranno in grado di automatizzare molti compiti software che attualmente richiedono un mese agli esseri umani.
Generare scene 3D con visualizzazione flessibile, inclusa la rotazione a 360° e lo zoom, a partire da singole immagini è una sfida a causa della mancanza di dati 3D. A tal fine, introduciamo FlexWorld, un nuovo framework composto da due componenti chiave: (1) un robusto modello di diffusione video-to-video (V2V) per generare immagini di nuove visualizzazioni di alta qualità a partire da input incompleti renderizzati da una scena approssimativa, e (2) un processo di espansione progressiva per costruire una scena 3D completa. In particolare, sfruttando un modello video pre-addestrato avanzato e coppie di addestramento con stime di profondità accurate, il nostro modello V2V è in grado di generare nuove visualizzazioni con ampie variazioni della posizione della telecamera. Basandosi su questo, FlexWorld genera progressivamente nuovi contenuti 3D e li integra nella scena globale attraverso una fusione di scene consapevole della geometria. Esperimenti estensivi dimostrano l'efficacia di FlexWorld nella generazione di video di nuove visualizzazioni di alta qualità e scene 3D con visualizzazione flessibile a partire da singole immagini, raggiungendo una qualità visiva superiore secondo molteplici metriche e dataset popolari rispetto ai metodi state-of-the-art esistenti. Qualitativamente, evidenziamo che FlexWorld è in grado di generare scene ad alta fedeltà con visualizzazioni flessibili come rotazioni a 360° e zoom. Pagina del progetto: https://ml-gsai.github.io/FlexWorld.
Modellare in modo efficiente immagini di grandi dimensioni è una sfida di lunga data nel campo dell'apprendimento automatico. A tal fine, introduciamo il Multi-Scale Attention (MSA). MSA si basa su due idee chiave: (i) rappresentazioni multi-scala e (ii) comunicazione bidirezionale tra scale. MSA crea O(log N) scale per rappresentare l'immagine attraverso caratteristiche progressivamente più grossolane e sfrutta l'attenzione incrociata per propagare le informazioni tra le scale. Introduciamo quindi Atlas, una nuova architettura di rete neurale basata su MSA. Dimostriamo che Atlas migliora significativamente il compromesso tra calcolo e prestazioni nella modellazione di immagini con contesto lungo in una variante ad alta risoluzione di ImageNet 100. A una risoluzione di 1024px, Atlas-B raggiunge un'accuratezza del 91,04%, paragonabile a ConvNext-B (91,92%) pur essendo 4,3 volte più veloce. Atlas è 2,95 volte più veloce e 7,38% migliore di FasterViT, e 2,25 volte più veloce e 4,96% migliore di LongViT. Nei confronti con MambaVision-S, Atlas-S raggiunge un'accuratezza superiore rispettivamente del 5%, 16% e 32% a 1024px, 2048px e 4096px, pur ottenendo tempi di esecuzione simili. Il codice per riprodurre i nostri esperimenti e i modelli pre-addestrati è disponibile all'indirizzo https://github.com/yalalab/atlas.
La verifica è cruciale per un ragionamento matematico efficace. Presentiamo un nuovo metodo di consistenza temporale in cui i verificatori affinano iterativamente i loro giudizi basandosi sulla valutazione precedente. A differenza degli approcci di verifica in un solo round o del dibattito multi-modello, il nostro metodo sfrutta la consistenza in una sequenza di azioni di auto-riflessione per migliorare l'accuratezza della verifica. Le valutazioni empiriche su vari benchmark per l'identificazione degli errori nei processi matematici (Mathcheck, ProcessBench e PRM800K) mostrano miglioramenti consistenti rispetto ai metodi di base. Quando applicato ai recenti modelli distillati DeepSeek R1, il nostro metodo dimostra prestazioni solide, consentendo ai modelli distillati 7B/8B di superare tutti i modelli 70B/72B e GPT-4o su ProcessBench. In particolare, il modello distillato 14B con il nostro metodo raggiunge prestazioni paragonabili a Deepseek-R1. I nostri codici sono disponibili su https://github.com/jcguo123/Temporal-Consistency.
Il ragionamento è una capacità essenziale per i grandi modelli linguistici (LLMs) per affrontare compiti complessi, dove l'identificazione degli errori di processo è fondamentale per migliorare questa abilità. Recentemente, sono stati proposti modelli di ricompensa a livello di processo (PRMs) per fornire ricompense passo-passo che facilitano l'apprendimento per rinforzo e la produzione di dati durante l'addestramento, e guidano i LLMs verso passi corretti durante l'inferenza, migliorando così l'accuratezza del ragionamento. Tuttavia, i benchmark esistenti per i PRMs sono basati su testo e si concentrano sulla rilevazione degli errori, trascurando altri scenari come la ricerca del ragionamento. Per colmare questa lacuna, introduciamo MPBench, un benchmark multimodale e multi-task progettato per valutare sistematicamente l'efficacia dei PRMs in scenari diversi. MPBench utilizza tre paradigmi di valutazione, ciascuno mirato a un ruolo specifico dei PRMs nel processo di ragionamento: (1) Correttezza del Passo, che valuta la correttezza di ogni passo intermedio del ragionamento; (2) Aggregazione delle Risposte, che aggrega più soluzioni e seleziona la migliore; e (3) Ricerca del Processo di Ragionamento, che guida la ricerca dei passi ottimali di ragionamento durante l'inferenza. Attraverso questi paradigmi, MPBench effettua valutazioni complete e fornisce approfondimenti per lo sviluppo di PRMs multimodali.
Presentiamo Concat-ID, un framework unificato per la generazione di video con preservazione dell'identità. Concat-ID utilizza Autoencoder Variazionali per estrarre le caratteristiche delle immagini, che vengono concatenate con i latenti video lungo la dimensione della sequenza, sfruttando esclusivamente meccanismi di self-attention 3D senza la necessità di moduli aggiuntivi. Una nuova strategia di accoppiamento cross-video e un regime di addestramento multi-stadio vengono introdotti per bilanciare la coerenza dell'identità e l'editabilità del volto, migliorando al contempo la naturalezza del video. Esperimenti estensivi dimostrano la superiorità di Concat-ID rispetto ai metodi esistenti sia nella generazione a singola che a multi-identità, nonché la sua scalabilità senza soluzione di continuità a scenari multi-soggetto, inclusi il virtual try-on e la generazione con controllo dello sfondo. Concat-ID stabilisce un nuovo punto di riferimento per la sintesi video con preservazione dell'identità, fornendo una soluzione versatile e scalabile per un'ampia gamma di applicazioni.
L'approccio predominante per migliorare la generazione di immagini da testo è stato il ridimensionamento durante l'addestramento, in cui modelli più grandi vengono addestrati su più dati utilizzando maggiori risorse computazionali. Sebbene efficace, questo approccio è computazionalmente costoso, portando a un crescente interesse per il ridimensionamento durante l'inferenza per migliorare le prestazioni. Attualmente, il ridimensionamento durante l'inferenza per i modelli di diffusione testo-immagine è principalmente limitato al campionamento best-of-N, in cui vengono generate più immagini per prompt e un modello di selezione sceglie l'output migliore. Ispirati dal recente successo di modelli di ragionamento come DeepSeek-R1 nel dominio del linguaggio, introduciamo un'alternativa al semplice campionamento best-of-N dotando i Diffusion Transformer testo-immagine di capacità di riflessione in contesto. Proponiamo Reflect-DiT, un metodo che consente ai Diffusion Transformer di affinare le loro generazioni utilizzando esempi in contesto di immagini precedentemente generate insieme a feedback testuali che descrivono i miglioramenti necessari. Invece di fare affidamento passivamente sul campionamento casuale e sperare in un risultato migliore in una generazione futura, Reflect-DiT adatta esplicitamente le sue generazioni per affrontare aspetti specifici che richiedono miglioramenti. I risultati sperimentali dimostrano che Reflect-DiT migliora le prestazioni sul benchmark GenEval (+0.19) utilizzando SANA-1.0-1.6B come modello di base. Inoltre, raggiunge un nuovo punteggio record di 0.81 su GenEval generando solo 20 campioni per prompt, superando il precedente miglior punteggio di 0.80, ottenuto utilizzando un modello significativamente più grande (SANA-1.5-4.8B) con 2048 campioni con l'approccio best-of-N.
Il trasferimento cross-linguale consente ai modelli visione-linguaggio (VLMs) di eseguire compiti visivi in varie lingue utilizzando dati di addestramento in una sola lingua. Gli approcci attuali si basano su grandi modelli linguistici multilingue pre-addestrati. Tuttavia, essi affrontano la maledizione della multilinguità, sacrificando le prestazioni nei task downstream per ottenere capacità multilingue, lottando con ambiguità lessicali e rimanendo indietro rispetto ai recenti progressi. In questo lavoro, studiamo le leggi di scalabilità della generalizzazione sistematica con VLMs monolingue per task multilingue, concentrandoci sull'impatto delle dimensioni del modello e dei campioni di addestramento visti. Proponiamo Florenz, un VLM encoder-decoder monolingue con parametri da 0,4B a 11,2B che combina il VLM pre-addestrato Florence-2 e il modello linguistico di grandi dimensioni Gemma-2. Florenz viene addestrato con budget computazionali variabili su un dataset sintetico che presenta una copertura linguistica intenzionalmente incompleta per la descrizione di immagini, testando così la generalizzazione dal task di traduzione completamente coperto. Mostriamo che non solo l'apprendimento indiretto di coppie task-lingua non viste segue una legge di scalabilità, ma anche che, con la nostra pipeline di generazione dati e la famiglia di modelli Florenz proposta, le capacità di descrizione di immagini possono emergere in una lingua specifica anche quando sono disponibili solo dati per il task di traduzione. Il fine-tuning su un mix di dataset downstream produce prestazioni competitive e dimostra tendenze promettenti di scalabilità nella traduzione multimodale (Multi30K, CoMMuTE), nella disambiguazione lessicale (CoMMuTE) e nella descrizione di immagini (Multi30K, XM3600, COCO Karpathy).
Nonostante le loro impressionanti capacità, i Modelli Linguistici Multimodali di Grande Scala (MLLMs) affrontano sfide legate alla percezione fine e al ragionamento complesso. Gli approcci prevalenti di pre-training multimodale si concentrano sul miglioramento della percezione addestrando su didascalie di immagini di alta qualità, a causa del costo estremamente elevato di raccolta di dati di ragionamento a catena di pensiero (CoT) per migliorare il ragionamento. Sebbene l'utilizzo di MLLMs avanzati per la generazione di didascalie aumenti la scalabilità, gli output spesso mancano di completezza e accuratezza. In questo articolo, introduciamo la Cognizione Auto-Migliorante (SIcog), un framework di auto-apprendimento progettato per costruire MLLMs di fondazione di nuova generazione, potenziando le loro capacità cognitive sistematiche attraverso il pre-training multimodale con dati auto-generati. Nello specifico, proponiamo la Catena di Descrizione, un approccio che migliora la percezione sistematica di un MLLM consentendo una comprensione visiva passo-passo, garantendo maggiore completezza e accuratezza. Inoltre, adottiamo una tecnica strutturata di ragionamento CoT per permettere agli MLLMs di integrare un ragionamento multimodale approfondito. Per costruire un MLLM di fondazione di nuova generazione con cognizione auto-migliorata, SIcog prima equipaggia un MLLM con capacità di percezione e ragionamento sistematico utilizzando annotazioni esterne minime. I modelli potenziati generano poi didascalie dettagliate e dati di ragionamento CoT, che vengono ulteriormente curati attraverso l'auto-consistenza. Questi dati curati vengono infine utilizzati per il pre-training multimodale per sviluppare modelli di fondazione di nuova generazione. Esperimenti estesi su MLLMs a bassa e alta risoluzione su vari benchmark dimostrano che, con soli 213K campioni di pre-training auto-generati, SIcog produce MLLMs di fondazione di nuova generazione con cognizione significativamente migliorata, raggiungendo prestazioni leader nei benchmark rispetto agli approcci di pre-training prevalenti.
I modelli linguistici multimodali di grandi dimensioni (MLLM) eccellono nella comprensione visiva 2D, ma rimangono limitati nella capacità di ragionare sullo spazio 3D. In questo lavoro, sfruttiamo dati su larga scala di scene 3D di alta qualità con annotazioni open-set per introdurre 1) un nuovo dataset di fine-tuning supervisionato e 2) un nuovo benchmark di valutazione, focalizzato su scene indoor. Il nostro dataset Cubify Anything VQA (CA-VQA) copre una vasta gamma di compiti spaziali, tra cui la previsione delle relazioni spaziali, la stima delle dimensioni metriche e delle distanze, e il grounding 3D. Dimostriamo che CA-VQA ci permette di addestrare MM-Spatial, un MLLM generalista di grande efficacia che raggiunge anche prestazioni all'avanguardia nei benchmark di comprensione spaziale 3D, incluso il nostro. Mostriamo come l'incorporazione della profondità metrica e degli input multi-vista (forniti in CA-VQA) possa ulteriormente migliorare la comprensione 3D, e dimostriamo che i dati da soli consentono al nostro modello di raggiungere capacità di percezione della profondità paragonabili a modelli dedicati di stima della profondità monoculare. Pubblicheremo il nostro dataset SFT e il benchmark.
Negli ultimi anni, i Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno dimostrato progressi significativi in compiti come il question answering visivo, la comprensione visiva e il ragionamento. Tuttavia, questo impressionante progresso si basa su enormi quantità di dati raccolti da internet, sollevando preoccupazioni rilevanti riguardo alla privacy e alla sicurezza. Per affrontare questi problemi, il machine unlearning (MU) è emerso come una soluzione promettente, consentendo la rimozione di conoscenze specifiche da un modello già addestrato senza la necessità di riaddestrarlo da zero. Sebbene il MU per gli MLLMs abbia attirato l'attenzione, le attuali valutazioni della sua efficacia rimangono incomplete e il problema sottostante è spesso mal definito, il che ostacola lo sviluppo di strategie per creare sistemi più sicuri e affidabili. Per colmare questa lacuna, introduciamo un benchmark, denominato PEBench, che include un dataset di entità personali e scene di eventi generali corrispondenti, progettato per valutare in modo completo le prestazioni del MU per gli MLLMs. Attraverso PEBench, miriamo a fornire un framework standardizzato e robusto per far progredire la ricerca su modelli multimodali sicuri e rispettosi della privacy. Abbiamo valutato 6 metodi di MU, rivelando i loro punti di forza e limiti, e gettando luce sulle principali sfide e opportunità per il MU negli MLLMs.
Una valutazione ideale del modello dovrebbe raggiungere due obiettivi: identificare dove il modello fallisce e fornire indicazioni pratiche per il miglioramento. Verso questi obiettivi per le valutazioni dei Modelli Linguistici (LM), formuliamo il problema della generazione di un profilo di debolezze, un insieme di debolezze espresse in linguaggio naturale, dato il rendimento di un LM su ogni singolo caso in un benchmark. Introduciamo una serie di valutazioni quantitative per confrontare diversi metodi di profilazione delle debolezze. Proponiamo inoltre un metodo di profilazione delle debolezze chiamato EvalTree. Esso costruisce un albero delle capacità in cui ogni nodo rappresenta una capacità descritta in linguaggio naturale ed è collegato a un sottoinsieme di casi del benchmark che valutano specificamente tale capacità; estrae poi i nodi in cui il LM ha prestazioni scarse per generare un profilo di debolezze. Sui benchmark MATH e WildChat, dimostriamo che EvalTree supera i metodi di profilazione delle debolezze di base identificando le debolezze in modo più preciso e completo. La profilazione delle debolezze consente inoltre una raccolta dati guidata dalle debolezze, e la raccolta di dati di addestramento guidata dalle debolezze identificate da EvalTree migliora le prestazioni del LM più di altre strategie di raccolta dati. Mostriamo anche come EvalTree metta in luce le carenze nella pratica di valutazione basata sui voti umani di Chatbot Arena. Per facilitare il lavoro futuro, rilasciamo il nostro codice e un'interfaccia che consente ai professionisti di esplorare in modo interattivo gli alberi delle capacità costruiti da EvalTree.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità notevoli in vari compiti di elaborazione del linguaggio naturale. Tuttavia, ottenere prestazioni solide in domini specializzati come il ragionamento matematico e le lingue non inglesi spesso richiede un addestramento estensivo su enormi dataset. Questo articolo esplora un approccio alternativo: il fine-tuning strategico su un piccolo dataset bilingue (inglese-francese) di alta qualità per migliorare sia le capacità di ragionamento che la competenza linguistica in francese di un grande modello linguistico. Piuttosto che affidarsi alla scala, esploriamo l'ipotesi che una curatela mirata dei dati e un addestramento ottimizzato possano ottenere prestazioni competitive, o addirittura superiori. Dimostriamo, attraverso un fine-tuning supervisionato mirato (SFT) su soli 2.000 campioni selezionati con cura, miglioramenti significativi nel ragionamento matematico. Nello specifico, Pensez 7B mostra un aumento dell'accuratezza del modello base fino al 20% su AIME25 e un incremento del 12% su un benchmark francese MATH di livello 5. Questi risultati mettono in discussione l'assunzione prevalente che dataset massicci siano un prerequisito per prestazioni di ragionamento solide nei LLM, evidenziando il potenziale della curatela strategica dei dati e del fine-tuning ottimizzato per migliorare sia competenze specializzate che capacità multilingue. I nostri risultati hanno implicazioni per lo sviluppo efficiente di LLM multilingue ad alte prestazioni, specialmente in scenari con risorse limitate.
I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) hanno dimostrato capacità impressionanti nel ragionamento, ma comportano costi computazionali significativi, limitando il loro utilizzo in contesti con risorse limitate. Nonostante i recenti sforzi per migliorare l'efficienza degli MLLMs, le soluzioni precedenti non sono riuscite a rispondere adeguatamente alle condizioni di runtime variabili, in particolare alla disponibilità di risorse in cambiamento (ad esempio, la contesa dovuta all'esecuzione di altri programmi sul dispositivo). Per colmare questa lacuna, introduciamo AdaLLaVA, un framework di inferenza adattivo che impara a riconfigurare dinamicamente le operazioni in un MLLM durante l'inferenza, tenendo conto dei dati di input e di un budget di latenza. Abbiamo condotto esperimenti estesi su benchmark che coinvolgono risposte a domande, ragionamento e allucinazioni. I nostri risultati mostrano che AdaLLaVA aderisce efficacemente al budget di latenza di input, raggiungendo diversi compromessi tra accuratezza e latenza in tempo reale. Inoltre, dimostriamo che AdaLLaVA si adatta sia alla latenza di input che al contenuto, può essere integrato con la selezione di token per una maggiore efficienza e generalizza attraverso diversi MLLMs. La nostra pagina web del progetto con il rilascio del codice è disponibile all'indirizzo https://zhuoyan-xu.github.io/ada-llava/.
La Percezione Collaborativa Stradale si riferisce a un sistema in cui più unità stradali collaborano per condividere i loro dati percettivi, assistendo i veicoli nel migliorare la loro consapevolezza ambientale. I metodi esistenti di percezione stradale si concentrano sulla progettazione del modello ma trascurano problemi legati ai dati come errori di calibrazione, informazioni sparse e coerenza multi-vista, portando a scarse prestazioni sui dataset pubblicati di recente. Per migliorare significativamente la percezione collaborativa stradale e affrontare i problemi critici legati ai dati, presentiamo il primo framework di simulazione RoCo-Sim per la percezione collaborativa stradale. RoCo-Sim è in grado di generare dati simulati stradali diversificati e coerenti multi-vista attraverso l'editing dinamico del primo piano e il trasferimento di stile completo di una singola immagine. RoCo-Sim è composto da quattro componenti: (1) L'ottimizzazione delle estrinseche della telecamera garantisce una proiezione accurata da 3D a 2D per le telecamere stradali; (2) Un nuovo campionatore multi-vista consapevole dell'occlusione (MOAS) determina il posizionamento di diverse risorse digitali nello spazio 3D; (3) DepthSAM modella in modo innovativo le relazioni primo piano-sfondo da immagini a vista fissa a singolo fotogramma, garantendo la coerenza multi-vista del primo piano; e (4) Un toolkit di post-elaborazione scalabile genera scene più realistiche e arricchite attraverso il trasferimento di stile e altri miglioramenti. RoCo-Sim migliora significativamente il rilevamento di oggetti 3D stradali, superando i metodi SOTA di 83,74 su Rcooper-Intersection e 83,12 su TUMTraf-V2X per AP70. RoCo-Sim colma una lacuna critica nella simulazione della percezione stradale. Il codice e i modelli pre-addestrati saranno presto rilasciati: https://github.com/duyuwen-duen/RoCo-Sim
L'adattamento di dominio su grafi è emerso come un approccio promettente per facilitare il trasferimento di conoscenze tra diversi domini. Recentemente, numerosi modelli sono stati proposti per migliorare le loro capacità di generalizzazione in questo campo. Tuttavia, manca ancora una libreria unificata che riunisca le tecniche esistenti e ne semplifichi l'implementazione. Per colmare questa lacuna, introduciamo PyGDA, una libreria Python open-source progettata specificamente per l'adattamento di dominio su grafi. Come prima libreria completa in questo ambito, PyGDA copre più di 20 metodi ampiamente utilizzati per l'adattamento di dominio su grafi, insieme a diversi tipi di dataset di grafi. In particolare, PyGDA offre componenti modulari, consentendo agli utenti di costruire modelli personalizzati in modo fluido con una varietà di funzioni di utilità comunemente utilizzate. Per gestire grafi su larga scala, PyGDA include supporto per funzionalità come il campionamento e l'elaborazione in mini-batch, garantendo un calcolo efficiente. Inoltre, PyGDA include anche benchmark di prestazioni completi e un'API ben documentata e user-friendly, sia per i ricercatori che per i professionisti. Per favorire un accesso conveniente, PyGDA è rilasciata sotto licenza MIT all'indirizzo https://github.com/pygda-team/pygda, e la documentazione dell'API è disponibile all'indirizzo https://pygda.readthedocs.io/en/stable/.
Affrontare il recupero di contenuti non sicuri da modelli visione-linguaggio come CLIP rappresenta un passo importante verso l'integrazione nel mondo reale. Gli sforzi attuali si sono basati su tecniche di "unlearning" che cercano di cancellare la conoscenza del modello riguardo a concetti non sicuri. Sebbene efficaci nel ridurre gli output indesiderati, queste tecniche limitano la capacità del modello di distinguere tra contenuti sicuri e non sicuri. In questo lavoro, introduciamo un approccio innovativo che passa dall'"unlearning" a un paradigma di consapevolezza, sfruttando le proprietà gerarchiche intrinseche dello spazio iperbolico. Proponiamo di codificare i contenuti sicuri e non sicuri come una gerarchia di implicazione, posizionandoli in regioni diverse dello spazio iperbolico. Il nostro HySAC, Hyperbolic Safety-Aware CLIP, utilizza funzioni di perdita basate sull'implicazione per modellare le relazioni gerarchiche e asimmetriche tra coppie immagine-testo sicure e non sicure. Questa modellazione, inefficace nei modelli visione-linguaggio standard a causa della loro dipendenza da embedding euclidei, conferisce al modello una consapevolezza dei contenuti non sicuri, permettendogli di fungere sia da classificatore multimodale non sicuro che da recuperatore flessibile di contenuti, con la possibilità di reindirizzare dinamicamente le query non sicure verso alternative più sicure o di mantenere l'output originale. Esperimenti estesi dimostrano che il nostro approccio non solo migliora il riconoscimento della sicurezza, ma stabilisce anche un framework più adattabile e interpretabile per la moderazione dei contenuti nei modelli visione-linguaggio. Il nostro codice sorgente è disponibile all'indirizzo https://github.com/aimagelab/HySAC.
Con il rapido avanzamento dei modelli linguistici su larga scala (LLMs) e dei modelli visione-linguaggio (VLMs), sono stati compiuti progressi significativi nello sviluppo di sistemi di manipolazione robotica a vocabolario aperto. Tuttavia, molti approcci esistenti trascurano l'importanza della dinamica degli oggetti, limitando la loro applicabilità a compiti più complessi e dinamici. In questo lavoro, introduciamo KUDA, un sistema di manipolazione a vocabolario aperto che integra l'apprendimento della dinamica e il prompting visivo attraverso keypoint, sfruttando sia i VLMs che i modelli neurali basati sull'apprendimento della dinamica. La nostra intuizione chiave è che una specifica del target basata su keypoint è contemporaneamente interpretabile dai VLMs e può essere efficientemente tradotta in funzioni di costo per la pianificazione basata su modelli. Dati istruzioni linguistiche e osservazioni visive, KUDA assegna prima i keypoint all'immagine RGB e interroga il VLM per generare specifiche del target. Queste rappresentazioni astratte basate su keypoint vengono poi convertite in funzioni di costo, che vengono ottimizzate utilizzando un modello di dinamica appreso per produrre traiettorie robotiche. Valutiamo KUDA su una gamma di compiti di manipolazione, includendo istruzioni linguistiche libere su diverse categorie di oggetti, interazioni multi-oggetto e oggetti deformabili o granulari, dimostrando l'efficacia del nostro framework. La pagina del progetto è disponibile all'indirizzo http://kuda-dynamics.github.io.
I modelli generativi hanno recentemente compiuto progressi significativi nel campo degli oggetti 3D. Tuttavia, la loro applicazione pratica in settori come l'ingegneria rimane limitata poiché non riescono a garantire l'accuratezza, la qualità e la controllabilità necessarie per compiti specifici del dominio. Il fine-tuning di grandi modelli generativi rappresenta una prospettiva promettente per rendere questi modelli disponibili in tali ambiti. La creazione di dataset 3D di alta qualità e specifici per il dominio è fondamentale per il fine-tuning di grandi modelli generativi, ma il processo di filtraggio e annotazione dei dati rimane un collo di bottiglia significativo. Presentiamo MeshFleet, un dataset filtrato e annotato di veicoli 3D estratto da Objaverse-XL, la più vasta collezione pubblicamente disponibile di oggetti 3D. Il nostro approccio propone una pipeline per il filtraggio automatico dei dati basata su un classificatore di qualità. Questo classificatore è addestrato su un sottoinsieme etichettato manualmente di Objaverse, incorporando embedding di DINOv2 e SigLIP, raffinati attraverso analisi basate su didascalie e stima dell'incertezza. Dimostriamo l'efficacia del nostro metodo di filtraggio attraverso un'analisi comparativa rispetto a tecniche basate su didascalie e punteggi estetici delle immagini, nonché esperimenti di fine-tuning con SV3D, evidenziando l'importanza della selezione mirata dei dati per la modellazione generativa 3D specifica del dominio.
La guida autonoma cooperativa veicolo-veicolo (V2V) promette notevoli miglioramenti in termini di sicurezza, affrontando le incertezze di percezione e previsione intrinseche nei sistemi a singolo agente. Tuttavia, i metodi cooperativi tradizionali sono limitati da protocolli di collaborazione rigidi e da una generalizzazione limitata a scenari interattivi non visti. Sebbene gli approcci basati su LLM offrano capacità di ragionamento generalizzato, le loro difficoltà nella pianificazione spaziale e la latenza di inferenza instabile ne ostacolano l'applicazione diretta nella guida cooperativa. Per superare queste limitazioni, proponiamo CoLMDriver, il primo sistema di guida cooperativa basato su LLM a pipeline completa, che consente una negoziazione efficace basata sul linguaggio e un controllo di guida in tempo reale. CoLMDriver presenta una pipeline di guida parallela con due componenti chiave: (i) un modulo di negoziazione basato su LLM in un paradigma attore-critico, che perfeziona continuamente le politiche di cooperazione attraverso il feedback delle decisioni precedenti di tutti i veicoli; e (ii) un generatore di waypoint guidato dall'intenzione, che traduce i risultati della negoziazione in waypoint eseguibili. Inoltre, introduciamo InterDrive, un benchmark di simulazione basato su CARLA che comprende 10 scenari di guida interattivi impegnativi per valutare la cooperazione V2V. I risultati sperimentali dimostrano che CoLMDriver supera significativamente gli approcci esistenti, raggiungendo un tasso di successo dell'11% superiore in vari scenari di guida V2V altamente interattivi. Il codice sarà rilasciato su https://github.com/cxliu0314/CoLMDriver.