Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti progressi nella generazione da testo a immagine (T2I) hanno ottenuto risultati impressionanti, ma i modelli esistenti continuano a incontrare difficoltà con prompt che richiedono una ricca conoscenza del mondo e ragionamenti impliciti: entrambi aspetti cruciali per produrre immagini semanticamente accurate, coerenti e contestualmente appropriate in scenari reali. Per colmare questa lacuna, introduciamo WorldGenBench, un benchmark progettato per valutare sistematicamente la capacità dei modelli T2I di fondarsi sulla conoscenza del mondo e di eseguire inferenze implicite, coprendo sia il dominio umanistico che quello naturale. Proponiamo il Knowledge Checklist Score, una metrica strutturata che misura quanto bene le immagini generate soddisfano le aspettative semantiche chiave. Esperimenti condotti su 21 modelli all'avanguardia rivelano che, sebbene i modelli di diffusione siano in testa tra i metodi open-source, modelli auto-regressivi proprietari come GPT-4o mostrano una capacità di ragionamento e integrazione della conoscenza significativamente superiore. I nostri risultati evidenziano la necessità di una comprensione più profonda e di capacità inferenziali nei sistemi T2I di prossima generazione. Pagina del progetto: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}
I Transformer hanno ottenuto un grande successo in numerosi compiti di NLP, ma continuano a mostrare lacune significative nel ragionamento fattuale multi-step, specialmente quando la conoscenza del mondo reale è scarsa. Recenti progressi nel grokking hanno dimostrato che le reti neurali possono passare dalla memorizzazione alla perfetta generalizzazione una volta rilevati i modelli logici sottostanti - tuttavia questi studi hanno utilizzato principalmente compiti sintetici e di piccole dimensioni. In questo articolo, per la prima volta, estendiamo il grokking a dati fattuali del mondo reale e affrontiamo la sfida della scarsità dei dataset arricchendo le knowledge graph esistenti con dati sintetici progettati con cura, al fine di aumentare il rapporto phi_r tra fatti inferiti e fatti atomici oltre la soglia necessaria per il grokking. Sorprendentemente, scopriamo che anche dati sintetici fattualmente errati possono rafforzare i circuiti di ragionamento emergenti anziché degradare l'accuratezza, poiché costringono il modello a fare affidamento sulla struttura relazionale piuttosto che sulla memorizzazione. Quando valutato su benchmark di ragionamento multi-hop, il nostro approccio raggiunge un'accuratezza del 95-100% su 2WikiMultiHopQA, migliorando sostanzialmente rispetto ai forti baseline e raggiungendo o superando i risultati attuali dello stato dell'arte. Forniamo inoltre un'analisi approfondita di come l'aumento di phi_r guidi la formazione di circuiti generalizzanti all'interno dei Transformer. I nostri risultati suggeriscono che l'arricchimento dei dati basato sul grokking può sbloccare capacità implicite di ragionamento multi-hop, aprendo la strada a un ragionamento fattuale più robusto e interpretabile nei modelli linguistici su larga scala.
Un agente vocale basato sull'intelligenza artificiale che si integra perfettamente nella vita quotidiana interagirebbe con gli esseri umani in modo autonomo, in tempo reale e con espressività emotiva. Piuttosto che limitarsi a reagire ai comandi, ascolterebbe, ragionerebbe e risponderebbe in modo proattivo, favorendo interazioni fluide, dinamiche e emotivamente coinvolgenti. Presentiamo Voila, una famiglia di modelli di base per il linguaggio vocale su larga scala che rappresenta un passo avanti verso questa visione. Voila supera i tradizionali sistemi a pipeline adottando una nuova architettura end-to-end che consente conversazioni full-duplex a bassa latenza, preservando al contempo ricche sfumature vocali come tono, ritmo ed emozione. Raggiunge una latenza di risposta di soli 195 millisecondi, superando il tempo medio di risposta umano. Il suo Transformer gerarchico multi-scala integra le capacità di ragionamento dei grandi modelli linguistici (LLM) con una potente modellazione acustica, consentendo una generazione vocale naturale e consapevole della personalità, in cui gli utenti possono semplicemente scrivere istruzioni testuali per definire l'identità, il tono e altre caratteristiche del parlante. Inoltre, Voila supporta oltre un milione di voci pre-costruite e una personalizzazione efficiente di nuove voci a partire da brevi campioni audio di soli 10 secondi. Oltre al dialogo parlato, Voila è progettato come un modello unificato per una vasta gamma di applicazioni basate sulla voce, tra cui il riconoscimento vocale automatico (ASR), la sintesi vocale (TTS) e, con un adattamento minimo, la traduzione vocale multilingue. Voila è completamente open-source per supportare la ricerca aperta e accelerare il progresso verso le interazioni uomo-macchina di prossima generazione.
La modellazione delle ricompense è essenziale per allineare i grandi modelli linguistici (LLM) con le preferenze umane, in particolare attraverso l'apprendimento per rinforzo basato sul feedback umano (RLHF). Per fornire segnali di ricompensa accurati, un modello di ricompensa (RM) dovrebbe stimolare un pensiero profondo e condurre un ragionamento interpretabile prima di assegnare un punteggio o un giudizio. Tuttavia, gli RM esistenti producono o punteggi scalari opachi o generano direttamente la previsione di una risposta preferita, rendendo difficile l'integrazione di critiche in linguaggio naturale e quindi mancando di interpretabilità. Ispirati dai recenti progressi delle lunghe catene di pensiero (CoT) su compiti intensivi di ragionamento, ipotizziamo e validiamo che l'integrazione di capacità di ragionamento nella modellazione delle ricompense migliora significativamente l'interpretabilità e le prestazioni degli RM. In questo lavoro, introduciamo una nuova classe di modelli di ricompensa generativi -- Modelli di Ricompensa con Ragionamento (ReasRMs) -- che formulano la modellazione delle ricompense come un compito di ragionamento. Proponiamo una pipeline di formazione orientata al ragionamento e addestriamo una famiglia di ReasRMs, RM-R1. L'addestramento consiste in due fasi chiave: (1) distillazione di catene di ragionamento di alta qualità e (2) apprendimento per rinforzo con ricompense verificabili. RM-R1 migliora le iterazioni degli LLM generando autonomamente tracce di ragionamento o rubriche specifiche per il chat e valutando le risposte candidate rispetto a esse. Empiricamente, i nostri modelli raggiungono prestazioni all'avanguardia o quasi all'avanguardia per gli RM generativi su molteplici benchmark completi di modelli di ricompensa, superando modelli open-weight molto più grandi (ad esempio, Llama3.1-405B) e modelli proprietari (ad esempio, GPT-4o) fino al 13,8%. Oltre alle prestazioni finali, eseguiamo un'analisi empirica approfondita per comprendere gli ingredienti chiave del successo nell'addestramento dei ReasRM. Per facilitare la ricerca futura, rilasciamo sei modelli ReasRM insieme a codice e dati su https://github.com/RM-R1-UIUC/RM-R1.
Dimostriamo che Muon, la più semplice istanziazione di un ottimizzatore del secondo ordine, espande esplicitamente la frontiera di Pareto rispetto ad AdamW nel compromesso tra tempo di calcolo ed efficienza. Troviamo che Muon è più efficace di AdamW nel mantenere l'efficienza dei dati con dimensioni di batch elevate, ben oltre la cosiddetta dimensione critica del batch, pur rimanendo computazionalmente efficiente, consentendo così un addestramento più economico. Studiamo la combinazione di Muon con la parametrizzazione ad aggiornamento massimale (muP) per un trasferimento efficiente degli iperparametri e presentiamo un semplice algoritmo telescopico che tiene conto di tutte le fonti di errore in muP introducendo solo un modesto sovraccarico di risorse. Convalidiamo i nostri risultati attraverso esperimenti estesi con dimensioni del modello fino a quattro miliardi di parametri e ablazioni sulla distribuzione dei dati e sull'architettura.
I modelli linguistici di grandi dimensioni (LLM) sono ampiamente utilizzati in chatbot, generatori di codice e motori di ricerca. Carichi di lavoro come il ragionamento a catena di pensiero (chain-of-thought), il ragionamento complesso e i servizi basati su agenti aumentano significativamente il costo di inferenza richiedendo ripetute invocazioni del modello. Metodi di ottimizzazione come parallelismo, compressione e caching sono stati adottati per ridurre i costi, ma la diversità dei requisiti di servizio rende difficile selezionare il metodo più adatto. Recentemente, motori di inferenza specializzati per LLM sono emersi come componente chiave per integrare le tecniche di ottimizzazione in infrastrutture orientate ai servizi. Tuttavia, manca ancora uno studio sistematico sui motori di inferenza. Questo articolo fornisce una valutazione completa di 25 motori di inferenza open source e commerciali. Esaminiamo ciascun motore in termini di facilità d'uso, facilità di distribuzione, supporto per scopi generali, scalabilità e adeguatezza per calcoli sensibili a throughput e latenza. Inoltre, esploriamo gli obiettivi di progettazione di ciascun motore di inferenza investigando le tecniche di ottimizzazione supportate. Valutiamo anche la maturità dell'ecosistema dei motori open source e gestiamo le politiche di prestazioni e costi delle soluzioni commerciali. Delineiamo future direzioni di ricerca che includono il supporto per servizi complessi basati su LLM, il supporto per vari hardware e una maggiore sicurezza, offrendo una guida pratica a ricercatori e sviluppatori nella selezione e progettazione di motori di inferenza ottimizzati per LLM. Forniamo inoltre un repository pubblico per monitorare continuamente gli sviluppi in questo campo in rapida evoluzione: https://github.com/sihyeong/Awesome-LLM-Inference-Engine.
I modelli linguistici di grandi dimensioni (LLM) hanno compiuto progressi significativi nei compiti di ragionamento complesso, ma rimangono fondamentalmente limitati dalla loro dipendenza da conoscenze interne statiche e da un ragionamento basato esclusivamente sul testo. La risoluzione di problemi nel mondo reale richiede spesso un ragionamento dinamico e multi-step, una decisione adattiva e la capacità di interagire con strumenti e ambienti esterni. In questo lavoro, introduciamo ARTIST (Agentic Reasoning and Tool Integration in Self-improving Transformers), un framework unificato che integra strettamente il ragionamento agentico, l'apprendimento per rinforzo e l'integrazione di strumenti per gli LLM. ARTIST consente ai modelli di decidere autonomamente quando, come e quali strumenti invocare all'interno di catene di ragionamento multi-turn, sfruttando l'apprendimento per rinforzo basato sui risultati per apprendere strategie robuste per l'uso degli strumenti e l'interazione con l'ambiente, senza richiedere una supervisione a livello di step. Esperimenti estesi su benchmark di ragionamento matematico e chiamate di funzioni multi-turn dimostrano che ARTIST supera costantemente i migliori modelli di riferimento, con un miglioramento assoluto fino al 22% rispetto ai modelli di base e guadagni significativi nei compiti più impegnativi. Studi dettagliati e analisi metriche rivelano che l'addestramento con apprendimento per rinforzo agentico porta a un ragionamento più profondo, un uso più efficace degli strumenti e soluzioni di qualità superiore. I nostri risultati stabiliscono l'apprendimento per rinforzo agentico con integrazione di strumenti come una nuova e potente frontiera per la risoluzione di problemi robusta, interpretabile e generalizzabile negli LLM.
Il ragionamento matematico formale rimane una sfida cruciale per l'intelligenza artificiale, ostacolato dalle limitazioni degli attuali benchmark in termini di portata e scala. Per affrontare questo problema, presentiamo FormalMATH, un benchmark su larga scala basato su Lean4 che comprende 5.560 problemi formalmente verificati, che spaziano dalle sfide delle Olimpiadi di matematica delle scuole superiori ai teoremi di livello universitario in diversi ambiti (ad esempio, algebra, matematica applicata, calcolo, teoria dei numeri e matematica discreta). Per mitigare l'inefficienza della formalizzazione manuale, introduciamo una nuova pipeline di autoformalizzazione con l'uomo nel ciclo che integra: (1) modelli linguistici di grandi dimensioni (LLM) specializzati per l'autoformalizzazione delle affermazioni, (2) verifica semantica multi-LLM e (3) strategie di filtraggio delle confutazioni basate sulla negazione utilizzando dimostratori basati su LLM già disponibili. Questo approccio riduce i costi di annotazione degli esperti mantenendo il 72,09% delle affermazioni prima della verifica manuale, garantendo al contempo la fedeltà ai problemi originali in linguaggio naturale. La nostra valutazione dei dimostratori di teoremi basati su LLM all'avanguardia rivela significative limitazioni: anche i modelli più potenti raggiungono solo un tasso di successo del 16,46% con budget di campionamento pratici, mostrando un marcato bias di dominio (ad esempio, eccellendo in algebra ma fallendo in calcolo) e un'eccessiva dipendenza da tattiche di automazione semplificate. In particolare, identifichiamo una relazione inversa controintuitiva tra la guida alla soluzione in linguaggio naturale e il successo della dimostrazione negli scenari di ragionamento a catena di pensiero, suggerendo che il ragionamento informale scritto dall'uomo introduce rumore piuttosto che chiarezza nei contesti di ragionamento formale. Crediamo che FormalMATH fornisca un benchmark solido per valutare il ragionamento matematico formale.
I Modelli di Ricompensa Multimodali (MRM) svolgono un ruolo cruciale nel migliorare le prestazioni dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM). Sebbene i recenti progressi si siano concentrati principalmente sul miglioramento della struttura del modello e dei dati di addestramento degli MRM, c'è stata un'esplorazione limitata sull'efficacia delle capacità di ragionamento a lungo termine per la modellazione della ricompensa e su come attivare queste capacità negli MRM. In questo articolo, esploriamo come l'Apprendimento per Rinforzo (RL) possa essere utilizzato per migliorare la modellazione della ricompensa. Nello specifico, riformuliamo il problema della modellazione della ricompensa come un compito RL basato su regole. Tuttavia, osserviamo che l'applicazione diretta di algoritmi RL esistenti, come Reinforce++, alla modellazione della ricompensa spesso porta a instabilità durante l'addestramento o addirittura al collasso a causa delle limitazioni intrinseche di questi algoritmi. Per affrontare questo problema, proponiamo l'algoritmo StableReinforce, che perfeziona la funzione di perdita dell'addestramento, la strategia di stima del vantaggio e il design della ricompensa dei metodi RL esistenti. Questi perfezionamenti risultano in dinamiche di addestramento più stabili e prestazioni superiori. Per facilitare l'addestramento degli MRM, raccogliamo 200K dati di preferenza da dataset diversi. Il nostro modello di ricompensa, R1-Reward, addestrato utilizzando l'algoritmo StableReinforce su questo dataset, migliora significativamente le prestazioni sui benchmark di modellazione della ricompensa multimodale. Rispetto ai precedenti modelli SOTA, R1-Reward ottiene un miglioramento dell'8,4% sul VL Reward-Bench e del 14,3% sul Multimodal Reward Bench. Inoltre, con maggiori risorse di inferenza, le prestazioni di R1-Reward sono ulteriormente migliorate, evidenziando il potenziale degli algoritmi RL nell'ottimizzazione degli MRM.
Presentiamo ReplaceMe, un metodo generalizzato di pruning in profondità che non richiede addestramento e sostituisce efficacemente i blocchi transformer con un'operazione lineare, mantenendo alte prestazioni per bassi rapporti di compressione. A differenza degli approcci convenzionali di pruning che necessitano di ulteriore addestramento o fine-tuning, il nostro metodo richiede solo un piccolo dataset di calibrazione utilizzato per stimare una trasformazione lineare che approssima i blocchi rimossi. Questa mappatura lineare stimata può essere integrata senza soluzione di continuità con i restanti blocchi transformer, eliminando la necessità di parametri aggiuntivi nella rete. I nostri esperimenti dimostrano che ReplaceMe supera costantemente altri approcci che non richiedono addestramento e rimane altamente competitivo rispetto ai metodi di pruning all'avanguardia che implicano un esteso riaddestramento/fine-tuning e modifiche architetturali. Applicato a diversi modelli linguistici di grandi dimensioni (LLM), ReplaceMe raggiunge fino al 25% di pruning mantenendo circa il 90% delle prestazioni originali del modello su benchmark aperti - senza alcun passaggio di addestramento o recupero, risultando in un sovraccarico computazionale minimo (vedi Fig.1). Forniamo una libreria open-source che implementa ReplaceMe insieme a diverse tecniche all'avanguardia di pruning in profondità, disponibile in questo repository.
Il ragionamento a catena di pensiero (Chain-of-Thought, CoT) nei grandi modelli linguistici (Large Language Models, LLMs) può essere formalizzato come un problema di variabile latente, in cui il modello deve generare passaggi intermedi di ragionamento. Sebbene approcci precedenti come il fine-tuning iterativo con classificazione basata su ricompense (iterative reward-ranked fine-tuning, RAFT) si siano basati su tali formulazioni, essi applicano tipicamente budget di inferenza uniformi tra i prompt, senza tenere conto della variabilità nella difficoltà e nel comportamento di convergenza. Questo lavoro identifica il principale collo di bottiglia nell'addestramento CoT come una stima inefficiente del gradiente stocastico dovuta a strategie di campionamento statiche. Proponiamo GVM-RAFT, una strategia dinamica di allocazione dei campioni specifica per prompt, progettata per minimizzare la varianza del gradiente stocastico sotto un vincolo di budget computazionale. Il metodo assegna dinamicamente le risorse computazionali monitorando i tassi di accettazione dei prompt e le norme del gradiente stocastico, garantendo che la varianza del gradiente risultante sia minimizzata. La nostra analisi teorica mostra che la strategia di campionamento dinamico proposta porta a garanzie di convergenza accelerate in condizioni appropriate. Esperimenti sul ragionamento matematico dimostrano che GVM-RAFT ottiene un'accelerazione di 2-4 volte e miglioramenti significativi in termini di accuratezza rispetto al RAFT standard. La strategia di campionamento dinamico proposta è generale e può essere integrata in altri algoritmi di apprendimento per rinforzo, come GRPO, portando a miglioramenti simili nella convergenza e nell'accuratezza nei test. Il nostro codice è disponibile all'indirizzo https://github.com/RLHFlow/GVM.
L'interazione vocale in tempo reale, intelligente e naturale è una componente essenziale della prossima generazione di interazione uomo-computer. I recenti progressi hanno dimostrato il potenziale di costruire chatbot vocali intelligenti basati su modelli linguistici di grandi dimensioni (LLM). In questo articolo, presentiamo LLaMA-Omni 2, una serie di modelli linguistici vocali (SpeechLM) che vanno da 0,5B a 14B di parametri, in grado di raggiungere un'interazione vocale di alta qualità in tempo reale. LLaMA-Omni 2 è costruito sui modelli della serie Qwen2.5, integrando un codificatore vocale e un decodificatore vocale autoregressivo in streaming. Nonostante sia stato addestrato su soli 200K campioni di dialoghi vocali multi-turn, LLaMA-Omni 2 dimostra prestazioni solide su diversi benchmark di risposta a domande vocali e di esecuzione di istruzioni vocali, superando i precedenti SpeechLM all'avanguardia come GLM-4-Voice, che era stato addestrato su milioni di ore di dati vocali.
Affrontiamo una sfida fondamentale nel Reinforcement Learning da Dimostrazioni di Interazione (RLID): il rumore nelle dimostrazioni e le limitazioni di copertura. Sebbene gli approcci esistenti per la raccolta dati forniscano dimostrazioni di interazione preziose, spesso producono traiettorie sparse, disconnesse e rumorose che non catturano l'intero spettro di possibili variazioni e transizioni delle abilità. La nostra intuizione chiave è che, nonostante dimostrazioni rumorose e sparse, esistono infinite traiettorie fisicamente fattibili che naturalmente collegano le abilità dimostrate o emergono dai loro stati vicini, formando uno spazio continuo di possibili variazioni e transizioni delle abilità. Basandoci su questa intuizione, presentiamo due tecniche di aumento dei dati: un Grafo di Traiettorie Cucite (STG) che scopre potenziali transizioni tra le abilità dimostrate, e un Campo di Transizione di Stato (STF) che stabilisce connessioni uniche per stati arbitrari all'interno del vicinato delle dimostrazioni. Per abilitare un RLID efficace con dati aumentati, sviluppiamo una strategia di Campionamento Adattivo delle Traiettorie (ATS) per la generazione dinamica di un curriculum e un meccanismo di codifica storica per l'apprendimento di abilità dipendenti dalla memoria. Il nostro approccio consente un'acquisizione robusta delle abilità che si generalizza significativamente oltre le dimostrazioni di riferimento. Esperimenti estesi su diverse attività di interazione dimostrano miglioramenti sostanziali rispetto ai metodi all'avanguardia in termini di stabilità di convergenza, capacità di generalizzazione e robustezza di recupero.
Una simulazione efficace dell'intelligenza sociale richiede che gli agenti linguistici siano in grado di adattare dinamicamente la profondità del ragionamento, una capacità attualmente assente negli approcci esistenti. Mentre i metodi attuali o mancano di questo tipo di capacità di ragionamento o impongono una catena di pensiero uniforme e lunga in tutti gli scenari, risultando in un uso eccessivo di token e in una simulazione sociale inappropriata. In questo articolo, proponiamo l'Adaptive Mode Learning (AML), che seleziona strategicamente tra quattro modalità di pensiero (reazione intuitiva → contemplazione profonda) in base al contesto in tempo reale. L'innovazione centrale del nostro framework, l'algoritmo Adaptive Mode Policy Optimization (AMPO), introduce tre progressi chiave rispetto ai metodi esistenti: (1) Progettazione di modalità di pensiero multi-granulari, (2) Cambio di modalità contestuale durante l'interazione sociale, e (3) Ragionamento efficiente in termini di token tramite elaborazione adattiva alla profondità. Esperimenti estesi su compiti di intelligenza sociale confermano che AML raggiunge una performance del 15,6% superiore rispetto ai metodi all'avanguardia. In particolare, il nostro metodo supera GRPO del 7,0% con catene di ragionamento più brevi del 32,8%. Questi risultati dimostrano che la selezione contestuale delle modalità di pensiero, implementata in AMPO, consente un ragionamento adattivo più simile a quello umano rispetto all'approccio a profondità fissa di GRPO.
A causa delle difficoltà nel raccogliere manualmente dati di editing accurati, i dataset esistenti sono tipicamente costruiti utilizzando vari metodi automatizzati, portando a segnali di supervisione rumorosi causati dalla discrepanza tra le istruzioni di editing e le coppie di immagini originali-modificate. Recenti tentativi cercano di migliorare i modelli di editing generando immagini modificate di qualità superiore, pre-addestrando su task di riconoscimento o introducendo modelli visione-linguaggio (VLMs), ma non riescono a risolvere questo problema fondamentale. In questo articolo, offriamo una soluzione innovativa costruendo istruzioni di editing più efficaci per le coppie di immagini date. Ciò include la correzione delle istruzioni di editing per allinearle meglio alle coppie di immagini originali-modificate e l'uso di istruzioni di editing contrastive per migliorarne ulteriormente l'efficacia. Nello specifico, scopriamo che i modelli di editing mostrano attributi di generazione specifici in diversi passaggi di inferenza, indipendentemente dal testo. Sulla base di questi attributi preesistenti, definiamo una guida unificata per i VLMs per correggere le istruzioni di editing. Tuttavia, ci sono alcuni scenari di editing complessi che non possono essere risolti solo con istruzioni corrette. A tal fine, costruiamo ulteriormente segnali di supervisione contrastive con istruzioni positive e negative e li introduciamo nell'addestramento del modello utilizzando la triplet loss, facilitando così ulteriormente l'efficacia della supervisione. Il nostro metodo non richiede i moduli VLM o i task di pre-addestramento utilizzati in lavori precedenti, offrendo un modo più diretto ed efficiente per fornire migliori segnali di supervisione, e proponendo una soluzione innovativa, semplice ed efficace per l'editing di immagini basato su istruzioni. I risultati su molteplici benchmark dimostrano che il nostro metodo supera significativamente gli approcci esistenti. Rispetto al precedente SOTA SmartEdit, otteniamo un miglioramento del 9,19% sul benchmark Real-Edit con 30 volte meno dati di addestramento e una dimensione del modello 13 volte più piccola.
Presentiamo Ming-Lite-Uni, un framework multimodale open-source che include un generatore visivo unificato di nuova concezione e un modello autoregressivo multimodale nativo progettato per unificare visione e linguaggio. Nello specifico, questo progetto fornisce un'implementazione open-source del framework integrato MetaQueries e M2-omni, introducendo al contempo i nuovi token apprendibili multi-scala e la strategia di allineamento delle rappresentazioni multi-scala. Sfruttando un MLLM fisso e un modello di diffusione apprendibile, Ming-Lite-Uni consente ai modelli AR multimodali nativi di eseguire sia la generazione di immagini da testo che attività di editing di immagini basate su istruzioni, ampliando le loro capacità oltre la pura comprensione visiva. I nostri risultati sperimentali dimostrano le prestazioni robuste di Ming-Lite-Uni e illustrano la natura fluida e impressionante del suo processo interattivo. Tutti i codici e i pesi dei modelli sono resi open-source per favorire ulteriori esplorazioni all'interno della comunità. È importante notare che questo lavoro si allinea con traguardi contemporanei dell'IA multimodale, come ChatGPT-4o con generazione di immagini nativa aggiornata al 25 marzo 2025, sottolineando l'importanza più ampia di modelli unificati come Ming-Lite-Uni nel percorso verso l'AGI. Ming-Lite-Uni è in fase alpha e verrà presto ulteriormente perfezionato.
I modelli linguistici di grandi dimensioni (LLM) hanno ottenuto prestazioni impressionanti in vari domini. Tuttavia, le ingenti risorse hardware necessarie per il loro addestramento rappresentano un significativo ostacolo all'efficienza e alla scalabilità. Per mitigare questa sfida, le tecniche di addestramento a bassa precisione sono state ampiamente adottate, portando a notevoli progressi nell'efficienza dell'addestramento. Nonostante questi vantaggi, l'addestramento a bassa precisione coinvolge diversi componenti—come pesi, attivazioni e gradienti—ciascuno dei quali può essere rappresentato in diversi formati numerici. La conseguente diversità ha creato un panorama frammentato nella ricerca sull'addestramento a bassa precisione, rendendo difficile per i ricercatori ottenere una visione unificata del campo. Questa rassegna fornisce una revisione completa dei metodi esistenti di addestramento a bassa precisione. Per organizzare sistematicamente questi approcci, li categorizziamo in tre gruppi principali basati sui loro formati numerici sottostanti, che è un fattore chiave che influenza la compatibilità hardware, l'efficienza computazionale e la facilità di riferimento per i lettori. Le categorie sono: (1) metodi basati su numeri fissi e interi, (2) metodi basati su numeri in virgola mobile e (3) metodi basati su formati personalizzati. Inoltre, discutiamo gli approcci di addestramento con consapevolezza della quantizzazione, che condividono somiglianze chiave con l'addestramento a bassa precisione durante la propagazione in avanti. Infine, evidenziamo diverse direzioni di ricerca promettenti per far progredire questo campo. Una raccolta di articoli discussi in questa rassegna è disponibile su https://github.com/Hao840/Awesome-Low-Precision-Training.
Comprendere le relazioni causali tra eventi e ottenere un ancoraggio temporale fine nei video rimane una sfida per i modelli visione-linguaggio. I metodi esistenti comprimono i token video per ridurre la risoluzione temporale o trattano i video come flussi non segmentati, oscurando i confini degli eventi a livello fine e limitando la modellazione delle dipendenze causali. Proponiamo TEMPURA (Temporal Event Masked Prediction and Understanding for Reasoning in Action), un framework di addestramento in due fasi che migliora la comprensione temporale dei video. TEMPURA applica inizialmente un ragionamento di predizione mascherata degli eventi per ricostruire eventi mancanti e generare spiegazioni causali passo-passo da annotazioni dense di eventi, traendo ispirazione da tecniche efficaci di riempimento. Successivamente, TEMPURA impara a eseguire segmentazione video e captioning denso per scomporre i video in eventi non sovrapposti con descrizioni dettagliate e allineate temporalmente. Addestriamo TEMPURA su VER, un dataset su larga scala da noi curato che comprende 1M di istanze di addestramento e 500K video con descrizioni di eventi allineate temporalmente e passaggi di ragionamento strutturati. Esperimenti su benchmark di ancoraggio temporale e rilevazione di momenti salienti dimostrano che TEMPURA supera modelli baseline robusti, confermando che l'integrazione del ragionamento causale con la segmentazione temporale fine porta a una migliore comprensione dei video.
Gli approcci attuali di personalizzazione multi-soggetto affrontano due sfide critiche: la difficoltà nell'acquisire dati di addestramento diversificati per più soggetti e l'entanglement degli attributi tra diversi soggetti. Per colmare queste lacune, proponiamo MUSAR, un framework semplice ma efficace per ottenere una robusta personalizzazione multi-soggetto richiedendo solo dati di addestramento per singoli soggetti. In primo luogo, per superare la limitazione dei dati, introduciamo il debiased diptych learning. Questo metodo costruisce coppie di addestramento diptych da immagini di singoli soggetti per facilitare l'apprendimento multi-soggetto, correggendo attivamente il bias di distribuzione introdotto dalla costruzione diptych tramite static attention routing e dual-branch LoRA. In secondo luogo, per eliminare l'entanglement tra soggetti, introduciamo un meccanismo di dynamic attention routing, che stabilisce in modo adattivo mappature biiettive tra le immagini generate e i soggetti condizionali. Questo design non solo raggiunge il disaccoppiamento delle rappresentazioni multi-soggetto, ma mantiene anche prestazioni di generalizzazione scalabili con l'aumento dei soggetti di riferimento. Esperimenti completi dimostrano che il nostro MUSAR supera i metodi esistenti - anche quelli addestrati su dataset multi-soggetto - in termini di qualità dell'immagine, coerenza del soggetto e naturalezza dell'interazione, nonostante richieda solo un dataset di singoli soggetti.
I meccanismi di attenzione sono fondamentali per il successo dei grandi modelli linguistici (LLM), guidando progressi significativi in molteplici campi. Tuttavia, per i dati strutturati a grafo, che richiedono un'enfasi sulle connessioni topologiche, essi risultano inferiori rispetto ai meccanismi di passaggio di messaggi su collegamenti fissi, come quelli utilizzati dalle Reti Neurali a Grafo (GNN). Ciò solleva una domanda: "L'attenzione fallisce per i grafi in contesti di linguaggio naturale?" Motivati da queste osservazioni, abbiamo intrapreso uno studio empirico dal punto di vista dei meccanismi di attenzione per esplorare come i LLM elaborano i dati strutturati a grafo. L'obiettivo è ottenere approfondimenti sul comportamento dell'attenzione dei LLM sulle strutture a grafo. Abbiamo scoperto fenomeni unici riguardo a come i LLM applicano l'attenzione ai dati strutturati a grafo e abbiamo analizzato questi risultati per migliorare la modellazione di tali dati da parte dei LLM. Le principali scoperte della nostra ricerca sono: 1) Sebbene i LLM possano riconoscere i dati a grafo e catturare le interazioni testo-nodo, faticano a modellare le relazioni inter-nodo all'interno delle strutture a grafo a causa di vincoli architetturali intrinseci. 2) La distribuzione dell'attenzione dei LLM tra i nodi del grafo non si allinea con i modelli strutturali ideali, indicando un fallimento nell'adattarsi alle sfumature della topologia del grafo. 3) Né l'attenzione completamente connessa né la connettività fissa sono ottimali; ciascuna ha limitazioni specifiche nei suoi scenari di applicazione. Invece, finestre di attenzione a stato intermedio migliorano le prestazioni di addestramento dei LLM e passano senza soluzione di continuità a finestre completamente connesse durante l'inferenza. Codice sorgente: https://github.com/millioniron/LLM_exploration{LLM4Exploration}
I recenti metodi NeRF su scene su larga scala hanno sottolineato l'importanza della decomposizione della scene per NeRF scalabili. Sebbene abbiano raggiunto una ragionevole scalabilità, rimangono diversi problemi critici ancora inesplorati, come la decomposizione apprendibile, la modellazione dell'eterogeneità della scena e l'efficienza di modellazione. In questo articolo, introduciamo Switch-NeRF++, una rete Heterogeneous Mixture of Hash Experts (HMoHE) che affronta queste sfide all'interno di un framework unificato. Si tratta di un NeRF altamente scalabile che apprende la decomposizione eterogenea e NeRF eterogenei in modo efficiente per scene su larga scala in maniera end-to-end. Nel nostro framework, una rete di gating apprende a decomporre le scene e assegna punti 3D a esperti NeRF specializzati. Questa rete di gating è co-ottimizzata con gli esperti, grazie al nostro framework Sparsely Gated Mixture of Experts (MoE) NeRF proposto. Incorporiamo una rete di gating basata su hash e distinti esperti hash eterogenei. La rete di gating basata su hash apprende in modo efficiente la decomposizione della scena su larga scala. I distinti esperti hash eterogenei consistono in griglie hash con intervalli di risoluzione diversi, consentendo un apprendimento efficace della rappresentazione eterogenea di diverse parti della scena. Queste scelte progettuali rendono il nostro framework una soluzione NeRF end-to-end e altamente scalabile per la modellazione di scene su larga scala nel mondo reale, raggiungendo sia qualità che efficienza. Valutiamo la nostra accuratezza e scalabilità su dataset NeRF esistenti su larga scala e un nuovo dataset con scene di grandissima scala (>6.5km^2) proveniente da UrbanBIS. Esperimenti estensivi dimostrano che il nostro approccio può essere facilmente scalato a varie scene su larga scala e raggiungere un'accuratezza di rendering della scena all'avanguardia. Inoltre, il nostro metodo mostra una significativa efficienza, con un'accelerazione di 8x nell'addestramento e di 16x nel rendering rispetto a Switch-NeRF. I codici saranno rilasciati su https://github.com/MiZhenxing/Switch-NeRF.
I LLM addestrati su enormi dataset possono acquisire involontariamente informazioni sensibili come dettagli personali e contenuti potenzialmente dannosi. Questo rischio è ulteriormente amplificato nei LLM multimodali, poiché integrano informazioni provenienti da più modalità (immagine e testo). Gli avversari possono sfruttare questa conoscenza attraverso prompt multimodali per estrarre dettagli sensibili. Valutare quanto efficacemente i MLLM possano dimenticare tali informazioni (unlearning mirato) richiede la creazione di coppie immagine-testo di alta qualità e ben annotate. Mentre i precedenti lavori sull'unlearning si sono concentrati sul testo, l'unlearning multimodale rimane poco esplorato. Per colmare questa lacuna, introduciamo innanzitutto un benchmark per l'unlearning multimodale, UnLOK-VQA (Unlearning Outside Knowledge VQA), insieme a un framework di attacco e difesa per valutare i metodi di cancellazione di specifiche conoscenze multimodali dai MLLM. Estendiamo un dataset di visual question-answer utilizzando una pipeline automatizzata che genera campioni a varia prossimità per testare generalizzazione e specificità, seguita da un filtraggio manuale per mantenere un'alta qualità. Valutiamo quindi sei obiettivi di difesa contro sette attacchi (quattro whitebox, tre blackbox), inclusa una nuova metodologia whitebox che sfrutta l'interpretabilità degli stati nascosti. I nostri risultati mostrano che gli attacchi multimodali superano quelli basati solo su testo o immagini, e che la difesa più efficace rimuove le informazioni di risposta dagli stati interni del modello. Inoltre, i modelli più grandi mostrano una maggiore robustezza post-modifica, suggerendo che la scala migliora la sicurezza. UnLOK-VQA fornisce un benchmark rigoroso per far progredire l'unlearning nei MLLM.
Le telecamere event-based catturano la dinamica del movimento, offrendo una modalità unica con un grande potenziale in vari compiti di visione artificiale. Tuttavia, la fusione RGB-Event deve affrontare tre disallineamenti intrinseci: (i) temporale, (ii) spaziale e (iii) modale. Le rappresentazioni esistenti tramite griglie voxel trascurano le correlazioni temporali tra finestre di eventi consecutive, e la loro formulazione con una semplice accumulazione di eventi asincroni e sparsi è incompatibile con la natura sincrona e densa della modalità RGB. Per affrontare queste sfide, proponiamo una nuova rappresentazione degli eventi, il Motion-enhanced Event Tensor (MET), che trasforma i voxel di eventi sparsi in una forma densa e temporalmente coerente sfruttando flussi ottici densi e caratteristiche temporali degli eventi. Inoltre, introduciamo un modulo di aggregazione del flusso bidirezionale basato sulla frequenza (BFAM) e un modulo di fusione temporale (TFM). Il BFAM sfrutta il dominio della frequenza e il MET per mitigare il disallineamento modale, mentre i meccanismi di aggregazione del flusso bidirezionale e di fusione temporale risolvono il disallineamento spaziotemporale. I risultati sperimentali su due dataset su larga scala dimostrano che il nostro framework supera significativamente gli approcci più avanzati per la segmentazione semantica RGB-Event. Il nostro codice è disponibile all'indirizzo: https://github.com/zyaocoder/BRENet.