Articoli di ricerca IA selezionati quotidianamente con traduzioni
I sistemi Multi-LLM sfruttano i punti di forza complementari di diversi modelli linguistici di grandi dimensioni (Large Language Models, LLM), raggiungendo livelli di prestazione ed efficienza irraggiungibili da un singolo modello. Negli approcci esistenti, i LLM comunicano tramite testo, costringendo le rappresentazioni interne a essere trasformate in sequenze di token in uscita. Questo processo comporta sia la perdita di ricche informazioni semantiche sia una latenza generata token per token. Spinti da queste limitazioni, ci chiediamo: i LLM possono comunicare oltre il testo? Esperimenti preliminari dimostrano che arricchire la semantica della KV-Cache può migliorare la qualità delle risposte senza aumentare le dimensioni della cache, supportando la KV-Cache come mezzo efficace per la comunicazione tra modelli. Proponiamo quindi Cache-to-Cache (C2C), un nuovo paradigma per la comunicazione semantica diretta tra LLM. C2C utilizza una rete neurale per proiettare e fondere la KV-Cache del modello sorgente con quella del modello target, abilitando un trasferimento semantico diretto. Un meccanismo di gate apprendibile seleziona i livelli target che beneficiano della comunicazione tramite cache. Rispetto alla comunicazione testuale, C2C sfrutta la semantica profonda e specializzata di entrambi i modelli, evitando la generazione esplicita di testo intermedio. Gli esperimenti mostrano che C2C raggiunge un'accuratezza media superiore dell'8,5-10,5% rispetto ai singoli modelli. Inoltre, supera il paradigma di comunicazione testuale di circa il 3,0-5,0%, offrendo un miglioramento medio della latenza di 2,0x. Il nostro codice è disponibile all'indirizzo https://github.com/thu-nics/C2C.
La tokenizzazione visiva rimane una sfida fondamentale nell'unificazione della comprensione e della generazione visiva all'interno del paradigma autoregressivo. I metodi esistenti tipicamente impiegano tokenizer in spazi latenti discreti per allinearsi ai token dei modelli linguistici su larga scala, dove gli errori di quantizzazione possono limitare l'espressività semantica e degradare la capacità di comprensione visuo-linguistica. Per affrontare questo problema, introduciamo MingTok, una nuova famiglia di tokenizer visivi con uno spazio latente continuo, per la generazione e comprensione autoregressiva unificata. Mentre i compiti di comprensione favoriscono caratteristiche discriminative ad alta dimensionalità, i compiti di generazione preferiscono codici compatti di basso livello. Pertanto, per conciliare queste esigenze contrastanti, MingTok adotta un'architettura sequenziale in tre fasi che coinvolge la codifica di basso livello, l'espansione semantica e la ricostruzione visiva. Basato su di essa, Ming-UniVision elimina la necessità di rappresentazioni visive specifiche per ogni compito e unifica diverse attività visuo-linguistiche sotto un unico paradigma di previsione autoregressiva. Formulando sia la comprensione che la generazione come previsione del token successivo in uno spazio condiviso e continuo, supporta senza soluzione di continuità attività multi-round e contestuali come la comprensione iterativa, la generazione e la modifica. Empiricamente, abbiamo riscontrato che l'uso di una rappresentazione visiva continua unificata concilia le esigenze contrastanti imposte ai tokenizer dai compiti di comprensione e generazione, portando così a prestazioni di livello all'avanguardia in entrambi i domini. Speriamo che i nostri risultati facilitino la tokenizzazione visiva unificata nel dominio continuo. Il codice di inferenza e i pesi del modello sono stati rilasciati a beneficio della comunità.
Presentiamo Lumina-DiMOO, un modello fondazionale open-source per la generazione e comprensione multi-modale senza soluzione di continuità. Lumina-DiMOO si distingue dai precedenti modelli unificati grazie all'utilizzo di una modellazione di diffusione completamente discreta per gestire input e output attraverso varie modalità. Questo approccio innovativo consente a Lumina-DiMOO di raggiungere una maggiore efficienza di campionamento rispetto ai precedenti paradigmi autoregressivi (AR) o ibridi AR-Diffusion e di supportare con destrezza un ampio spettro di task multi-modali, tra cui la generazione da testo a immagine, la generazione da immagine a immagine (ad esempio, editing di immagini, generazione guidata da soggetti e inpainting di immagini, ecc.), nonché la comprensione di immagini. Lumina-DiMOO ottiene prestazioni all'avanguardia su molteplici benchmark, superando i modelli multi-modali unificati open-source esistenti. Per promuovere ulteriori progressi nella ricerca sui modelli multi-modali e di diffusione discreta, rilasciamo il nostro codice e i checkpoint alla comunità. Pagina del progetto: https://synbol.github.io/Lumina-DiMOO.
I recenti progressi nei modelli di base per la visione e il linguaggio hanno significativamente avanzato la comprensione, il ragionamento e la generazione multimodale, ispirando un crescente interesse nell'estendere tali capacità a contesti incarnati attraverso modelli visione-linguaggio-azione (VLA). Tuttavia, la maggior parte dei modelli VLA è ancora addestrata con fine-tuning supervisionato (SFT), che fatica a generalizzare in caso di cambiamenti nella distribuzione a causa dell'accumulo di errori. L'apprendimento per rinforzo (RL) offre un'alternativa promettente ottimizzando direttamente le prestazioni del compito attraverso l'interazione, ma i tentativi esistenti rimangono frammentati e mancano di una piattaforma unificata per un confronto equo e sistematico tra architetture di modelli e design algoritmici. Per colmare questa lacuna, introduciamo RLinf-VLA, un framework unificato ed efficiente per l'addestramento scalabile RL di modelli VLA. Il sistema adotta un design altamente flessibile per l'allocazione delle risorse, affrontando la sfida di integrare rendering, addestramento e inferenza nell'addestramento RL+VLA. In particolare, per simulatori parallelizzati su GPU, RLinf-VLA implementa una nuova modalità ibrida di allocazione pipeline a grana fine, ottenendo un'accelerazione di 1,61x-1,88x nell'addestramento. Attraverso un'interfaccia unificata, RLinf-VLA supporta senza soluzione di continuità diverse architetture VLA (ad esempio, OpenVLA, OpenVLA-OFT), molteplici algoritmi RL (ad esempio, PPO, GRPO) e vari simulatori (ad esempio, ManiSkill, LIBERO). In simulazione, un modello unificato raggiunge il 98,11% su 130 task LIBERO e il 97,66% su 25 task ManiSkill. Oltre alle prestazioni empiriche, il nostro studio distilla una serie di migliori pratiche per applicare l'RL all'addestramento VLA e getta luce sui modelli emergenti in questa integrazione. Inoltre, presentiamo una prima implementazione su un robot Franka nel mondo reale, dove le politiche addestrate con RL mostrano una generalizzazione più forte rispetto a quelle addestrate con SFT. Prevediamo che RLinf-VLA possa fungere da fondamento per accelerare e standardizzare la ricerca sull'intelligenza incarnata.
I Video DiTs hanno fatto progressi nella generazione video, ma continuano a incontrare difficoltà nel modellare interazioni multi-istanza o soggetto-oggetto. Ciò solleva una domanda cruciale: come rappresentano internamente queste interazioni? Per rispondere, abbiamo creato MATRIX-11K, un dataset video con didascalie consapevoli delle interazioni e tracce di maschere multi-istanza. Utilizzando questo dataset, conduciamo un'analisi sistematica che formalizza due prospettive dei Video DiTs: il grounding semantico, tramite l'attenzione video-to-text, che valuta se i token di sostantivi e verbi catturano le istanze e le loro relazioni; e la propagazione semantica, tramite l'attenzione video-to-video, che valuta se i legami delle istanze persistono tra i fotogrammi. Scopriamo che entrambi gli effetti si concentrano in un piccolo sottoinsieme di strati dominati dalle interazioni. Motivati da ciò, introduciamo MATRIX, una regolarizzazione semplice ed efficace che allinea l'attenzione in specifici strati dei Video DiTs con le tracce di maschere multi-istanza del dataset MATRIX-11K, migliorando sia il grounding che la propagazione. Proponiamo inoltre InterGenEval, un protocollo di valutazione per la generazione video consapevole delle interazioni. Negli esperimenti, MATRIX migliora sia la fedeltà delle interazioni che l'allineamento semantico, riducendo deriva e allucinazioni. Estese ablazioni convalidano le nostre scelte progettuali. Codici e pesi verranno rilasciati.
Gli attuali modelli linguistici di grandi dimensioni (LLM) e i modelli di linguaggio parlato (SLM) iniziano a pensare e ad agire solo dopo che l'utente ha completato il proprio turno. Ciò impedisce al modello di interagire durante il turno dell'utente e può portare a una latenza di risposta elevata mentre attende di pensare. Di conseguenza, pensare dopo aver ricevuto l'input completo non è adatto per l'interazione da voce a voce, dove è importante uno scambio in tempo reale e a bassa latenza. Affrontiamo questo problema osservando che gli esseri umani naturalmente "pensano mentre ascoltano". In questo articolo, proponiamo SHANKS, un framework di inferenza generale che consente agli SLM di generare un ragionamento a catena di pensiero non pronunciato mentre ascoltano l'input dell'utente. SHANKS trasmette il discorso in input in segmenti di durata fissa e, non appena riceve un segmento, genera un ragionamento non pronunciato basato su tutto il discorso e il ragionamento precedenti, mentre l'utente continua a parlare. SHANKS utilizza questo ragionamento non pronunciato per decidere se interrompere l'utente e per effettuare chiamate a strumenti per completare il compito. Dimostriamo che SHANKS migliora l'interazione in tempo reale tra utente e SLM in due scenari: (1) quando l'utente sta presentando una soluzione passo-passo a un problema matematico, SHANKS può ascoltare, ragionare e interrompere quando l'utente commette un errore, raggiungendo una precisione di interruzione del 37,1% superiore rispetto a una baseline che interrompe senza pensare; e (2) in un dialogo potenziato da strumenti, SHANKS può completare il 56,9% delle chiamate agli strumenti prima che l'utente finisca il proprio turno. Nel complesso, SHANKS si muove verso modelli che continuano a pensare durante l'intera conversazione, non solo dopo la fine di un turno. Illustrazioni animate di SHANKS sono disponibili all'indirizzo https://d223302.github.io/SHANKS/
I Large Language Model (LLM) hanno catalizzato il cosiddetto "vibe coding", un approccio in cui gli utenti sfruttano i LLM per generare e perfezionare iterativamente il codice attraverso interazioni in linguaggio naturale, fino a quando non supera il loro "vibe check". Il vibe check è legato alle preferenze umane nel mondo reale e va oltre la semplice funzionalità: la soluzione deve sembrare giusta, essere leggibile, preservare l'intento e rimanere corretta. Tuttavia, l'attuale valutazione del codice rimane ancorata a metriche come il pass@k e cattura solo la correttezza funzionale, tralasciando le istruzioni non funzionali che gli utenti applicano di routine. In questo articolo, ipotizziamo che il rispetto delle istruzioni sia l'elemento mancante alla base del vibe check, rappresentando le preferenze umane nella codifica oltre alla correttezza funzionale. Per quantificare le capacità dei modelli nel seguire le istruzioni del codice con segnali misurabili, presentiamo VeriCode, una tassonomia di 30 istruzioni di codice verificabili insieme ai corrispondenti verificatori deterministici. Utilizziamo questa tassonomia per arricchire le suite di valutazione esistenti, dando vita a Vibe Checker, un banco di prova per valutare sia il rispetto delle istruzioni del codice che la correttezza funzionale. Valutando 31 tra i principali LLM, dimostriamo che anche i modelli più potenti faticano a rispettare più istruzioni contemporaneamente e mostrano una chiara regressione funzionale. Soprattutto, un punteggio composito che combina correttezza funzionale e rispetto delle istruzioni si correla meglio con le preferenze umane, con quest'ultimo che emerge come il principale fattore distintivo nei compiti di programmazione del mondo reale. Il nostro lavoro identifica i fattori chiave del vibe check, fornendo un percorso concreto per valutare e sviluppare modelli che si allineino meglio alle preferenze degli utenti nella codifica.
I modelli linguistici di grandi dimensioni (LLM) fanno sempre più affidamento su pianificazioni multi-turn integrate con strumenti per compiti di ragionamento complessi e ad alta intensità di conoscenza. Le implementazioni esistenti si basano tipicamente su un singolo agente, ma soffrono di una lunghezza limitata del contesto e di risposte rumorose dagli strumenti. Una soluzione naturale è adottare un framework multi-agente con agenti pianificatori e lavoratori per gestire il contesto. Tuttavia, nessun metodo esistente supporta un efficace apprendimento per rinforzo post-addestramento di framework multi-agente integrati con strumenti. Per colmare questa lacuna, proponiamo l'Optimizzazione delle Politiche Integrate con Strumenti Multi-Agente (MATPO), che consente a ruoli distinti (pianificatore e lavoratore) di essere addestrati all'interno di una singola istanza LLM utilizzando prompt specifici per ruolo tramite apprendimento per rinforzo. MATPO deriva da un meccanismo di assegnazione del credito basato su principi attraverso i rollout del pianificatore e del lavoratore. Questo design elimina la necessità di distribuire più LLM, che sarebbe dispendioso in termini di memoria, preservando i vantaggi della specializzazione. Esperimenti su GAIA-text, WebWalkerQA e FRAMES dimostrano che MATPO supera costantemente i baseline a singolo agente con un miglioramento relativo medio del 18,38% nelle prestazioni e mostra una maggiore robustezza alle uscite rumorose degli strumenti. I nostri risultati evidenziano l'efficacia dell'unificazione di più ruoli di agenti all'interno di un singolo LLM e forniscono intuizioni pratiche per un addestramento stabile ed efficiente dell'apprendimento per rinforzo multi-agente.
Il reinforcement learning (RL) è recentemente diventato una solida ricetta per addestrare modelli linguistici di ragionamento (LLM) che producono lunghe catene di pensiero (LongCoT). Tuttavia, l'ambiente di "pensiero" standard del RL, in cui lo stato è costituito dal prompt più tutti i token di ragionamento precedenti, rende lo stato illimitato e costringe le politiche basate sull'attenzione a sostenere un costo computazionale quadratico man mano che i pensieri si allungano. Rivediamo l'ambiente stesso. Proponiamo il Pensiero Markoviano, un paradigma in cui la politica avanza il ragionamento condizionandosi su uno stato di dimensione costante, disaccoppiando la lunghezza del pensiero dalla dimensione del contesto. Come conseguenza immediata, ciò produce un costo computazionale lineare con memoria costante. Istanziamo questa idea con Delethink, un ambiente RL che struttura il ragionamento in blocchi di dimensione fissa. All'interno di ogni blocco, il modello pensa come al solito; al confine, l'ambiente resetta il contesto e reinizializza il prompt con un breve riporto. Attraverso il RL, la politica impara a scrivere uno stato testuale verso la fine di ogni blocco sufficiente per una continuazione fluida del ragionamento dopo il reset. Addestrato in questo ambiente, un modello R1-Distill 1.5B ragiona in blocchi di 8K token ma pensa fino a 24K token, eguagliando o superando LongCoT-RL addestrato con un budget di 24K. Con lo scaling al momento del test, Delethink continua a migliorare laddove LongCoT raggiunge un plateau. L'effetto del costo computazionale lineare è sostanziale: stimiamo empiricamente che a una lunghezza media di pensiero di 96K, LongCoT-RL costa 27 mesi-H100 rispetto a 7 per Delethink. L'analisi all'inizializzazione del RL mostra che modelli di ragionamento preesistenti (1.5B-120B) spesso campionano tracce markoviane zero-shot su diversi benchmark, fornendo campioni positivi che rendono il RL efficace su larga scala. I nostri risultati dimostrano che ridisegnare l'ambiente di pensiero è una leva potente: consente ragionamenti molto lunghi senza sovraccarico quadratico e apre la strada a LLM di ragionamento efficienti e scalabili.
La modellazione di sequenze lunghe affronta un compromesso fondamentale tra l'efficienza della memoria compressa a dimensione fissa nei modelli di tipo RNN e la fedeltà della memoria in crescita senza perdita nei Transformer basati su attenzione. Ispirati dal Modello Multi-Store delle scienze cognitive, introduciamo un framework di memoria per le reti neurali artificiali. Il nostro metodo mantiene una finestra scorrevole della cache KV del Transformer come memoria a breve termine senza perdita, mentre un modulo apprendibile denominato Artificial Hippocampus Network (AHN) comprime ricorsivamente le informazioni fuori dalla finestra in una memoria a lungo termine compatta di dimensione fissa. Per validare questo framework, istanziamo gli AHN utilizzando moderne architetture di tipo RNN, tra cui Mamba2, DeltaNet e Gated DeltaNet. Esperimenti estesi sui benchmark di contesto lungo LV-Eval e InfiniteBench dimostrano che i modelli potenziati da AHN superano costantemente le baseline a finestra scorrevole e raggiungono prestazioni comparabili o addirittura superiori ai modelli a piena attenzione, riducendo sostanzialmente i requisiti computazionali e di memoria. Ad esempio, potenziare il Qwen2.5-3B-Instruct con AHN riduce i FLOP di inferenza del 40.5% e la cache di memoria del 74.0%, migliorando il suo punteggio medio su LV-Eval (lunghezza sequenza 128k) da 4.41 a 5.88. Il codice è disponibile all'indirizzo: https://github.com/ByteDance-Seed/AHN.
I recenti modelli all'avanguardia impiegano lunghi ragionamenti a catena di pensiero per esplorare spazi di soluzione nel contesto e ottenere prestazioni più robuste. Sebbene molti lavori studino la distillazione per costruire modelli più piccoli ma comunque capaci, la maggior parte si concentra sull'inglese e si sa poco sul ragionamento specifico per lingua. Per colmare questa lacuna, introduciamo **Language-Mixed CoT**, uno schema di ragionamento che alterna tra inglese e una lingua target, utilizzando l'inglese come ancoraggio per eccellere nel ragionamento minimizzando gli artefatti di traduzione. Come caso di studio per il coreano, curiamo **Yi-Sang**: 5,79 milioni di prompt in coreano nativo provenienti da Q&A web, esami, STEM e codice; 3,7 milioni di tracce di ragionamento lungo generate da Qwen3-32B; e un sottoinsieme mirato di 260k ad alto rendimento. Addestriamo nove modelli (4B-35B) in sei famiglie (Qwen2.5, Llama-3.1, Gemma-3, ecc.). Il nostro miglior modello, **KO-REAson-35B**, raggiunge prestazioni all'avanguardia, con il punteggio medio complessivo più alto (64,0 ± 25), classificandosi primo su 5/9 benchmark e secondo sui restanti. Anche i modelli più piccoli e di medie dimensioni beneficiano sostanzialmente, con un miglioramento medio di +18,6 punti sui nove benchmark valutati. Le ablazioni mostrano che **Language-Mixed CoT** è più efficace del CoT monolingue, portando anche a guadagni nelle prestazioni cross-linguali e multimodali. Rilasciamo la nostra pipeline di curatela dei dati, il sistema di valutazione, i dataset e i modelli per avanzare la ricerca sul ragionamento specifico per lingua. Raccolta dati e modelli: https://huggingface.co/KOREAson.
Nonostante rappresentino quasi un terzo delle lingue mondiali, le lingue africane rimangono gravemente sottoservite dalle moderne tecnologie di NLP, con l'88% classificate come fortemente sottorappresentate o completamente ignorate nella linguistica computazionale. Presentiamo l'African Languages Lab (All Lab), un'iniziativa di ricerca completa che affronta questo divario tecnologico attraverso la raccolta sistematica di dati, lo sviluppo di modelli e il potenziamento delle capacità. I nostri contributi includono: (1) una pipeline di raccolta dati controllata per qualità, che ha prodotto il più grande dataset multimodale validato di discorso e testo africano, comprendente 40 lingue con 19 miliardi di token di testo monolingue e 12.628 ore di dati vocali allineati; (2) un'ampia validazione sperimentale che dimostra come il nostro dataset, combinato con il fine-tuning, raggiunga miglioramenti sostanziali rispetto ai modelli di base, con una media di +23,69 ChrF++, +0,33 COMET e +15,34 punti BLEU su 31 lingue valutate; e (3) un programma di ricerca strutturato che ha formato con successo quindici ricercatori all'inizio della carriera, stabilendo una capacità locale sostenibile. La nostra valutazione comparativa rispetto a Google Translate rivela prestazioni competitive in diverse lingue, identificando al contempo aree che richiedono ulteriori sviluppi.
La ricerca dell'efficienza computazionale ha favorito l'adozione di formati a bassa precisione per l'addestramento di modelli transformer. Tuttavia, questo progresso è spesso ostacolato da notorie instabilità durante l'addestramento. Questo articolo fornisce la prima spiegazione meccanicistica di un caso di fallimento irrisolto e di lunga data, in cui l'addestramento con flash attention in contesti a bassa precisione porta a esplosioni catastrofiche della funzione di perdita. La nostra analisi approfondita rivela che il fallimento non è un artefatto casuale, ma è causato da due fenomeni intrecciati: l'emergere di rappresentazioni a basso rango simili all'interno del meccanismo di attenzione e l'effetto cumulativo degli errori di arrotondamento distorti intrinseci all'aritmetica a bassa precisione. Dimostriamo come questi fattori creino un circolo vizioso di accumulo di errori che corrompe gli aggiornamenti dei pesi, portando infine al deragliamento della dinamica di addestramento. Per validare le nostre scoperte, introduciamo una modifica minima alla flash attention che mitiga il bias negli errori di arrotondamento. Questo semplice cambiamento stabilizza il processo di addestramento, confermando la nostra analisi e offrendo una soluzione pratica a questo problema persistente.
I modelli di diffusione testo-immagine su larga scala, sebbene potenti, soffrono di costi computazionali proibitivi. I metodi esistenti di pruning one-shot difficilmente possono essere applicati direttamente a essi a causa della natura iterativa di denoising dei modelli di diffusione. Per colmare questa lacuna, questo articolo presenta OBS-Diff, un nuovo framework di pruning one-shot che consente una compressione accurata e senza addestramento di modelli di diffusione testo-immagine su larga scala. Nello specifico, (i) OBS-Diff rivitalizza il classico Optimal Brain Surgeon (OBS), adattandolo alle complesse architetture dei moderni modelli di diffusione e supportando diverse granularità di pruning, inclusa la sparsità non strutturata, semi-strutturata N:M e strutturata (teste MHA e neuroni FFN); (ii) Per allineare i criteri di pruning con le dinamiche iterative del processo di diffusione, esaminando il problema da una prospettiva di accumulo di errori, proponiamo una nuova costruzione timestep-aware dell'Hessian che incorpora uno schema di ponderazione a decrescita logaritmica, assegnando maggiore importanza ai timestep iniziali per mitigare il potenziale accumulo di errori; (iii) Inoltre, viene proposta una strategia di pruning sequenziale efficiente dal punto di vista computazionale per ammortizzare il costoso processo di calibrazione. Esperimenti estesi dimostrano che OBS-Diff raggiunge lo stato dell'arte nel pruning one-shot per i modelli di diffusione, offrendo un'accelerazione dell'inferenza con una degradazione minima della qualità visiva.
I modelli a contesto lungo (LCM) hanno dimostrato un grande potenziale nell'elaborazione di sequenze lunghe, facilitando molte applicazioni nel mondo reale. Il successo degli LCM può essere attribuito alla loro capacità di individuare informazioni critiche implicite all'interno del contesto per effettuare previsioni più accurate. Tuttavia, ricerche recenti rivelano che gli LCM sono spesso suscettibili al rumore contestuale, ovvero token irrilevanti, che possono distrarre l'attenzione del modello. In questo articolo, conduciamo un'analisi dettagliata del rumore contestuale e proponiamo una metrica efficace, il punteggio di Gradiente Integrato (IG), per rilevare e quantificare le informazioni rumorose all'interno del contesto. I nostri risultati mostrano che anche una semplice mitigazione del rumore contestuale rilevato può migliorare significativamente l'attenzione del modello sui token critici e favorire le previsioni successive. Basandoci su questa intuizione, proponiamo l'Addestramento di Denoising Contestuale (CDT), una strategia di training semplice ma efficace che migliora l'attenzione sui token critici rafforzandone l'influenza sulle previsioni del modello. Esperimenti estesi su quattro task, sia in contesti di scalabilità della finestra contestuale che di allineamento a contesto lungo, dimostrano la superiorità del CDT. In particolare, quando addestrato con CDT, un modello open-source da 8B può raggiungere prestazioni (50.92) paragonabili a quelle di GPT-4o (51.00).
I Large Reasoning Models (LRM) hanno dimostrato capacità avanzate nel ragionamento complesso a più passaggi, aprendo nuove opportunità per l'automazione della modellazione di ottimizzazione. Tuttavia, i metodi esistenti di adattamento al dominio, originariamente progettati per modelli precedenti ottimizzati tramite istruzioni, spesso non riescono a sfruttare i modelli di ragionamento avanzati degli LRM moderni. In particolare, dimostriamo che il fine-tuning diretto su dataset tradizionali non riflessivi porta a guadagni limitati. Per sfruttare appieno le capacità di ragionamento intrinseche degli LRM, proponiamo CALM (Corrective Adaptation with Lightweight Modification), un framework che affina progressivamente gli LRM all'interno dei loro modi di ragionamento nativi per compiti di modellazione di ottimizzazione. In CALM, un interventore esperto identifica errori di ragionamento e fornisce suggerimenti correttivi concisi, che l'LRM incorpora per produrre traiettorie di ragionamento migliorate. Questi interventi modificano meno del 2,6% dei token generati, ma producono dati di alta qualità per un adattamento soft tramite fine-tuning supervisionato. Il modello adattato viene poi ulteriormente migliorato attraverso l'apprendimento per rinforzo. Basandoci su CALM, sviluppiamo STORM (Smart Thinking Optimization Reasoning Model), un LRM da 4 miliardi di parametri che raggiunge una nuova precisione media all'avanguardia del 68,9% su cinque benchmark popolari di modellazione di ottimizzazione, eguagliando le prestazioni di un LRM da 671 miliardi. Questi risultati dimostrano che la sintesi dinamica di dati basata su suggerimenti preserva e amplifica i modelli di ragionamento nativi degli LRM moderni, offrendo un percorso più efficace e scalabile verso prestazioni di livello esperto su compiti impegnativi di modellazione di ottimizzazione.
I Transformer eccellono nella modellazione di sequenze ma devono affrontare una complessità quadratica, mentre l'attenzione lineare offre una maggiore efficienza ma spesso compromette l'accuratezza del richiamo su contesti lunghi. In questo lavoro, introduciamo la Native Hybrid Attention (NHA), una nuova architettura ibrida che combina l'attenzione lineare e completa, integrando sia l'ibridazione intra che inter-strato in un design di livello unificato. NHA mantiene il contesto a lungo termine in slot chiave-valore aggiornati da una RNN lineare e li arricchisce con token a breve termine provenienti da una finestra scorrevole. Un'unica operazione di attenzione softmax viene quindi applicata su tutte le chiavi e i valori, consentendo una ponderazione dipendente dal contesto per token e per testa senza richiedere parametri di fusione aggiuntivi. Il comportamento inter-strato è controllato da un singolo iperparametro, la dimensione della finestra scorrevole, che consente un aggiustamento graduale tra l'attenzione puramente lineare e completa mantenendo tutti gli strati strutturalmente uniformi. I risultati sperimentali mostrano che NHA supera i Transformer e altri baseline ibridi in compiti intensivi di richiamo e di ragionamento di senso comune. Inoltre, i LLM preaddestrati possono essere strutturalmente ibridati con NHA, raggiungendo un'accuratezza competitiva mentre offrono significativi guadagni di efficienza. Il codice è disponibile all'indirizzo https://github.com/JusenD/NHA.
La rapida evoluzione dei modelli linguistici di grandi dimensioni (LLM) e del mondo reale ha superato la natura statica dei benchmark di valutazione ampiamente utilizzati, sollevando preoccupazioni sulla loro affidabilità per valutare la veridicità degli LLM. Mentre numerosi lavori continuano a fare affidamento su benchmark popolari ma datati, il loro disallineamento temporale con i fatti del mondo reale e con i moderni LLM, nonché i loro effetti sulla valutazione della veridicità degli LLM, rimangono poco esplorati. Pertanto, in questo lavoro, presentiamo un'indagine sistematica di questa problematica esaminando cinque benchmark di veridicità popolari e otto LLM rilasciati in anni diversi. Una pipeline aggiornata per il recupero di fatti e tre metriche sono state adattate per quantificare l'invecchiamento dei benchmark e il suo impatto sulla valutazione della veridicità degli LLM. I risultati sperimentali e l'analisi dimostrano che una porzione considerevole dei campioni nei benchmark di veridicità ampiamente utilizzati è obsoleta, portando a valutazioni inaffidabili della veridicità degli LLM. Speriamo che il nostro lavoro possa fornire un banco di prova per valutare l'affidabilità di un benchmark per la valutazione della veridicità degli LLM e ispirare ulteriori ricerche sul problema dell'invecchiamento dei benchmark. I codici sono disponibili su https://github.com/JiangXunyi/BenchAge.
Una sfida fondamentale nell'intelligenza incarnata è lo sviluppo di rappresentazioni di stato espressive e compatte per una modellazione efficiente del mondo e la presa di decisioni. Tuttavia, i metodi esistenti spesso non riescono a raggiungere questo equilibrio, producendo rappresentazioni che sono o eccessivamente ridondanti o carenti di informazioni critiche per il compito. Proponiamo un approccio non supervisionato che apprende una rappresentazione di stato altamente compressa a due token utilizzando un encoder leggero e un decoder pre-addestrato basato su Diffusion Transformer (DiT), sfruttando il suo forte prior generativo. La nostra rappresentazione è efficiente, interpretabile e si integra perfettamente nei modelli esistenti basati su VLA, migliorando le prestazioni del 14,3% su LIBERO e del 30% nel successo delle attività nel mondo reale con un sovraccarico di inferenza minimo. Ancora più importante, scopriamo che la differenza tra questi token, ottenuta tramite interpolazione latente, funziona naturalmente come un'azione latente altamente efficace, che può essere ulteriormente decodificata in azioni eseguibili dal robot. Questa capacità emergente rivela che la nostra rappresentazione cattura dinamiche strutturate senza una supervisione esplicita. Abbiamo chiamato il nostro metodo StaMo per la sua capacità di apprendere Movimenti robotici generalizzabili da una rappresentazione di Stato compatta, che viene codificata da immagini statiche, sfidando la dipendenza prevalente dall'apprendimento di azioni latenti su architetture complesse e dati video. Le azioni latenti risultanti migliorano anche il co-addestramento delle politiche, superando i metodi precedenti del 10,4% con una migliore interpretabilità. Inoltre, il nostro approccio scala efficacemente su diverse fonti di dati, inclusi dati robotici del mondo reale, simulazione e video egocentrici umani.
I recenti sforzi per accelerare l'inferenza nei Modelli Linguistici Multimodali di Grande Scala (MLLMs) si sono concentrati principalmente sulla compressione dei token visivi. L'efficacia di questi metodi viene tipicamente valutata misurando il calo di accuratezza su benchmark consolidati, confrontando le prestazioni del modello prima e dopo la compressione. Tuttavia, questi benchmark sono originariamente progettati per valutare le capacità percettive e di ragionamento degli MLLMs, piuttosto che per valutare le tecniche di compressione. Di conseguenza, applicarli direttamente alla compressione dei token visivi introduce una discrepanza di compito. Sorprendentemente, la nostra indagine rivela che un semplice downsampling delle immagini supera costantemente molti metodi di compressione avanzati su più benchmark ampiamente utilizzati. Attraverso esperimenti estensivi, abbiamo fatto le seguenti osservazioni: (i) I benchmark attuali sono rumorosi per il compito di compressione dei token visivi. (ii) Il downsampling è in grado di fungere da filtro dei dati per valutare la difficoltà dei campioni nel compito di compressione dei token visivi. Motivati da questi risultati, introduciamo VTC-Bench, un framework di valutazione che incorpora un meccanismo di filtraggio dei dati per denoisare i benchmark esistenti, consentendo così una valutazione più equa e accurata dei metodi di compressione dei token visivi. Tutti i dati e il codice sono disponibili su https://github.com/Chenfei-Liao/VTC-Bench.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno fatto rapidi progressi negli ultimi anni. Tuttavia, gli approcci esistenti per i compiti visivi spesso si basano su rappresentazioni indirette, come la generazione di coordinate in formato testo per il rilevamento, il che limita le prestazioni e impedisce compiti di previsione densa come la segmentazione. Per superare queste sfide, introduciamo Patch-as-Decodable Token (PaDT), un paradigma unificato che consente agli MLLM di generare direttamente sia output testuali che visivi diversificati. Al centro di PaDT ci sono i Visual Reference Tokens (VRT), derivati dagli embedding di patch visive delle immagini di query e intervallati in modo fluido con i token testuali di output del LLM. Un decoder leggero trasforma poi gli output del LLM in previsioni di rilevamento, segmentazione e grounding. A differenza dei metodi precedenti, PaDT elabora i VRT in modo indipendente ad ogni passaggio in avanti e espande dinamicamente la tabella di embedding, migliorando così la localizzazione e la differenziazione tra oggetti simili. Abbiamo inoltre adattato una strategia di addestramento per PaDT selezionando casualmente i VRT per il fine-tuning supervisionato e introducendo una robusta perdita di entropia incrociata per token. I nostri studi empirici su quattro compiti di percezione e comprensione visiva suggeriscono che PaDT raggiunge costantemente prestazioni all'avanguardia, anche rispetto a modelli MLLM significativamente più grandi. Il codice è disponibile all'indirizzo https://github.com/Gorilla-Lab-SCUT/PaDT.
I metodi esistenti per estrarre segnali di ricompensa nel Reinforcement Learning si basano tipicamente su dati etichettati e suddivisioni dedicate per l'addestramento, un'impostazione che contrasta con il modo in cui gli esseri umani apprendono direttamente dal loro ambiente. In questo lavoro, proponiamo TTRV per migliorare la comprensione del linguaggio visivo adattando il modello al volo durante l'inferenza, senza la necessità di dati etichettati. Nello specifico, potenziamo il framework Group Relative Policy Optimization (GRPO) progettando ricompense basate sulla frequenza dell'output del modello di base, mentre eseguiamo inferenze multiple su ciascun campione di test. Inoltre, proponiamo di controllare la diversità dell'output del modello premiando simultaneamente il modello per ottenere una bassa entropia della distribuzione empirica dell'output. Il nostro approccio fornisce miglioramenti consistenti sia nel riconoscimento di oggetti che nel visual question answering (VQA), con incrementi fino al 52,4% e al 29,8%, rispettivamente, e aumenti medi del 24,6% e del 10,0% su 16 dataset. Notevolmente, nel riconoscimento di immagini, TTRV applicato a InternVL 8B supera GPT-4o in media del 2,3% su 8 benchmark, rimanendo altamente competitivo nel VQA, dimostrando che il reinforcement learning al momento del test può eguagliare o superare i modelli proprietari più potenti. Infine, scopriamo molte proprietà interessanti del reinforcement learning al momento del test per i modelli di linguaggio visivo (VLMs): ad esempio, anche in scenari estremamente limitati in termini di dati, dove l'adattamento viene eseguito su un singolo esempio di test non etichettato scelto casualmente, TTRV produce comunque miglioramenti significativi fino al 5,5% nei compiti di riconoscimento.
Lo sviluppo di modelli linguistici all'avanguardia è comunemente inteso come un processo in due fasi che coinvolge pre-training e post-training. Sottolineiamo la necessità di una fase intermedia aggiuntiva chiamata reinforcement mid-training, con potenziali significativi guadagni di prestazioni. In questo articolo, definiamo formalmente il problema e identifichiamo tre sfide chiave: (1) inefficienza nell'addestramento dovuta a un eccessivo numero di passaggi di ragionamento, (2) mancata considerazione della distribuzione sbilanciata dell'entropia dei token, e (3) sottoutilizzazione delle informazioni dei token. Per affrontare queste sfide, proponiamo RMT, un framework per un reinforcement mid-training efficiente, adattivo e unificato, con vari componenti innovativi. In particolare, introduciamo prima un meccanismo di budget dinamico dei token che limita i passaggi di ragionamento non necessari e mitiga il sovra-pensiero del modello. Successivamente, progettiamo un metodo di campionamento adattivo basato su curriculum che favorisce una traiettoria di apprendimento progressiva dai token facili a quelli difficili. Infine, presentiamo una strategia di addestramento duale che combina il reinforcement learning con la previsione del token successivo, garantendo un apprendimento mirato sui token chiave e lo sfruttamento completo di tutte le informazioni dei token. Esperimenti estensivi dimostrano la superiorità di RMT rispetto ai metodi all'avanguardia, raggiungendo un miglioramento delle prestazioni fino al +64,91% con solo il 21% della lunghezza del ragionamento nella modellazione del linguaggio. Mostriamo inoltre che i checkpoint ottenuti dopo il reinforcement mid-training possono beneficiare il successivo post-training, ottenendo un miglioramento fino al +18,76% nel dominio matematico.
L'ipotesi della Densità Uniforme dell'Informazione (UID) suggerisce che una comunicazione efficace mantenga un flusso stabile di informazioni. In questo lavoro, riprendiamo questo principio nel contesto delle tracce di ragionamento dei modelli linguistici di grandi dimensioni (LLM), chiedendoci se l'uniformità a livello di passaggio rifletta la qualità del ragionamento. A tal fine, proponiamo una metrica della densità dell'informazione basata sull'entropia e introduciamo due misure complementari di uniformità, i punteggi di uniformità locale e globale. Attraverso esperimenti su sei diversi benchmark di ragionamento, scopriamo che l'uniformità a livello di passaggio non solo fornisce una forte lente teorica, ma offre anche vantaggi pratici in termini di prestazioni; ad esempio, selezionare tracce di ragionamento con una densità dell'informazione più uniforme a livello di passaggio migliora l'accuratezza con guadagni relativi del 10-32% rispetto ai baselines su AIME2025. La nostra analisi rivela inoltre che le tracce di ragionamento corrette tendono a evitare picchi bruschi nella densità dell'informazione, mentre le tracce errate mostrano irregolari esplosioni di informazioni. Questi risultati dimostrano che le misure della densità dell'informazione ispirate all'UID superano segnali interni alternativi come predittori della qualità del ragionamento. I risultati evidenziano l'uniformità della densità dell'informazione come un criterio diagnostico e di selezione robusto per costruire sistemi di ragionamento più affidabili e accurati.
La scelta dell'ottimizzatore influisce significativamente sull'efficienza dell'addestramento e sui costi computazionali dei grandi modelli linguistici (LLM). Recentemente, l'ottimizzatore Muon ha dimostrato risultati promettenti ortogonalizzando gli aggiornamenti dei parametri, migliorando la geometria dell'ottimizzazione attraverso un migliore condizionamento. Nonostante l'emergere di Muon come candidato successore di Adam, il potenziale per sfruttare congiuntamente i loro punti di forza non è stato sistematicamente esplorato. In questo lavoro, colmiamo questa lacuna proponendo NorMuon (Neuron-wise Normalized Muon), un ottimizzatore che combina sinergicamente l'ortogonalizzazione con tassi di apprendimento adattivi a livello di neurone. La nostra analisi rivela che, sebbene Muon riduca efficacemente i numeri di condizionamento, gli aggiornamenti risultanti presentano norme dei neuroni altamente non uniformi, causando il dominio di alcuni neuroni nel processo di ottimizzazione. NorMuon affronta questo squilibrio mantenendo statistiche del momento del secondo ordine per ogni neurone e applicando una normalizzazione per riga dopo l'ortogonalizzazione, garantendo un utilizzo bilanciato dei parametri preservando i benefici del condizionamento di Muon. Per consentire un'implementazione pratica su larga scala, sviluppiamo un'implementazione distribuita efficiente nel framework FSDP2 che distribuisce strategicamente i calcoli di ortogonalizzazione tra i dispositivi. Esperimenti su più scale di modelli dimostrano che NorMuon supera costantemente sia Adam che Muon, raggiungendo un'efficienza di addestramento migliore del 21,74% rispetto ad Adam e un miglioramento dell'11,31% rispetto a Muon in un contesto di pre-addestramento da 1,1 miliardi di parametri, mantenendo un'impronta di memoria comparabile a quella di Muon. I nostri risultati suggeriscono che l'ortogonalizzazione e i tassi di apprendimento adattivi sono approcci complementari piuttosto che concorrenti, aprendo nuove strade per la progettazione di ottimizzatori nell'apprendimento profondo su larga scala.
Le osservazioni dalla prospettiva del polso sono cruciali per i modelli VLA, poiché catturano interazioni mano-oggetto ad alta granularità che migliorano direttamente le prestazioni di manipolazione. Tuttavia, i dataset su larga scala raramente includono tali registrazioni, creando un divario significativo tra le abbondanti viste di ancoraggio e le scarse viste dal polso. I modelli mondiali esistenti non possono colmare questo divario, poiché richiedono un fotogramma iniziale dalla vista del polso e quindi non riescono a generare video dalla vista del polso partendo esclusivamente dalle viste di ancoraggio. In questo contesto, recenti modelli di geometria visiva come VGGT emergono con prior geometrici e inter-vista che rendono possibile affrontare cambiamenti estremi di prospettiva. Ispirati da queste intuizioni, proponiamo WristWorld, il primo modello mondiale 4D che genera video dalla vista del polso esclusivamente a partire dalle viste di ancoraggio. WristWorld opera in due fasi: (i) Ricostruzione, che estende VGGT e incorpora la nostra Spatial Projection Consistency (SPC) Loss per stimare pose dalla vista del polso geometricamente consistenti e nuvole di punti 4D; (ii) Generazione, che utilizza il nostro modello di generazione video per sintetizzare video dalla vista del polso temporalmente coerenti dalla prospettiva ricostruita. Esperimenti su Droid, Calvin e Franka Panda dimostrano una generazione video all'avanguardia con una superiore coerenza spaziale, migliorando anche le prestazioni VLA, aumentando la lunghezza media di completamento dei task su Calvin del 3,81% e colmando il 42,4% del divario tra le viste di ancoraggio e del polso.
L'integrazione dell'apprendimento per rinforzo online (RL) nei modelli di diffusione e flusso è emersa recentemente come un approccio promettente per allineare i modelli generativi con le preferenze umane. Il campionamento stocastico tramite Equazioni Differenziali Stocastiche (SDE) viene impiegato durante il processo di denoising per generare direzioni di denoising diverse per l'esplorazione RL. Sebbene i metodi esistenti esplorino efficacemente potenziali campioni ad alto valore, soffrono di un allineamento subottimale delle preferenze a causa di segnali di ricompensa sparsi e ristretti. Per affrontare queste sfide, proponiamo un nuovo framework Granular-GRPO (G^2RPO) che raggiunge valutazioni precise e complete delle ricompense delle direzioni di campionamento nell'apprendimento per rinforzo dei modelli di flusso. Nello specifico, viene introdotta una strategia di Campionamento Stocastico Singolare per supportare l'esplorazione stocastica passo-passo, rafforzando al contempo un'elevata correlazione tra la ricompensa e il rumore iniettato, facilitando così una ricompensa fedele per ogni perturbazione SDE. Parallelamente, per eliminare il bias intrinseco nel denoising a granularità fissa, introduciamo un modulo di Integrazione dei Vantaggi a Multi-Granularità che aggrega i vantaggi calcolati su più scale di diffusione, producendo una valutazione più completa e robusta delle direzioni di campionamento. Gli esperimenti condotti su vari modelli di ricompensa, inclusi valutazioni in-dominio e out-of-dominio, dimostrano che il nostro G^2RPO supera significativamente le baseline GRPO basate su flusso esistenti, evidenziandone l'efficacia e la robustezza.
Sebbene i Modelli Linguistici (LM) abbiano compiuto progressi significativi nell'automatizzazione dell'ingegneria del machine learning (MLE), l'acquisizione di dati di addestramento MLE di alta qualità è fortemente limitata. Gli attuali benchmark MLE soffrono di scarsa scalabilità e limitata applicabilità poiché si basano su task statici e curati manualmente, richiedendo un notevole tempo e sforzo manuale per essere prodotti. Introduciamo MLE-Smith, una pipeline multi-agente completamente automatizzata, per trasformare dataset grezzi in sfide MLE in stile competizione attraverso un paradigma efficiente di generazione-verifica-esecuzione, finalizzato a scalare i task MLE con qualità verificabile, usabilità nel mondo reale e ampia diversità. La pipeline multi-agente proposta in MLE-Smith guida la progettazione strutturata dei task e il refactoring standardizzato, abbinata a un meccanismo di verifica ibrido che applica regole strutturali rigorose e correttezza semantica di alto livello. Inoltre, valida l'effettiva risolvibilità empirica e la fedeltà al mondo reale attraverso l'esecuzione interattiva. Applichiamo MLE-Smith a 224 dataset del mondo reale e generiamo 606 task che coprono molteplici categorie, obiettivi e modalità, dimostrando che MLE-Smith può funzionare efficacemente su un'ampia gamma di dataset reali. La valutazione sui task generati mostra che le prestazioni di otto LLM mainstream e all'avanguardia sui task di MLE-Smith sono fortemente correlate con le loro prestazioni su task progettati con cura da esseri umani, evidenziando l'efficacia di MLE-Smith nel scalare i task MLE mantenendo la qualità dei task.
Le valutazioni comuni dei Large Language Model (LLM) si basano su esempi dimostrativi per indirizzare le risposte dei modelli verso lo stile desiderato. Sebbene il numero di esempi utilizzati sia stato studiato e standardizzato, la scelta di come formattare gli esempi è meno esplorata. Nei protocolli di valutazione e nell'uso reale, gli utenti si trovano a dover scegliere come separare gli esempi in contesto: usare una virgola? Un'a capo? Un punto e virgola? Un hashtag? Ecc.? Sorprendentemente, scopriamo che questa scelta apparentemente banale può alterare drasticamente la qualità delle risposte del modello. Tra le principali famiglie di modelli (Llama, Qwen, Gemma), le prestazioni su MMLU, ad esempio, possono variare di ±23% a seconda della scelta del delimitatore. In effetti, è possibile manipolare le classifiche dei modelli per far emergere qualsiasi modello in testa modificando solo il singolo carattere che separa gli esempi. Troviamo che la fragilità dei LLM si estende a vari argomenti e famiglie di modelli, e non migliora con la scala. Analizzando i punteggi delle teste di attenzione, scopriamo che i delimitatori che performano bene dirigono l'attenzione verso i token chiave nell'input. Infine, esploriamo metodi per migliorare la robustezza dei LLM rispetto alla scelta del delimitatore. Troviamo che specificare il delimitatore selezionato nel prompt aumenta la robustezza e offriamo raccomandazioni pratiche per selezionare i delimitatori che performano meglio.
Presentiamo AlphaApollo, un sistema di ragionamento agentico auto-evolutivo che mira a risolvere due colli di bottiglia nei modelli di base (FM): la capacità intrinseca limitata del modello e l'iterazione inaffidabile durante il test. AlphaApollo orchestra più modelli con strumenti professionali per abilitare un ragionamento deliberato e verificabile. Combina (i) uno strumento di calcolo (Python con librerie numeriche e simboliche) e (ii) uno strumento di recupero (informazioni esterne rilevanti per il compito) per eseguire calcoli esatti e fondare decisioni. Il sistema supporta ulteriormente l'evoluzione di soluzioni multi-round e multi-modello attraverso una mappa di stato condivisa che registra candidati, controlli eseguibili e feedback per un affinamento iterativo. Nelle valutazioni su AIME 2024/2025 su più modelli, AlphaApollo fornisce miglioramenti consistenti: +5,15% Average@32 e +23,34% Pass@32 per Qwen2.5-14B-Instruct, e +8,91% Average@32 con +26,67% Pass@32 per Llama-3.3-70B-Instruct. L'analisi sull'uso degli strumenti mostra che più dell'80% delle chiamate agli strumenti viene eseguito con successo, con una performance costantemente superiore rispetto ai baseline senza strumenti, elevando così il limite delle capacità dei FM. Ulteriori risultati empirici e dettagli implementativi saranno aggiornati su https://github.com/tmlr-group/AlphaApollo.
Nel corso dell'ultimo decennio, U-Net è stata l'architettura dominante nella segmentazione di immagini mediche, portando allo sviluppo di migliaia di varianti a forma di U. Nonostante la sua ampia adozione, manca ancora un benchmark completo per valutare sistematicamente le loro prestazioni e utilità, principalmente a causa di una validazione statistica insufficiente e di una considerazione limitata dell'efficienza e della generalizzazione su diversi dataset. Per colmare questa lacuna, presentiamo U-Bench, il primo benchmark su larga scala e statisticamente rigoroso che valuta 100 varianti di U-Net su 28 dataset e 10 modalità di imaging. I nostri contributi sono tre: (1) Valutazione Completa: U-Bench valuta i modelli lungo tre dimensioni chiave: robustezza statistica, generalizzazione zero-shot ed efficienza computazionale. Introduciamo una nuova metrica, U-Score, che cattura congiuntamente il compromesso tra prestazioni ed efficienza, offrendo una prospettiva orientata al deployment sul progresso dei modelli. (2) Analisi Sistematica e Guida alla Selezione dei Modelli: Riassumiamo i principali risultati della valutazione su larga scala e analizziamo sistematicamente l'impatto delle caratteristiche dei dataset e dei paradigmi architetturali sulle prestazioni dei modelli. Sulla base di queste intuizioni, proponiamo un agente consulente per guidare i ricercatori nella selezione dei modelli più adatti per specifici dataset e task. (3) Disponibilità Pubblica: Forniamo tutto il codice, i modelli, i protocolli e i pesi, consentendo alla comunità di riprodurre i nostri risultati e di estendere il benchmark con metodi futuri. In sintesi, U-Bench non solo evidenzia le lacune nelle valutazioni precedenti, ma stabilisce anche una base per un benchmarking equo, riproducibile e praticamente rilevante nel prossimo decennio dei modelli di segmentazione basati su U-Net. Il progetto è accessibile all'indirizzo: https://fenghetan9.github.io/ubench. Il codice è disponibile all'indirizzo: https://github.com/FengheTan9/U-Bench.
La Rilevazione Generica dei Confini degli Eventi (GEBD) mira a interpretare video di lunga durata attraverso la lente della percezione umana. Tuttavia, i metodi attuali di GEBD richiedono l'elaborazione completa dei fotogrammi video per fare previsioni, a differenza degli esseri umani che elaborano i dati in modo online e in tempo reale. Per colmare questa lacuna, introduciamo un nuovo compito, la Rilevazione Online dei Confini Generici degli Eventi (On-GEBD), che mira a rilevare immediatamente i confini degli eventi generici nei video in streaming. Questo compito affronta sfide uniche nell'identificare cambiamenti di eventi sottili e privi di tassonomia in tempo reale, senza accesso ai fotogrammi futuri. Per affrontare queste sfide, proponiamo un nuovo framework On-GEBD, chiamato Estimator, ispirato alla Teoria della Segmentazione degli Eventi (EST), che spiega come gli esseri umani segmentano le attività in corso in eventi sfruttando le discrepanze tra le informazioni previste e quelle effettive. Il nostro framework è composto da due componenti chiave: l'Anticipatore di Eventi Consistenti (CEA) e il Discriminatore Online dei Confini (OBD). Nello specifico, il CEA genera una previsione del fotogramma futuro che riflette le dinamiche dell'evento corrente basandosi esclusivamente sui fotogrammi precedenti. Successivamente, l'OBD misura l'errore di previsione e regola in modo adattivo la soglia utilizzando test statistici sugli errori passati per catturare transizioni di eventi diverse e sottili. I risultati sperimentali dimostrano che Estimator supera tutti i modelli di riferimento adattati da recenti modelli di comprensione video online e raggiunge prestazioni comparabili ai metodi offline-GEBD precedenti sui dataset Kinetics-GEBD e TAPOS.
La tecnologia di generazione da testo a video (Text-to-Video, T2V) ha il potenziale di trasformare molteplici domini, come l'educazione, il marketing, l'intrattenimento e le tecnologie assistive per individui con difficoltà visive o di comprensione della lettura, creando contenuti visivi coerenti a partire da prompt in linguaggio naturale. Dalle sue origini, il campo è progredito da modelli adversarial a modelli basati su diffusione, producendo output di maggiore fedeltà e coerenza temporale. Tuttavia, persistono sfide come l'allineamento, la coerenza a lungo raggio e l'efficienza computazionale. Affrontando questo panorama in evoluzione, presentiamo una rassegna completa dei modelli generativi da testo a video, tracciandone lo sviluppo dai primi GAN e VAE fino alle architetture ibride Diffusion-Transformer (DiT), dettagliando come funzionano questi modelli, quali limitazioni hanno affrontato nei loro predecessori e perché i passaggi verso nuovi paradigmi architetturali sono stati necessari per superare le sfide in termini di qualità, coerenza e controllo. Forniamo un resoconto sistematico dei dataset su cui i modelli T2V esaminati sono stati addestrati e valutati e, per supportare la riproducibilità e valutare l'accessibilità dell'addestramento di tali modelli, dettagliamo le loro configurazioni di addestramento, incluse le specifiche hardware, il numero di GPU, le dimensioni dei batch, i tassi di apprendimento, gli ottimizzatori, le epoche e altri iperparametri chiave. Inoltre, delineiamo le metriche di valutazione comunemente utilizzate per valutare tali modelli e presentiamo le loro prestazioni su benchmark standard, discutendo anche i limiti di queste metriche e il crescente passaggio verso strategie di valutazione più olistiche e allineate alla percezione. Infine, basandoci sulla nostra analisi, delineiamo le attuali sfide aperte e proponiamo alcune promettenti direzioni future, offrendo una prospettiva per i futuri ricercatori da esplorare e sviluppare per far progredire la ricerca e le applicazioni T2V.
Presentiamo Heptapod, un modello autoregressivo per immagini che aderisce ai principi fondamentali del language modeling. Heptapod utilizza un'attenzione causale, elimina la dipendenza da CFG e si discosta dalla tendenza dei tokenizzatori semantici. La nostra innovazione chiave è la previsione della distribuzione 2D successiva: un Transformer causale con un tokenizzatore visivo focalizzato sulla ricostruzione, impara a prevedere la distribuzione sull'intera griglia spaziale 2D delle immagini ad ogni passo temporale. Questo obiettivo di apprendimento unifica la modellazione sequenziale del framework autoregressivo con l'apprendimento auto-supervisionato olistico del masked autoencoding, consentendo al modello di catturare la semantica completa delle immagini attraverso l'addestramento generativo. Sul benchmark di generazione ImageNet, Heptapod raggiunge un FID di 2.70, superando significativamente i precedenti approcci autoregressivi causali. Speriamo che il nostro lavoro ispiri una riflessione metodica sul language modeling applicato ai segnali visivi e oltre.
Il code-switching (CSW), ovvero l'alternanza di lingue e script all'interno di un singolo enunciato, rimane una sfida fondamentale per l'elaborazione del linguaggio naturale (NLP) multilingue, nonostante i rapidi progressi dei grandi modelli linguistici (LLM). La maggior parte degli LLM continua a lottare con input in lingue miste, dataset limitati per il CSW e bias di valutazione, ostacolando il loro utilizzo in società multilingue. Questo studio fornisce la prima analisi completa della ricerca sugli LLM consapevoli del CSW, esaminando studi unici che coprono cinque aree di ricerca, 12 task di NLP, oltre 30 dataset e più di 80 lingue. Classifichiamo i recenti progressi in base all'architettura, alla strategia di addestramento e alla metodologia di valutazione, delineando come gli LLM abbiano ridefinito la modellazione del CSW e quali sfide persistano. Il documento si conclude con una roadmap che sottolinea la necessità di dataset inclusivi, valutazioni eque e modelli linguisticamente fondati per raggiungere una vera intelligenza multilingue. Una raccolta curata di tutte le risorse è mantenuta all'indirizzo https://github.com/lingo-iitgn/awesome-code-mixing/.
I framework degli agenti per l'uso del computer (CUA), alimentati da modelli linguistici di grandi dimensioni (LLM) o da LLM multimodali (MLLM), stanno rapidamente maturando come assistenti in grado di percepire il contesto, ragionare e agire direttamente all'interno degli ambienti software. Tra le loro applicazioni più critiche vi è il controllo del sistema operativo (OS). Man mano che i CUA nel dominio dell'OS diventano sempre più integrati nelle operazioni quotidiane, è imperativo esaminare le loro implicazioni sulla sicurezza nel mondo reale, in particolare se i CUA possano essere abusati per eseguire attacchi realistici e rilevanti per la sicurezza. I lavori esistenti presentano quattro principali limitazioni: la mancanza di un modello di conoscenza dell'attaccante su tattiche, tecniche e procedure (TTP), una copertura incompleta delle catene di attacco end-to-end, un ambiente irrealistico senza multi-host e credenziali utente crittografate, e un giudizio inaffidabile dipendente da LLM-as-a-Judge. Per colmare queste lacune, proponiamo AdvCUA, il primo benchmark allineato con le TTP del mondo reale nella MITRE ATT&CK Enterprise Matrix, che comprende 140 task, inclusi 40 task direttamente malevoli, 74 task malevoli basati su TTP e 26 catene di attacco end-to-end, valutando sistematicamente i CUA in un ambiente sandbox multi-host realistico per le minacce alla sicurezza dell'OS aziendale tramite valutazione hard-coded. Valutiamo i cinque principali CUA esistenti, tra cui ReAct, AutoGPT, Gemini CLI, Cursor CLI e Cursor IDE, basati su 8 LLM di base. I risultati dimostrano che gli attuali CUA all'avanguardia non coprono adeguatamente le minacce incentrate sulla sicurezza dell'OS. Queste capacità dei CUA riducono la dipendenza da malware personalizzati e da una profonda competenza di dominio, consentendo anche ad attaccanti inesperti di montare intrusioni aziendali complesse, sollevando preoccupazioni sociali riguardo alla responsabilità e alla sicurezza dei CUA.
Nonostante l'impressionante fedeltà visiva, i moderni modelli generativi di video spesso producono sequenze che violano le leggi fisiche intuitive, come oggetti che fluttuano, teletrasportano o si trasformano in modi che sfidano la causalità. Sebbene gli esseri umani possano facilmente rilevare tali implausibilità, non esiste ancora un metodo robusto per valutare quantitativamente il realismo fisico nei video. In questo lavoro, esploriamo se i modelli video-linguistici (VLMs) possano essere addestrati per fungere da giudici affidabili della plausibilità fisica. Scopriamo che i VLMs esistenti faticano a identificare le violazioni della fisica, rivelando limitazioni fondamentali nel loro ragionamento temporale e causale. Per affrontare questo problema, introduciamo TRAVL, una ricetta di fine-tuning che combina un dataset di addestramento bilanciato con un modulo di attenzione consapevole della traiettoria per migliorare la codifica e la discriminazione del movimento nei VLMs. Per valutare il ragionamento fisico in modo più rigoroso, proponiamo ImplausiBench, un benchmark di 300 video (150 reali, 150 generati) che elimina i pregiudizi linguistici e isola la comprensione visivo-temporale. Le prestazioni vengono riportate sia con giudizi umani di riferimento standard che con metriche più rigorose basate su LLM come giudice. Insieme, TRAVL e ImplausiBench offrono un framework unificato per esplorare e migliorare la plausibilità fisica nei modelli multimodali, gettando luce su un aspetto complesso e poco esplorato della comprensione visivo-temporale.
Con l'uso crescente della Generazione Aumentata dal Recupero (RAG), i modelli di recupero robusti sono diventati più importanti che mai. Nel settore sanitario, i modelli di recupero multimodali che combinano informazioni sia da testo che da immagini offrono vantaggi significativi per molte attività a valle, come il question answering, il recupero cross-modale e la sintesi multimodale, poiché i dati medici spesso includono entrambi i formati. Tuttavia, attualmente non esiste un benchmark standard per valutare quanto bene questi modelli performano in contesti medici. Per colmare questa lacuna, introduciamo M3Retrieve, un Benchmark di Recupero Medico Multimodale. M3Retrieve copre 5 domini, 16 campi medici e 4 distinte attività, con oltre 1,2 milioni di documenti testuali e 164K query multimodali, tutti raccolti sotto licenze approvate. Valutiamo i principali modelli di recupero multimodali su questo benchmark per esplorare le sfide specifiche di diverse specialità mediche e per comprenderne l'impatto sulle prestazioni di recupero. Rilasciando M3Retrieve, miriamo a consentire una valutazione sistematica, favorire l'innovazione dei modelli e accelerare la ricerca verso la costruzione di sistemi di recupero multimodali più capaci e affidabili per applicazioni mediche. Il dataset e il codice delle baseline sono disponibili su questa pagina GitHub: https://github.com/AkashGhosh/M3Retrieve.
L'agente di pianificazione dei viaggi (TP) è recentemente emerso come un componente fondamentale per interagire con strumenti e risorse esterne nella generazione di itinerari di viaggio, garantendo un'esperienza utente piacevole. Nonostante i suoi vantaggi, gli studi esistenti si basano su prompt creati manualmente e su flussi di lavoro fissi dell'agente, limitando la flessibilità e l'autonomia dell'agente TP. Questo articolo propone DeepTravel, un framework di apprendimento per rinforzo end-to-end per la costruzione di un agente autonomo di pianificazione dei viaggi, in grado di pianificare autonomamente, eseguire strumenti e riflettere sulle risposte degli strumenti per esplorare, verificare e affinare azioni intermedie in un ragionamento a più passaggi. Per raggiungere questo obiettivo, costruiamo prima un ambiente sandbox robusto memorizzando dati su trasporti, alloggi e punti di interesse (POI), facilitando l'addestramento dell'agente TP senza essere limitati dalle API del mondo reale (ad esempio, output inconsistenti). Inoltre, sviluppiamo un sistema di modellazione gerarchica delle ricompense, in cui un verificatore a livello di traiettoria controlla prima la fattibilità spazio-temporale e filtra gli itinerari insoddisfacenti, e poi un verificatore a livello di turno valida ulteriormente la coerenza dei dettagli dell'itinerario con le risposte degli strumenti, consentendo un servizio di ricompensa efficiente e preciso. Infine, proponiamo il metodo di apprendimento per rinforzo con replay aumentato che consente all'agente TP di ripetere periodicamente da un buffer di esperienze di fallimento, sviluppando una notevole capacità agentica. Distribuiamo l'agente TP addestrato sull'app DiDi Enterprise Solutions e conduiamo valutazioni online e offline complete, dimostrando che DeepTravel consente a LLM di piccole dimensioni (ad esempio, Qwen3 32B) di superare significativamente LLM all'avanguardia esistenti come OpenAI o1, o3 e DeepSeek R1 nei compiti di pianificazione dei viaggi.
I Large Language Model (LLM) spesso producono allucinazioni in risposta a domande complesse, generando risposte plausibili ma fattualmente errate. Una strategia comune di mitigazione consiste nel fornire attribuzioni agli output dei LLM. Tuttavia, i benchmark esistenti si concentrano principalmente su attribuzioni semplici che recuperano prove testuali di supporto come riferimenti. Sosteniamo che, in scenari reali come le applicazioni finanziarie, l'attribuzione va oltre il semplice recupero di riferimenti. Introduciamo FinLFQA, un benchmark progettato per valutare la capacità dei LLM di generare risposte lunghe e complesse a domande finanziarie con attribuzioni affidabili e sfumate. FinLFQA valuta tre aspetti critici dell'attribuzione attraverso annotazioni umane: (1) prove di supporto estratte dai rapporti finanziari, (2) passaggi intermedi di ragionamento numerico e (3) conoscenze finanziarie specifiche del dominio che informano il processo di ragionamento. Forniamo inoltre un framework di valutazione automatica che copre sia la qualità delle risposte che la qualità delle attribuzioni. Attraverso esperimenti estesi su otto LLM in diversi paradigmi di generazione delle attribuzioni, scopriamo che metriche granulari sono importanti per distinguere le capacità dei modelli, che la generazione end-to-end raggiunge prestazioni comparabili agli approcci post-hoc e che il perfezionamento iterativo è utile solo quando guidato da feedback esterni.
L'emergenza dei modelli autoregressivi (AR) visivi ha rivoluzionato la generazione di immagini, presentando al contempo nuove sfide per il rilevamento di immagini sintetiche. A differenza dei precedenti metodi basati su GAN o diffusione, i modelli AR generano immagini attraverso la previsione di token discreti, mostrando sia significativi miglioramenti nella qualità della sintesi delle immagini sia caratteristiche uniche nelle loro rappresentazioni vettoriali quantizzate. In questo articolo, proponiamo di sfruttare l'Errore di Quantizzazione Consapevole della Discrepanza di Distribuzione Discreta (D^3QE) per il rilevamento di immagini generate autoregressivamente, sfruttando i modelli distintivi e il bias nella distribuzione di frequenza del codebook presenti nelle immagini reali e false. Introduciamo un trasformatore consapevole della discrepanza di distribuzione discreta che integra le statistiche dinamiche di frequenza del codebook nel suo meccanismo di attenzione, fondendo caratteristiche semantiche e latenti dell'errore di quantizzazione. Per valutare il nostro metodo, abbiamo costruito un dataset completo denominato ARForensics che copre 7 modelli AR visivi principali. Gli esperimenti dimostrano una precisione di rilevamento superiore e una forte generalizzazione di D^3QE attraverso diversi modelli AR, con robustezza alle perturbazioni del mondo reale. Il codice è disponibile all'indirizzo https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.
Questo lavoro indaga le capacità di ragionamento e pianificazione dei modelli di base e la loro scalabilità in ambienti complessi e dinamici. Introduciamo PuzzlePlex, un benchmark progettato per valutare queste capacità attraverso un insieme diversificato di puzzle. PuzzlePlex è composto da 15 tipi di puzzle, inclusi giochi deterministici e stocastici di varia difficoltà, nonché scenari per un giocatore e due giocatori. Il framework PuzzlePlex fornisce un ambiente completo per ogni gioco e supporta l'estensibilità per generare istanze più impegnative man mano che i modelli di base si evolvono. Inoltre, implementiamo strategie personalizzate di gioco per il confronto. Basandoci su questo benchmark, sviluppiamo metriche dettagliate per misurare le prestazioni e conduciamo un'analisi approfondita dei modelli di base all'avanguardia in due contesti: basato su istruzioni e basato su codice. Inoltre, indaghiamo sistematicamente i loro limiti di scalabilità. I nostri risultati mostrano che i modelli di ragionamento superano gli altri nei contesti basati su istruzioni, mentre l'esecuzione basata su codice presenta maggiori sfide ma offre un'alternativa scalabile ed efficiente. PuzzlePlex consente una valutazione mirata e guida i futuri miglioramenti nel ragionamento, nella pianificazione e nella generalizzazione per i modelli di base.
L'imputazione di serie temporali (Time Series Imputation, TSI), che mira a recuperare i valori mancanti nei dati temporali, rimane una sfida fondamentale a causa della complessità e dell'elevata frequenza di dati mancanti negli scenari reali. I modelli esistenti ottimizzano tipicamente la perdita di ricostruzione punto per punto, concentrandosi sul recupero di valori numerici (informazioni locali). Tuttavia, osserviamo che, in presenza di alti tassi di dati mancanti, questi modelli continuano a performare bene durante la fase di addestramento, ma producono imputazioni scarse e distribuzioni distorte delle rappresentazioni latenti (informazioni globali) nella fase di inferenza. Ciò rivela un dilemma critico di ottimizzazione: gli obiettivi attuali mancano di una guida globale, portando i modelli a sovradattarsi al rumore locale e a non catturare le informazioni globali dei dati. Per affrontare questo problema, proponiamo un nuovo paradigma di addestramento, il Global Information Bottleneck (Glocal-IB). Glocal-IB è indipendente dal modello e estende il framework IB standard introducendo una perdita di Allineamento Globale, derivata da un'approssimazione trattabile dell'informazione mutua. Questa perdita allinea le rappresentazioni latenti degli input mascherati con quelle delle loro controparti originariamente osservate. Aiuta il modello a mantenere la struttura globale e i dettagli locali, sopprimendo al contempo il rumore causato dai valori mancanti, portando a una migliore generalizzazione in presenza di alti tassi di dati mancanti. Esperimenti estesi su nove dataset confermano che Glocal-IB porta a un miglioramento consistente delle prestazioni e a rappresentazioni latenti allineate in presenza di dati mancanti. La nostra implementazione del codice è disponibile su https://github.com/Muyiiiii/NeurIPS-25-Glocal-IB.