Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli video foundation generano contenuti visivamente realistici e temporalmente coerenti, ma la loro affidabilità come simulatori del mondo dipende dalla loro capacità di catturare i vincoli fisici, logici e spaziali. Le metriche esistenti, come la Frechet Video Distance (FVD), enfatizzano la qualità percettiva e trascurano i fallimenti di ragionamento, incluse le violazioni di causalità, fisica e coerenza globale. Introduciamo MMGR (Multi-Modal Generative Reasoning Evaluation and Benchmark), un framework di valutazione strutturato basato su cinque abilità di ragionamento: Fisico, Logico, Spaziale 3D, Spaziale 2D e Temporale. MMGR valuta il ragionamento generativo in tre domini: Ragionamento Astratto (ARC-AGI, Sudoku), Navigazione Embodied (navigazione e localizzazione 3D nel mondo reale) e Senso Comune Fisico (sport e interazioni compositive). MMGR applica metriche granulari che richiedono una correttezza olistica sia per la generazione di video che di immagini. Effettuiamo un benchmark dei principali modelli video (Veo-3, Sora-2, Wan-2.2) e di immagini (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), rivelando forti lacune prestazionali tra i domini. I modelli mostrano un successo moderato nei compiti di Senso Comune Fisico, ma performano male nel Ragionamento Astratto (precisione inferiore al 10% su ARC-AGI) e hanno difficoltà con la pianificazione spaziale a lungo orizzonte in contesti embodied. La nostra analisi evidenzia le principali limitazioni dei modelli attuali, tra cui un'eccessiva dipendenza dai dati percettivi, una debole coerenza dello stato globale e obiettivi che premiano la plausibilità visiva a scapito della correttezza causale. MMGR offre un benchmark diagnostico unificato e una strada verso modelli generativi mondiali consapevoli del ragionamento.
I recenti progressi nella generazione video hanno prodotto contenuti vivaci spesso indistinguibili da video reali, rendendo il rilevamento di video generati dall'IA un'emergente sfida sociale. I precedenti benchmark di rilevamento AIGC valutano principalmente video senza audio, si concentrano su domini narrativi ampi e si limitano alla classificazione. Resta tuttavia poco chiaro se i modelli all'avanguardia di generazione video possano produrre video immersivi con audio in grado di ingannare in modo affidabile esseri umani e VLM. A tal fine, presentiamo Video Reality Test, una suite di benchmark video basata su contenuti ASMR per testare il realismo percettivo in condizioni di stretta integrazione audiovisiva, caratterizzata dalle seguenti dimensioni: (i) Fonti video-audio ASMR immersive. Basato su video ASMR reali accuratamente selezionati, il benchmark si concentra su interazioni azione-oggetto granulari con diversità di oggetti, azioni e sfondi. (ii) Valutazione tra pari. Un protocollo creatore-revisore adversarial in cui i modelli di generazione video agiscono come creatori che mirano a ingannare i revisori, mentre i VLM fungono da revisori che cercano di identificare la falsità. I nostri risultati sperimentali mostrano: Il miglior creatore, Veo3.1-Fast, inganna persino la maggior parte dei VLM: il revisore più forte (Gemini 2.5-Pro) raggiunge solo un'accuratezza del 56% (casuale 50%), ben al di sotto di quella degli esperti umani (81,25%). L'aggiunta dell'audio migliora la discriminazione reale-falso, ma indizi superficiali come filigrane possono comunque fuorviare significativamente i modelli. Questi risultati delineano l'attuale confine del realismo nella generazione video ed espongono le limitazioni dei VLM nella fedeltà percettiva e nella coerenza audiovisiva. Il nostro codice è disponibile all'indirizzo https://github.com/video-reality-test/video-reality-test.
Questo articolo presenta WorldPlay, un modello di diffusione video in streaming che consente la modellazione del mondo in tempo reale e interattiva con coerenza geometrica a lungo termine, risolvendo il compromesso tra velocità e memoria che limita i metodi attuali. WorldPlay trae potenza da tre innovazioni chiave. 1) Utilizziamo una Rappresentazione ad Azione Duale per abilitare un controllo robusto delle azioni in risposta agli input della tastiera e del mouse dell'utente. 2) Per imporre la coerenza a lungo termine, la nostra Memoria di Contesto Ricostituito ricostruisce dinamicamente il contesto dai frame passati e utilizza un re-inquadramento temporale per mantenere accessibili i frame geometricamente importanti ma molto antecedenti, allevando efficacemente l'attenuazione della memoria. 3) Proponiamo inoltre il Context Forcing, un nuovo metodo di distillazione progettato per modelli consapevoli della memoria. L'allineamento del contesto di memoria tra insegnante e studente preserva la capacità dello studente di utilizzare informazioni a lungo raggio, consentendo velocità in tempo reale prevenendo allo stesso tempo la deriva dell'errore. Nel complesso, WorldPlay genera video in streaming 720p a lungo orizzonte a 24 FPS con una coerenza superiore, confrontandosi favorevolmente con le tecniche esistenti e mostrando una forte generalizzazione attraverso scene diverse. La pagina del progetto e la demo online sono disponibili qui: https://3d-models.hunyuan.tencent.com/world/ e https://3d.hunyuan.tencent.com/sceneTo3D.
La generazione di immagini guidata da soggetti è evoluta dalla composizione di singoli soggetti a quella multi-soggetto, trascurando tuttavia la distinzione, ovvero la capacità di identificare e generare il soggetto corretto quando gli input contengono più candidati. Questa limitazione ne riduce l'efficacia in contesti visivi complessi e realistici. Proponiamo Scone, un metodo unificato di comprensione-generazione che integra composizione e distinzione. Scone consente all'esperto di comprensione di fungere da ponte semantico, trasmettendo informazioni semantiche e guidando l'esperto di generazione a preservare l'identità del soggetto minimizzando le interferenze. Uno schema di addestramento in due fasi apprende prima la composizione, per poi potenziare la distinzione mediante allineamento semantico e mascheramento basato su attention. Introduciamo inoltre SconeEval, un benchmark per valutare sia la composizione che la distinzione in scenari diversificati. Gli esperimenti dimostrano che Scone supera i modelli open-source esistenti in compiti di composizione e distinzione su due benchmark. Il nostro modello, benchmark e dati di addestramento sono disponibili su: https://github.com/Ryann-Ran/Scone.
Il tracciamento spaziale, come abilità fondamentale di interazione incarnata per i robot, è intrinsecamente complesso poiché richiede un ragionamento metrico articolato in più fasi, combinato con riferimenti spaziali complessi e misurazioni metriche nel mondo reale. Tuttavia, i metodi esistenti faticano ad affrontare questo compito composito. A tal fine, proponiamo RoboTracer, un VLM (Large Vision-Language Model) con consapevolezza 3D che per la prima volta realizza sia il riferimento spaziale 3D che la misurazione tramite un encoder spaziale universale e un decoder supervisionato per regressione, per potenziare la consapevolezza della scala durante il fine-tuning supervisionato (SFT). Inoltre, RoboTracer avanza nel ragionamento metrico multi-step attraverso un fine-tuning per rinforzo (RFT) con ricompense di processo metrico-sensibili, supervisionando indizi percettivi intermedi chiave per generare accuratamente tracce spaziali. Per supportare l'addestramento SFT e RFT, introduciamo TraceSpatial, un dataset su larga scala di 30 milioni di coppie domanda-risposta, che copre scene esterne/interne/su tavolo e supporta processi di ragionamento complessi (fino a 9 passi). Presentiamo inoltre TraceSpatial-Bench, un benchmark impegnativo che colma la lacuna per la valutazione del tracciamento spaziale. I risultati sperimentali mostrano che RoboTracer supera i baseline nella comprensione spaziale, nella misurazione e nel riferimento, con un tasso di successo medio del 79,1%, e raggiunge anche prestazioni allo stato dell'arte su TraceSpatial-Bench con un ampio margine, superando Gemini-2.5-Pro del 36% in accuratezza. Degno di nota, RoboTracer può essere integrato con varie politiche di controllo per eseguire task dinamici a lungo orizzonte su robot diversi (UR5, umanoide G1) in scene real-world affollate.
La rapida evoluzione dei Large Language Model (LLM) è basata sulla qualità e diversità dei dataset di post-training. Tuttavia, persiste una dicotomia critica: mentre i modelli vengono sottoposti a benchmarking rigoroso, i dati che li alimentano rimangono una scatola nera, caratterizzata da composizione opaca, provenienza incerta e mancanza di valutazione sistematica. Questa opacità ostacola la riproducibilità e oscura il nesso causale tra le caratteristiche dei dati e i comportamenti del modello. Per colmare questa lacuna, presentiamo OpenDataArena (ODA), una piattaforma olistica e aperta progettata per valutare il valore intrinseco dei dati di post-training. ODA stabilisce un ecosistema completo che comprende quattro pilastri chiave: (i) una pipeline unificata di addestramento-valutazione che garantisce confronti equi e aperti tra diversi modelli (ad es. Llama, Qwen) e domini; (ii) un framework di valutazione multidimensionale che profila la qualità dei dati lungo decine di assi distinti; (iii) un esploratore interattivo della lineage dei dati per visualizzare la genealogia dei dataset e analizzare le fonti componenti; e (iv) un toolkit completamente open-source per addestramento, valutazione e scoring per promuovere la ricerca sui dati. Esperimenti estensivi su ODA – che coprono oltre 120 dataset di addestramento in più domini su 22 benchmark, validati da più di 600 esecuzioni di training e 40 milioni di punti dati processati – rivelano intuizioni non banali. La nostra analisi scopre i compromessi intrinseci tra complessità dei dati e prestazioni del task, identifica la ridondanza in benchmark popolari tramite tracciamento della lineage, e mappa le relazioni genealogiche tra i dataset. Rilasciamo tutti i risultati, gli strumenti e le configurazioni per democratizzare l'accesso alla valutazione di dati di alta qualità. Più che semplicemente espandere una classifica, ODA prefigura un cambiamento dalla cura dei dati per tentativi ed errori verso una scienza principiata della Data-Centric AI, spianando la strada a studi rigorosi sulle leggi di miscelazione dei dati e sulla composizione strategica dei modelli foundation.
La ricerca di similarità vettoriale (VSS) negli spazi ad alta dimensionalità sta emergendo rapidamente come funzionalità centrale nei sistemi di database di prossima generazione per numerosi servizi data-intensive, dalle ricerche di embedding nei grandi modelli linguistici (LLM), al recupero semantico dell'informazione e ai motori di raccomandazione. Gli attuali benchmark, tuttavia, valutano la VSS principalmente sul compromesso richiamo-latenza rispetto a una verità di base definita unicamente da metriche di distanza, trascurando come la qualità del retrieval influisca in ultima analisi sui task a valle. Questa disconnessione può trarre in inganno sia la ricerca accademica che la pratica industriale. Presentiamo Iceberg, una suite di benchmark olistica per la valutazione end-to-end dei metodi VSS in contesti applicativi realistici. Da una prospettiva centrata sul compito, Iceberg rivela l'*Imbuto della Perdita di Informazione*, che identifica tre principali fonti di degradazione delle prestazioni end-to-end: (1) *Perdita di Embedding* durante l'estrazione delle caratteristiche; (2) *Uso Inappropriato della Metrica*, dove le distanze riflettono scarsamente la rilevanza per il compito; (3) *Sensibilità alla Distribuzione dei Dati*, che evidenzia la robustezza degli indici rispetto a skew e modalità diverse. Per una valutazione più completa, Iceberg comprende otto dataset diversificati in domini chiave come classificazione di immagini, riconoscimento facciale, recupero di testo e sistemi di raccomandazione. Ogni dataset, che varia da 1 a 100 milioni di vettori, include etichette e metriche di valutazione ricche e specifiche per il compito, consentendo la valutazione degli algoritmi di retrieval all'interno dell'intera pipeline applicativa piuttosto che in isolamento. Iceberg mette a confronto 13 metodi VSS all'avanguardia e li riclassifica in base a metriche a livello applicativo, rivelando scostamenti sostanziali dalle classifiche tradizionali derivate puramente da valutazioni richiamo-latenza. Sulla base di queste intuizioni, definiamo un insieme di meta-caratteristiche centrate sul compito e deriviamo un albero decisionale interpretabile per guidare i professionisti nella selezione e nell'ottimizzazione dei metodi VSS per i loro carichi di lavoro specifici.
I grafici vettoriali scalabili (SVG) sono centrali nel web design moderno, e la richiesta di animarli continua a crescere man mano che gli ambienti web diventano sempre più dinamici. Tuttavia, automatizzare l'animazione della grafica vettoriale rimane una sfida per i modelli visione-linguaggio (VLM), nonostante i recenti progressi nella generazione di codice e nella pianificazione del movimento. I VLM gestiscono spesso male gli SVG, poiché parti visivamente coerenti sono spesso frammentate in forme di basso livello che offrono poca indicazione su quali elementi dovrebbero muoversi insieme. In questo articolo, introduciamo un framework che recupera la struttura semantica necessaria per un'animazione SVG affidabile e rivela lo strato mancante che i sistemi VLM attuali trascurano. Ciò è ottenuto tramite un'aggregazione statistica di multiple previsioni deboli delle parti, permettendo al sistema di inferire in modo stabile la semantica da previsioni rumorose. Riorganizzando gli SVG in gruppi semantici, il nostro approccio consente ai VLM di produrre animazioni con una coerenza di gran lunga maggiore. I nostri esperimenti dimostrano miglioramenti sostanziali rispetto agli approcci esistenti, suggerendo che il recupero semantico è il passo chiave che sblocca un'animazione SVG robusta e supporta interazioni più interpretabili tra i VLM e la grafica vettoriale.
La sfida principale per la generazione di video in streaming è mantenere la coerenza del contenuto in contesti lunghi, il che richiede una progettazione avanzata della memoria. La maggior parte delle soluzioni esistenti mantiene la memoria comprimendo i frame storici con strategie predefinite. Tuttavia, i diversi segmenti video da generare dovrebbero fare riferimento a indizi storici differenti, un requisito difficile da soddisfare con strategie fisse. In questo lavoro, proponiamo MemFlow per affrontare questo problema. Nello specifico, prima di generare il segmento successivo, aggiorniamo dinamicamente la memory bank recuperando i frame storici più rilevanti in base al prompt testuale del segmento. Questo design garantisce coerenza narrativa anche quando accadono nuovi eventi o cambiano scenari nei frame successivi. Inoltre, durante la generazione, attiviamo solo i token più rilevanti nella memory bank per ogni query negli strati di attention, garantendo efficacemente l'efficienza generativa. In questo modo, MemFlow raggiunge un'eccezionale coerenza contestuale lunga con un carico computazionale trascurabile (riduzione della velocità del 7,9% rispetto al baseline senza memoria) e mantiene la compatibilità con qualsiasi modello di generazione video in streaming dotato di KV cache.
La progettazione di funzioni di ricompensa efficaci rappresenta una sfida centrale e spesso ardua nell'apprendimento per rinforzo (RL), in particolare nello sviluppo di agenti autonomi per compiti di ragionamento complesso. Sebbene esistano approcci di ottimizzazione automatica della ricompensa, questi si basano tipicamente su euristiche evolutive senza derivate che trattano la funzione di ricompensa come una scatola nera, non riuscendo a catturare la relazione causale tra struttura della ricompensa e prestazione del compito. Per colmare questa lacuna, proponiamo il Differentiable Evolutionary Reinforcement Learning (DERL), un framework bilevel che consente la scoperta autonoma di segnali di ricompensa ottimali. In DERL, un Meta-Ottimizzatore evolve una funzione di ricompensa (cioè, Meta-Ricompensa) componendo primitive atomiche strutturate, guidando l'addestramento di una politica ad anello interno. Crucialmente, a differenza delle precedenti evoluzioni, DERL è differenziabile nella sua meta-ottimizzazione: tratta la prestazione di validazione ad anello interno come un segnale per aggiornare il Meta-Ottimizzatore tramite apprendimento per rinforzo. Ciò consente a DERL di approssimare il "meta-gradiente" del successo del compito, imparando progressivamente a generare un feedback più denso e azionabile. Convalidiamo DERL in tre domini distinti: agente robotico (ALFWorld), simulazione scientifica (ScienceWorld) e ragionamento matematico (GSM8k, MATH). I risultati sperimentali mostrano che DERL raggiunge prestazioni all'avanguardia su ALFWorld e ScienceWorld, superando significativamente i metodi che si basano su ricompense euristiche, specialmente in scenari di distribuzione non vista. L'analisi della traiettoria evolutiva dimostra che DERL cattura con successo la struttura intrinseca dei compiti, consentendo un allineamento auto-migliorante degli agenti senza intervento umano.
Presentiamo Olmo 3, una famiglia di modelli linguistici completamente aperti e all'avanguardia con scale parametriche da 7B e 32B. La costruzione del modello Olmo 3 mira al ragionamento a contesto lungo, alla chiamata di funzioni, alla programmazione, al follow-up di istruzioni, alla chat generica e al richiamo di conoscenze. Questa release include l'intero flusso del modello, ovvero l'intero ciclo di vita della famiglia di modelli, comprendendo ogni fase, checkpoint, punto dati e dipendenza utilizzata per costruirlo. Il nostro modello principale, Olmo 3 Think 32B, è il più potente modello di pensiero completamente aperto rilasciato fino ad oggi.
La costruzione di modelli di ragionamento a scopo generale con l'apprendimento per rinforzo (RL) comporta una sostanziale eterogeneità cross-dominio, che include una grande variazione nelle lunghezze delle risposte al momento dell'inferenza e nella latenza di verifica. Tale variabilità complica l'infrastruttura RL, rallenta l'addestramento e rende impegnativa la definizione del curriculum di apprendimento (ad esempio, l'estensione della lunghezza della risposta) e la selezione degli iperparametri. In questo lavoro, proponiamo l'apprendimento per rinforzo sequenziale per dominio (Cascade RL) per sviluppare modelli di ragionamento a scopo generale, Nemotron-Cascade, in grado di operare sia in modalità "instruct" che di "deep thinking". Allontanandosi dagli approcci convenzionali che mescolano prompt eterogenei da domini diversi, il Cascade RL orchestra un RL sequenziale e per dominio, riducendo la complessità ingegneristica e fornendo prestazioni all'avanguardia su un'ampia gamma di benchmark. È degno di nota che l'RLHF per l'allineamento, quando utilizzato come passo preliminare, potenzia l'abilità di ragionamento del modello ben al di là della mera ottimizzazione delle preferenze; le successive fasi di RLVR per dominio raramente degradano le prestazioni sui benchmark ottenute nei domini precedenti e possono persino migliorarle (vedi un'illustrazione nella Figura 1). Il nostro modello da 14B, dopo l'RL, supera il suo insegnante SFT, DeepSeek-R1-0528, su LiveCodeBench v5/v6/Pro e raggiunge una performance di livello medaglia d'argento alle Olimpiadi Internazionali di Informatica (IOI) del 2025. Condividiamo in modo trasparente le nostre ricette per l'addestramento e i dati.
I grandi modelli linguistici (LLM) hanno dimostrato un potenziale straordinario nel trasformare i sistemi di raccomandazione, passando dalla corrispondenza implicita di pattern comportamentali al ragionamento esplicito sulle intenzioni. Sebbene RecGPT-V1 abbia pionieristicamente inaugurato questo paradigma integrando il ragionamento basato su LLM nell'analisi degli interessi utente e nella previsione dei tag degli articoli, esso soffre di quattro limitazioni fondamentali: (1) inefficienza computazionale e ridondanza cognitiva tra le molteplici vie di ragionamento; (2) diversità insufficiente nelle spiegazioni generate da template fissi; (3) generalizzazione limitata in paradigmi di apprendimento supervisionato; e (4) valutazione semplicistica focalizzata sui risultati, che non soddisfa gli standard umani. Per affrontare queste sfide, presentiamo RecGPT-V2 con quattro innovazioni chiave. Primo, un Sistema Multi-Agente Gerarchico ristruttura il ragionamento sulle intenzioni attraverso una collaborazione coordinata, eliminando la duplicazione cognitiva e consentendo al contempo una copertura diversificata delle intenzioni. Combinato con l'Inferenza a Rappresentazione Ibrida che comprime i contesti del comportamento utente, il nostro framework riduce il consumo GPU del 60% e migliora il richiamo esclusivo dal 9,39% al 10,99%. Secondo, un framework di Meta-Prompting genera dinamicamente prompt adattivi al contesto, migliorando la diversità delle spiegazioni del +7,3%. Terzo, l'apprendimento per rinforzo vincolato mitiga i conflitti tra molteplici ricompense, ottenendo un miglioramento del +24,1% nella previsione dei tag e del +13,0% nell'accettazione delle spiegazioni. Quarto, un framework Agente-come-Giudice scompone la valutazione in un ragionamento multi-step, migliorando l'allineamento alle preferenze umane. Test A/B online su Taobao dimostrano miglioramenti significativi: +2,98% CTR, +3,71% IPV, +2,19% TV e +11,46% NER. RecGPT-V2 stabilisce sia la fattibilità tecnica che la viabilità commerciale della distribuzione su larga scala del ragionamento sulle intenzioni potenziato da LLM, colmando il divario tra esplorazione cognitiva e utilità industriale.
Mentre i modelli di generazione esistenti e i modelli unificati eccellono nella generazione generale di immagini, faticano in compiti che richiedono ragionamento approfondito, pianificazione e capacità di mappatura precisa dai dati al visivo oltre gli scenari generali. Per superare i limiti attuali, introduciamo un nuovo e impegnativo compito: la visualizzazione creativa di tabelle, che richiede al modello di generare un'infografica che visualizzi in modo fedele ed esteticamente gradevole i dati di una tabella fornita. Per affrontare questa sfida, proponiamo ShowTable, una pipeline che sinergizza MLLM con modelli di diffusione attraverso un processo progressivo di autocorrezione. L'MLLM funge da orchestratore centrale per il ragionamento del piano visivo e la valutazione degli errori visivi, fornendo istruzioni raffinate, mentre il modello di diffusione esegue i comandi dell'MLLM, ottenendo risultati ad alta fedeltà. Per supportare questo compito e la nostra pipeline, introduciamo tre pipeline automatizzate di costruzione dati per addestrare diversi moduli. Inoltre, introduciamo TableVisBench, un nuovo benchmark con 800 casi complessi distribuiti su 5 dimensioni di valutazione, per valutare le prestazioni su questo compito. Gli esperimenti dimostrano che la nostra pipeline, istanziata con diversi modelli, supera significativamente i baseline, evidenziando le sue efficaci capacità di ragionamento multimodale, generazione e correzione degli errori.
I recenti progressi nella generazione di immagini-3D hanno aperto immense possibilità per il design, la realtà aumentata/virtuale (AR/VR) e la robotica. Tuttavia, per utilizzare gli asset 3D generati dall'IA in applicazioni reali, un requisito fondamentale è la capacità di modificarli facilmente. Presentiamo un metodo feedforward, Steer3D, per aggiungere controllabilità testuale ai modelli di generazione immagini-3D, che consente la modifica degli asset 3D generati tramite linguaggio. Il nostro approccio è ispirato a ControlNet, che adattiamo alla generazione immagini-3D per abilitare il controllo testuale direttamente in un passaggio in avanti. Costruiamo un motore di dati scalabile per la generazione automatica di dati e sviluppiamo una ricetta di addestramento in due stadi basata sull'addestramento per flussi (flow-matching) e sull'Optimizzazione Diretta delle Preferenze (Direct Preference Optimization - DPO). Rispetto ai metodi concorrenti, Steer3D segue più fedelmente le istruzioni linguistiche e mantiene una migliore coerenza con l'asset 3D originale, risultando da 2,4x a 28,5x più veloce. Steer3D dimostra che è possibile aggiungere una nuova modalità (testo) per controllare la generazione di modelli generativi immagini-3D pre-addestrati con 100k dati. Sito web del progetto: https://glab-caltech.github.io/steer3d/
La rapida scalabilità dei Large Language Model (LLM) ha ottenuto prestazioni notevoli, ma comporta anche costi di memoria proibitivi. Gli approcci esistenti efficienti in termini di parametri, come pruning e quantizzazione, comprimono principalmente i modelli preaddestrati senza potenziarne la capacità architetturale, raggiungendo così il limite rappresentativo del modello base. In questo lavoro proponiamo VersatileFFN, una nuova rete feed-forward (FFN) che consente il riutilizzo flessibile dei parametri nelle dimensioni di ampiezza e profondità entro un budget di parametri fisso. Ispirandoci alla teoria del doppio processo cognitivo, VersatileFFN comprende due pathway adattativi: un percorso versatile in ampiezza che genera una miscela di sotto-esperti da una singola FFN condivisa, simulando il routing sparso di esperti senza aumentare i parametri, e un percorso versatile in profondità che applica ricorsivamente la stessa FFN per emulare un'elaborazione più profonda per i token complessi. Un meccanismo di gating sensibile alla difficoltà bilancia dinamicamente i due pathway, indirizzando i token "semplici" attraverso il percorso efficiente in ampiezza e riservando l'approfondimento iterativo ai token "difficili". Fondamentalmente, entrambi i pathway riutilizzano gli stessi parametri, quindi ogni capacità aggiuntiva deriva dal calcolo anziché dalla memoria. Esperimenti su vari benchmark e scale di modelli dimostrano l'efficacia del metodo. Il codice sarà disponibile su https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN.
La previsione di affordance, che identifica le regioni di interazione sugli oggetti in base a istruzioni linguistiche, è fondamentale per l'IA incarnata. I modelli end-to-end predominanti accoppiano il ragionamento di alto livello e la localizzazione di basso livello in una singola pipeline monolitica e si basano sull'addestramento su dataset annotati, il che porta a una scarsa generalizzazione su oggetti nuovi e ambienti inesplorati. In questo articolo, andiamo oltre questo paradigma proponendo A4-Agent, un framework agentico senza addestramento che disaccoppia la previsione di affordance in una pipeline a tre stadi. Il nostro framework coordina modelli foundation specializzati al momento del test: (1) un "Dreamer" che impiega modelli generativi per visualizzare come apparirebbe un'interazione; (2) un "Thinker" che utilizza grandi modelli visione-linguaggio per decidere quale parte dell'oggetto interagire; e (3) uno "Spotter" che orchestra modelli foundation visivi per localizzare con precisione dove si trova l'area di interazione. Sfruttando i punti di forza complementari di modelli pre-addestrati senza alcuna messa a punto specifica per il compito, il nostro framework zero-shot supera significativamente i metodi supervisionati all'avanguardia su molteplici benchmark e dimostra una robusta generalizzazione in contesti del mondo reale.
Presentiamo SS4D, un modello generativo nativo 4D che sintetizza oggetti 3D dinamici direttamente da video monoculare. A differenza degli approcci precedenti che costruiscono rappresentazioni 4D ottimizzando modelli generativi 3D o video, noi addestriamo un generatore direttamente su dati 4D, raggiungendo alta fedeltà, coerenza temporale e consistenza strutturale. Il cuore del nostro metodo è un insieme compresso di latenti spazio-temporali strutturati. Nello specifico: (1) Per affrontare la scarsità di dati di addestramento 4D, ci basiamo su un modello pre-addestrato da immagine singola a 3D, preservando una forte consistenza spaziale. (2) La coerenza temporale è imposta introducendo layer temporali dedicati che operano ragionamenti tra i frame. (3) Per supportare addestramento e inferenza efficienti su sequenze video lunghe, comprimiamo la sequenza latente lungo l'asse temporale usando convoluzioni 4D fattorizzate e blocchi di downsampling temporale. Inoltre, impieghiamo una strategia di addestramento accuratamente progettata per migliorare la robustezza contro le occlusioni.
I Modelli di Diffusione Discreta Mascherata (MDM) hanno ottenuto prestazioni eccellenti in un'ampia gamma di attività multimodali, inclusa la comprensione, la generazione e la modifica di immagini. Tuttavia, la loro velocità di inferenza rimane non ottimale a causa della necessità di elaborare ripetutamente token mascherati ridondanti ad ogni passo di campionamento. In questo lavoro, proponiamo Sparse-LaViDa, un nuovo framework di modellazione che tronca dinamicamente i token mascherati non necessari in ogni fase di inferenza per accelerare il campionamento MDM. Per preservare la qualità della generazione, introduciamo speciali token di registro che fungono da rappresentazioni compatte per i token troncati. Inoltre, per garantire la coerenza tra l'addestramento e l'inferenza, progettiamo una maschera di attenzione specializzata che rispecchia fedelmente la procedura di campionamento troncato durante l'addestramento. Basato sullo stato dell'arte dell'MDM unificato LaViDa-O, Sparse-LaViDa raggiunge un accelerazione fino a 2x in diverse attività, tra cui la generazione di immagini da testo, la modifica di immagini e il ragionamento matematico, mantenendo al contempo la qualità della generazione.
La quantizzazione non parametrica ha ricevuto notevole attenzione grazie alla sua efficienza in termini di parametri e alla sua scalabilità con codebook di grandi dimensioni. In questo articolo, presentiamo una formulazione unificata di diversi metodi di quantizzazione non parametrica attraverso la lente della codifica a reticolo. La geometria dei codici a reticolo spiega la necessità di termini di perdita ausiliari durante l'addestramento di autoencoder con alcune varianti esistenti di quantizzazione senza tabella di ricerca, come BSQ. Come passo avanti, esploriamo alcuni possibili candidati, inclusi reticoli casuali, reticoli generalizzati di Fibonacci e reticoli di impacchettamento di sfere più denso. Tra tutti, abbiamo riscontrato che il metodo di quantizzazione basato sul reticolo di Leech, denominato Spherical Leech Quantization (Λ_{24}-SQ), porta sia a una procedura di addestramento semplificata sia a un miglior compromesso ricompressione-ricostruzione grazie alla sua elevata simmetria e distribuzione uniforme sull'ipersfera. In compiti di tokenizzazione e compressione di immagini, questo approccio di quantizzazione raggiunge una qualità di ricostruzione migliore in tutte le metriche rispetto a BSQ, il miglior stato dell'arte precedente, consumando leggermente meno bit. Il miglioramento si estende anche a framework all'avanguardia per la generazione autoregressiva di immagini.
I modelli linguistici di diffusione (dLM) sono emersi come un paradigma promettente che consente una generazione parallela e non autoregressiva, ma la loro efficienza di apprendimento rimane inferiore a quella dei modelli linguistici autoregressivi (AR) quando addestrati da zero. A tal fine, studiamo la conversione da AR a dLM per trasformare modelli AR preaddestrati in dLM efficienti che eccellono in velocità preservando l'accuratezza dei modelli AR nei compiti. Raggiungiamo questo obiettivo identificando le limitazioni nei pattern di attenzione e negli obiettivi dei metodi di conversione AR-to-dLM esistenti, per poi proporre principi e metodologie per una conversione più efficace. Nello specifico, confrontiamo prima sistematicamente diversi pattern di attenzione e scopriamo che mantenere le distribuzioni di peso AR preaddestrate è fondamentale per una conversione efficace. Pertanto, introduciamo uno schema di preaddestramento continuo con un pattern di attenzione a blocchi, che rimane causale tra i blocchi consentendo al contempo una modellazione bidirezionale all'interno di ogni blocco. Troviamo che questo approccio può preservare meglio le distribuzioni di peso dei modelli AR preaddestrati rispetto alla modellazione completamente bidirezionale, oltre al suo noto vantaggio di abilitare la KV cache, e porta a un vantaggio reciproco in accuratezza ed efficienza. In secondo luogo, per mitigare il divario tra addestramento e test nelle distribuzioni dei token mascherati (uniforme vs. fortemente left-to-right), proponiamo una strategia di mascheramento dei token dipendente dalla posizione che assegna probabilità di mascheramento più elevate ai token successivi durante l'addestramento per imitare meglio il comportamento al momento del test. Sfruttando questo framework, conduciamo studi approfonditi sui pattern di attenzione, le dinamiche di addestramento e altre scelte progettuali dei dLM, fornendo spunti pratici per una conversione AR-to-dLM scalabile. Questi studi portano alla famiglia Efficient-DLM, che supera i modelli AR e dLM all'avanguardia; ad esempio, il nostro Efficient-DLM 8B raggiunge un'accuratezza superiore del +5,4%/+2,7% con un throughput rispettivamente 4,5x/2,7x più alto rispetto a Dream 7B e Qwen3 4B.
Questo articolo non introduce un metodo innovativo, ma stabilisce piuttosto una baseline semplice, incrementale eppure essenziale per la localizzazione temporale nei video (VTG), una capacità fondamentale nella comprensione video. Sebbene i modelli linguistici multimodali di grandi dimensioni (MLLM) eccellano in vari compiti di comprensione video, le metodologie per ottimizzarli specificamente per la VTG rimangono poco esplorate. In questo articolo presentiamo TimeLens, un'indagine sistematica sulla costruzione di MLLM con solide capacità di VTG, lungo due dimensioni principali: la qualità dei dati e il design algoritmico. Inizialmente, evidenziamo criticità qualitative fondamentali nei benchmark VTG esistenti e introduciamo TimeLens-Bench, che comprende versioni meticolosamente riannotate di tre benchmark popolari con criteri di qualità rigorosi. La nostra analisi rivela drastici riposizionamenti nei ranking dei modelli rispetto ai benchmark legacy, confermando l'inaffidabilità dei precedenti standard di valutazione. Affrontiamo inoltre il problema dei dati di addestramento rumorosi attraverso una pipeline di riannotazione automatizzata, producendo TimeLens-100K, un dataset di addestramento su larga scala e di alta qualità. Basandoci su questa fondazione dati, conduciamo esplorazioni approfondite dei principi di progettazione algoritmica, ricavando una serie di insight significativi e pratiche efficaci ma efficienti. Queste includono una codifica testuale interlacciata per la rappresentazione del tempo, un approccio di reinforcement learning senza ragionamento (thinking-free) con ricompense verificabili (RLVR) come paradigma di addestramento e ricette accuratamente progettate per l'addestramento RLVR. Questi sforzi culminano nei modelli TimeLens, una famiglia di MLLM con prestazioni VTG allo stato dell'arte tra i modelli open-source, che superano persino modelli proprietari come GPT-5 e Gemini-2.5-Flash. Tutti i codici, i dati e i modelli saranno rilasciati per favorire la ricerca futura.
Il raggiungimento di una vera intelligenza incarnata adattiva richiede agenti che apprendano non solo imitando dimostrazioni statiche, ma migliorando continuamente attraverso l'interazione ambientale, in modo analogo a come gli esseri umani padroneggiano le abilità con la pratica. I modelli Visione-Linguaggio-Azione (VLA) hanno fatto progredire la manipolazione robotica sfruttando i grandi modelli linguistici, ma rimangono fondamentalmente limitati dalla messa a punto supervisionata (SFT): richiedono centinaia di dimostrazioni per compito, memorizzano rigidamente le traiettorie e falliscono nell'adattarsi quando le condizioni di dispiegamento si discostano dall'addestramento. Introduciamo EVOLVE-VLA, un framework di addestramento al momento del test che consente ai VLA di adattarsi continuamente attraverso l'interazione con l'ambiente, con dimostrazioni specifiche per il compito minime o nulle. La sfida tecnica chiave è sostituire i segnali di ricompensa oracle (non disponibili durante il test) con un feedback autonomo. Affrontiamo questo problema attraverso uno stimatore di progresso appreso che fornisce un feedback denso e, in modo cruciale, progettiamo il nostro framework per "domare" questo segnale intrinsecamente rumoroso mediante due meccanismi: (1) un meccanismo di stima del progresso accumulativo che smorza le stime puntuali rumorose, e (2) una strategia di estensione progressiva dell'orizzonte che consente un'evoluzione graduale della politica. EVOLVE-VLA ottiene miglioramenti sostanziali: +8,6% su compiti a lungo orizzonte, +22,0% nell'apprendimento one-shot e abilita la generalizzazione cross-task – raggiungendo il 20,8% di successo su compiti non visti senza un addestramento con dimostrazioni specifiche (contro lo 0% della SFT pura). L'analisi qualitativa rivela capacità emergenti assenti nelle dimostrazioni, inclusi il recupero dagli errori e strategie innovative. Questo lavoro rappresenta un passo critico verso VLA che apprendono e si adattano veramente, superando l'imitazione statica verso continui miglioramenti autonomi.
Introduciamo CRISP, un metodo che ricostruisce movimenti umani simulabili e la geometria della scena a partire da video monoculari. I lavori precedenti sulla ricostruzione congiunta umano-scena si basano su prior guidate dai dati e su ottimizzazione congiunta senza fisica nel ciclo, oppure recuperano geometrie rumorose con artefatti che causano il fallimento delle politiche di motion tracking con interazioni con la scena. Al contrario, la nostra intuizione chiave è recuperare una geometria convessa, pulita e pronta per la simulazione adattando primitive planari a una ricostruzione a nuvola di punti della scena, mediante una semplice pipeline di clustering su profondità, normali e flusso ottico. Per ricostruire la geometria della scena che potrebbe essere occlusa durante le interazioni, sfruttiamo la modellazione del contatto umano-scena (ad esempio, utilizziamo la postura umana per ricostruire la seduta occlusa di una sedia). Infine, garantiamo che le ricostruzioni umano e scena siano fisicamente plausibili utilizzandole per pilotare un controllore di umanoide tramite apprendimento per rinforzo. Il nostro approccio riduce i tassi di fallimento del motion tracking dal 55,2% al 6,9% su benchmark video centrati sull'uomo (EMDB, PROX), offrendo allo stesso tempo un throughput di simulazione RL del 43% più veloce. Convalidiamo ulteriormente il metodo su video in condizioni reali, inclusi video acquisiti casualmente, video Internet e persino video generati da Sora. Ciò dimostra la capacità di CRISP di generare motion umano e ambienti di interazione fisicamente validi su larga scala, avanzando notevolmente le applicazioni real-to-sim per la robotica e la realtà aumentata/virtuale.
Il ripristino di immagini mediche (MedIR) mira a recuperare immagini mediche di alta qualità a partire dalle loro controparti di bassa qualità. I recenti progressi nel campo MedIR si sono concentrati su modelli "All-in-One" in grado di affrontare simultaneamente molteplici e diversi compiti di MedIR. Tuttavia, a causa delle significative differenze sia nella modalità che nei tipi di degrado, l'utilizzo di un modello condiviso per questi compiti diversificati richiede un'attenta considerazione di due critiche relazioni inter-compito: l'interferenza tra compiti, che si verifica quando direzioni di aggiornamento del gradiente in conflitto sorgono tra compiti sullo stesso parametro, e lo squilibrio tra compiti, che si riferisce a un'ottimizzazione non uniforme causata dalle diverse difficoltà di apprendimento intrinseche di ciascun compito. Per affrontare queste sfide, proponiamo un Transformer adattivo ai compiti (TAT), un nuovo framework che si adatta dinamicamente a diversi compiti attraverso due innovazioni chiave. In primo luogo, viene introdotta una strategia di generazione di pesi adattativa ai compiti per mitigare l'interferenza tra compiti generando parametri di peso specifici per ogni compito, eliminando così i potenziali conflitti di gradiente sui parametri di peso condivisi. In secondo luogo, viene introdotta una strategia di bilanciamento della loss adattativa ai compiti per regolare dinamicamente i pesi della loss in base alle difficoltà di apprendimento specifiche di ogni compito, prevenendo la dominanza di un compito o un addestramento insufficiente. Esperimenti estensivi dimostrano che il nostro TAT proposto raggiunge prestazioni all'avanguardia in tre compiti di MedIR - sintesi PET, riduzione del rumore in TC e super-risoluzione in risonanza magnetica - sia in configurazioni specifiche per compito che All-in-One. Il codice è disponibile all'indirizzo https://github.com/Yaziwel/TAT.
L'inferenza di modelli Large Mixture-of-Experts (MoE) è impegnativa a causa dell'elevata domanda di risorse e dei carichi di lavoro dinamici. Le soluzioni esistenti spesso distribuiscono l'intero modello come un'unica unità monolitica, applicando una configurazione di risorse unificata sia ai moduli di attenzione che agli esperti nonostante le loro diverse esigenze, con conseguente scalabilità limitata e inefficienza delle risorse. In questo articolo, proponiamo Janus, un sistema di inferenza MoE scalabile che disaggregra l'attenzione e gli esperti su sottocluster GPU separati, consentendo la gestione e il ridimensionamento indipendenti di ciascun modulo. Janus incorpora tre progetti chiave per un'inferenza MoE disaggregata ed efficiente. In primo luogo, propone uno schema di comunicazione adattivo a due fasi che sfrutta le gerarchie di banda intra- e inter-nodo per lo scambio di dati a bassa latenza. In secondo luogo, motivato dalla natura memory-bound dei moduli MoE, Janus introduce uno scheduler leggero e lo implementa come kernel GPU per bilanciare il numero di esperti attivati tra le GPU con un overhead minimo, riducendo così la latenza di inferenza. In terzo luogo, Janus esegue una gestione delle risorse a grana fine per regolare dinamicamente il posizionamento degli esperti e ridimensionare indipendentemente le risorse di attenzione e MoE per migliorare l'efficienza complessiva. La valutazione mostra che Janus raggiunge un throughput per GPU fino a 3,9 volte superiore rispetto ai sistemi all'avanguardia, soddisfacendo al contempo i requisiti di latenza per token.
Il video question answering fondato (GVQA) mira a localizzare segmenti temporali rilevanti nei video e generare risposte accurate a una data domanda; tuttavia, i grandi modelli video-linguistici (LVLM) mostrano una limitata consapevolezza temporale. Sebbene gli approcci esistenti basati sull'ottimizzazione delle politiche relative di gruppo (GRPO) tentino di migliorare la localizzazione temporale, essi faticano ancora a fondare fedelmente le proprie risposte nelle evidenze video rilevanti, portando a errori di localizzazione temporale e allucinazioni. In questo lavoro, presentiamo Zoom-Zero, un framework da grossolano a fine che prima localizza i segmenti pertinenti alla query e poi effettua uno zoom temporale sui fotogrammi più salienti per una verifica visiva più granulare. Il nostro metodo affronta i limiti del GRPO per il compito GVQA con due innovazioni chiave: (i) una ricompensa per l'accuratezza dello zoom che convalida la fedeltà della previsione di localizzazione temporale e facilita la verifica visiva fine sui fotogrammi fondati; (ii) l'assegnazione selettiva del credito ai token, che attribuisce le ricompense ai token responsabili della localizzazione temporale o della generazione della risposta, mitigando il problema del GRPO nella gestione di segnali di ricompensa multifaccettati. Il nostro metodo proposto avanza il video question answering fondato, migliorando la localizzazione temporale del 5,2% su NExT-GQA e del 4,6% su ReXTime, mentre incrementa anche l'accuratezza media delle risposte del 2,4%. Inoltre, lo zoom da grossolano a fine durante l'inferenza apporta ulteriori vantaggi alla comprensione di video lunghi preservando dettagli visivi critici senza compromettere il contesto globale, producendo un miglioramento medio del 6,4% sui benchmark per video lunghi.
L'apprendimento in contesto è fondamentale per i moderni Large Language Model (LLM); tuttavia, le architetture prevalenti impongono una struttura contestuale rigida e fissa assegnando indici posizionali lineari o costanti. Basandoci sulla Teoria del Carico Cognitivo (CLT), sosteniamo che questa struttura non informativa aumenti il carico cognitivo estraneo, consumando la limitata capacità di memoria di lavoro che dovrebbe essere allocata per il ragionamento profondo e l'assegnazione dell'attenzione. Per affrontare questo problema, proponiamo RePo, un nuovo meccanismo che riduce il carico estraneo tramite il riposizionamento del contesto. A differenza degli approcci standard, RePo utilizza un modulo differenziabile, f_φ, per assegnare posizioni ai token che catturano le dipendenze contestuali, anziché basarsi su un intervallo predefinito di numeri interi. Mediante un pre-addestramento continuo sul backbone OLMo-2 1B, dimostriamo che RePo migliora significativamente le prestazioni in compiti che coinvolgono contesti rumorosi, dati strutturati e lunghezze contestuali maggiori, mantenendo al contempo prestazioni competitive in compiti generali con contesto breve. Un'analisi dettagliata rivela che RePo assegna con successo un'attenzione maggiore a informazioni distanti ma rilevanti, assegna posizioni in uno spazio denso e non lineare e cattura la struttura intrinseca del contesto di input. Il nostro codice è disponibile all'indirizzo https://github.com/SakanaAI/repo.
L'apprendimento per rinforzo con ricompense verificabili (RLVR) si è dimostrato efficace nell'addestrare grandi modelli di ragionamento (LRM) sfruttando segnali verificabili basati sulle risposte per guidare l'ottimizzazione della politica. Tuttavia, questo approccio soffre di elevati costi di annotazione. Per alleviare questo problema, recenti lavori hanno esplorato metodi RLVR non supervisionati che ricavano le ricompense esclusivamente dalla coerenza interna del modello, ad esempio attraverso l'entropia e il voto a maggioranza. Sebbene apparentemente promettenti, questi metodi sono spesso soggetti a collasso del modello nelle fasi avanzate dell'addestramento, problema che può sorgere dal rafforzamento di pattern di ragionamento errati in assenza di supervisione esterna. In questo lavoro, investigiamo un nuovo paradigma RLVR semi-supervisionato che utilizza un piccolo insieme di dati etichettati per guidare l'addestramento RLVR su campioni non etichettati. La nostra intuizione chiave è che le ricompense supervisionate sono essenziali per stabilizzare l'addestramento basato sulla coerenza sui campioni non etichettati, garantendo che solo i pattern di ragionamento verificati su istanze etichettate vengano incorporati nell'apprendimento per rinforzo. Tecnicamente, proponiamo un algoritmo efficace di ottimizzazione della politica, TraPO, che identifica campioni non etichettati affidabili confrontando la similarità della loro traiettoria di apprendimento con quella dei campioni etichettati. Sulla base di ciò, TraPO raggiunge una notevole efficienza dei dati e una forte generalizzazione su sei benchmark di ragionamento matematico ampiamente utilizzati (AIME24/25, AMC, MATH-500, Minerva e Olympiad) e su tre task fuori distribuzione (ARC-c, GPQA-diamond e MMLU-pro). Con soli 1.000 campioni etichettati e 3.000 non etichettati, TraPO raggiunge una precisione media del 42,6%, superando il miglior metodo non supervisionato addestrato su 45.000 campioni non etichettati (38,3%). Notevolmente, utilizzando 4.000 campioni etichettati e 12.000 non etichettati, TraPO supera persino il modello completamente supervisionato addestrato sull'intero set di 45.000 campioni etichettati su tutti i benchmark, utilizzando solo il 10% dei dati etichettati. Il codice è disponibile all'indirizzo https://github.com/ShenzhiYang2000/TRAPO.
I meccanismi di allineamento alla sicurezza nei grandi modelli linguistici impediscono risposte a query dannose attraverso comportamenti di rifiuto appresi, tuttavia questi stessi meccanismi ostacolano applicazioni di ricerca legittime incluse la modellazione cognitiva, i test adversarial e l'analisi della sicurezza. Sebbene le tecniche di abliterazione consentano la rimozione chirurgica delle rappresentazioni di rifiuto mediante orthogonalizzazione direzionale, l'efficacia relativa delle implementazioni disponibili rimane non caratterizzata. Questo studio valuta quattro strumenti di abliterazione (Heretic, DECCP, ErisForge, FailSpy) su sedici modelli addestrati su istruzioni (7B-14B parametri), riportando la compatibilità degli strumenti su tutti i 16 modelli e metriche quantitative sui sottoinsiemi determinati dal supporto degli strumenti. I metodi single-pass hanno dimostrato una conservazione delle capacità superiore sul sottoinsieme valutato (variazione media GSM8K su tre modelli: ErisForge -0,28 pp; DECCP -0,13 pp), mentre l'abliterazione ottimizzata bayesiana ha prodotto uno spostamento distributivo variabile (divergenza KL: 0,043-1,646) con un impatto sulle capacità dipendente dal modello. Questi risultati forniscono ai ricercatori criteri di selezione basati su evidenze per il dispiegamento di strumenti di abliterazione su diverse architetture di modelli. Il risultato principale indica che le capacità di ragionamento matematico mostrano la sensibilità più elevata agli interventi di abliterazione, con una variazione GSM8K che va da +1,51 pp a -18,81 pp (-26,5% relativo) a seconda della selezione dello strumento e dell'architettura del modello.
I modelli del mondo hanno dimostrato una grande utilità nel migliorare le prestazioni dei compiti degli agenti embodied. Mentre il lavoro precedente si concentra prevalentemente su modelli del mondo nello spazio dei pixel, questi approcci presentano limitazioni pratiche negli ambienti GUI, dove la previsione di elementi visivi complessi negli stati futuri è spesso difficile. In questo lavoro, esploriamo una formulazione alternativa della modellazione del mondo per agenti GUI, in cui le transizioni di stato sono descritte in linguaggio naturale anziché prevedendo pixel grezzi. In primo luogo, introduciamo MobileWorldBench, un benchmark che valuta la capacità dei modelli visione-linguaggio (VLM) di fungere da modelli del mondo per agenti GUI mobili. In secondo luogo, rilasciamo MobileWorld, un dataset su larga scala composto da 1,4 milioni di campioni, che migliora significativamente le capacità di modellazione del mondo dei VLM. Infine, proponiamo una nuova architettura che integra i modelli del mondo VLM nel framework di pianificazione degli agenti mobili, dimostrando che i modelli del mondo semantici possono avvantaggiare direttamente gli agenti mobili migliorando i tassi di successo dei compiti. Il codice e il dataset sono disponibili all'indirizzo https://github.com/jacklishufan/MobileWorld.
L'estrazione di edifici da immagini di telerilevamento è un compito impegnativo a causa delle complesse variazioni strutturali degli edifici stessi. I metodi esistenti utilizzano blocchi convoluzionali o di self-attention per catturare le caratteristiche multi-scala nei modelli di segmentazione, mentre l'inherente divario tra le piramidi di caratteristiche e un'integrazione insufficiente tra caratteristiche globali e locali porta a risultati di estrazione imprecisi e ambigui. Per affrontare questo problema, in questo articolo presentiamo una Uncertainty-Aggregated Global-Local Fusion Network (UAGLNet), in grado di sfruttare semantiche visive globali-locali di alta qualità sotto la guida della modellazione dell'incertezza. Nello specifico, proponiamo un nuovo codificatore cooperativo, che adotta strati ibridi CNN e transformer in stadi diversi per catturare rispettivamente le semantiche visive locali e globali. Un blocco di interazione cooperativa intermedio (CIB) è progettato per ridurre il divario tra le caratteristiche locali e globali quando la rete diventa più profonda. Successivamente, proponiamo un modulo di Fusione Globale-Locale (GLF) per fondere in modo complementare le rappresentazioni globali e locali. Inoltre, per mitigare l'ambiguità di segmentazione nelle regioni incerte, proponiamo un Decodificatore ad Incertezza Aggregata (UAD) per stimare esplicitamente l'incertezza a livello di pixel e migliorare così l'accuratezza della segmentazione. Esperimenti estensivi dimostrano che il nostro metodo raggiunge prestazioni superiori rispetto ad altri metodi all'avanguardia. Il nostro codice è disponibile all'indirizzo https://github.com/Dstate/UAGLNet.
Questo articolo presenta JMMMU-Pro, un benchmark di comprensione multimodale multidisciplinare basato su immagini per la lingua giapponese, e Vibe Benchmark Construction, un metodo di costruzione scalabile. Seguendo l'evoluzione da MMMU a MMMU-Pro, JMMMU-Pro estende JMMMU componendo l'immagine della domanda e il testo della domanda in un'unica immagine, creando così un benchmark che richiede una comprensione visivo-testuale integrata attraverso la percezione visiva. Per costruire JMMMU-Pro, proponiamo Vibe Benchmark Construction, una metodologia in cui un modello generativo di immagini (ad esempio, Nano Banana Pro) produce domande visive candidate, e esseri umani verificano gli output e, quando necessario, rigenerano le immagini con prompt modificati per garantirne la qualità. Sfruttando le capacità di generazione di immagini altamente realistiche di Nano Banana Pro e la sua abilità di incorporare testo giapponese nitido, costruiamo un benchmark di alta qualità a basso costo, che copre un'ampia gamma di sfondi e layout. I risultati sperimentali mostrano che tutti i Modelli Linguistici Multimodali open-source incontrano notevoli difficoltà con JMMMU-Pro, sottolineando come JMMMU-Pro rappresenti un benchmark importante per guidare i futuri sforzi nella comunità open-source. Riteniamo che JMMMU-Pro fornisca uno strumento di valutazione più rigoroso per valutare le capacità in lingua giapponese dei Modelli Linguistici Multimodali e che la nostra Vibe Benchmark Construction offra anche una linea guida efficiente per lo sviluppo futuro di benchmark VQA basati su immagini.
La rapida integrazione dell'intelligenza artificiale generativa nell'istruzione ha guidato la trasformazione digitale nell'e-teaching, sebbene le percezioni degli utenti riguardo alle app educative basate su IA rimangano poco esplorate. Questo studio effettua una valutazione guidata dal sentiment delle recensioni degli utenti delle principali app educative di IA sul Google Play Store per valutarne l'efficacia, le criticità e le implicazioni pedagogiche. La nostra pipeline ha incluso il scraping di dati e recensioni delle app, l'utilizzo di RoBERTa per la classificazione binaria del sentiment, GPT-4o per l'estrazione dei punti chiave e GPT-5 per sintetizzare i temi positivi/negativi principali. Le app sono state categorizzate in sette tipologie (ad esempio, assistenti per i compiti, risolutori matematici, strumenti linguistici), con sovrapposizioni che riflettono design multifunzionali. I risultati indicano sentiment prevalentemente positivi, con app per i compiti come Edu AI (95,9% positivo) e Answer.AI (92,7%) in testa per accuratezza, velocità e personalizzazione, mentre le app linguistiche/LMS (ad esempio, Teacher AI al 21,8% positivo) sono in ritardo a causa di instabilità e funzionalità limitate. Gli aspetti positivi enfatizzano l'efficienza nel brainstorming, problem-solving e coinvolgimento; quelli negativi si concentrano su paywall, inesattezze, pubblicità e malfunzionamenti. Le tendenze mostrano che gli assistenti per i compiti superano gli strumenti specializzati, evidenziando il potenziale democratizzante dell'IA tra i rischi di dipendenza e disuguaglianza. La discussione propone futuri ecosistemi con modelli ibridi IA-umana, VR/AR per l'apprendimento immersivo e una roadmap per gli sviluppatori (personalizzazione adattiva) e i policymaker (regolamentazione della monetizzazione per l'inclusività). Ciò sottolinea il ruolo dell'IA generativa nel far progredire l'e-teaching consentendo miglioramenti etici che favoriscono ambienti equi e innovativi. Il dataset completo è disponibile qui (https://github.com/erfan-nourbakhsh/GenAI-EdSent).
Negli ultimi anni, lo stato dell'arte nella segmentazione di istanza video non supervisionata si è basato pesantemente su dati video sintetici, generati da dataset di immagini centrati sugli oggetti come ImageNet. Tuttavia, la sintesi video ottenuta spostando e scalando artificialmente le maschere di istanza delle immagini non riesce a modellare accuratamente il movimento realistico nei video, come i cambiamenti di prospettiva, il movimento di parti di una o più istanze, o il movimento della telecamera. Per affrontare questo problema, proponiamo un modello di segmentazione di istanza video non supervisionato addestrato esclusivamente su dati video reali. Partiamo da maschere di segmentazione di istanza non supervisionate su singoli fotogrammi video. Tuttavia, queste segmentazioni a fotogramma singolo presentano rumore temporale e la loro qualità varia lungo il video. Pertanto, stabiliamo una coerenza temporale identificando maschere-chiave di alta qualità nel video sfruttando *deep motion priors*. Le pseudo-annotazioni sparse delle maschere-chiave vengono poi utilizzate per addestrare un modello di segmentazione per la propagazione implicita delle maschere, per la quale proponiamo un approccio di Distillazione da Sparso a Denso coadiuvato da una *Temporal DropLoss*. Dopo l'addestramento del modello finale sul set di etichette dense risultante, il nostro approccio supera lo stato dell'arte corrente su varie benchmark.
Il successo del moderno machine learning dipende dall'accesso a dati di addestramento di alta qualità. In molti scenari reali, come l'acquisizione di dati da repository pubblici o la condivisione tra istituzioni, i dati sono naturalmente organizzati in dataset discreti che variano in rilevanza, qualità e utilità. Selezionare quali repository o istituzioni esplorare per trovare dataset utili, e quali dataset incorporare nell'addestramento del modello, sono quindi decisioni critiche. Tuttavia, la maggior parte dei metodi esistenti seleziona singoli campioni e tratta tutti i dati come ugualmente rilevanti, ignorando le differenze tra i dataset e le loro fonti. In questo lavoro, formalizziamo il compito della selezione di dataset: selezionare interi dataset da un ampio pool eterogeneo per migliorare le prestazioni a valle sotto vincoli di risorse. Proponiamo Dataset Selection via Hierarchies (DaSH), un metodo di selezione che modella l'utilità sia a livello di dataset che di gruppo (ad esempio, collezioni, istituzioni), consentendo una generalizzazione efficiente da osservazioni limitate. Su due benchmark pubblici (Digit-Five e DomainNet), DaSH supera i metodi baseline all'avanguardia per la selezione dei dati fino al 26,2% in accuratezza, richiedendo significativamente meno passi di esplorazione. Le ablation study dimostrano che DaSH è robusto in contesti a risorse limitate e in assenza di dataset rilevanti, rendendolo adatto per una selezione di dataset scalabile e adattiva nei flussi di lavoro pratici di apprendimento multi-sorgente.
Questo articolo propone un dataset multimodale su larga scala per la segmentazione video di espressioni di movimento referenziali, concentrandosi sulla segmentazione e sul tracciamento di oggetti target nei video basandosi sulla descrizione linguistica dei movimenti degli oggetti. I dataset esistenti per la segmentazione video referenziale si concentrano spesso su oggetti salienti e utilizzano espressioni linguistiche ricche di attributi statici, potenzialmente permettendo l'identificazione dell'oggetto target in un singolo fotogramma. Tali dataset sottovalutano il ruolo del movimento sia nei video che nel linguaggio. Per esplorare la fattibilità dell'utilizzo di espressioni di movimento e indizi di ragionamento sul movimento per la comprensione video a livello di pixel, introduciamo MeViS, un dataset contenente 33.072 espressioni di movimento annotate manualmente, sia in testo che in audio, che coprono 8.171 oggetti in 2.006 video di scenari complessi. Valutiamo 15 metodi esistenti su 4 task supportati da MeViS, inclusi 6 metodi di segmentazione video di oggetti referenziali (RVOS), 3 metodi di segmentazione video di oggetti guidata da audio (AVOS), 2 metodi di tracciamento multi-oggetto referenziale (RMOT) e 4 metodi di descrizione video per il nuovo task introdotto di generazione di espressioni di movimento referenziali (RMEG). I risultati dimostrano le carenze e le limitazioni dei metodi esistenti nell'affrontare la comprensione video guidata da espressioni di movimento. Analizziamo ulteriormente le sfide e proponiamo un approccio, LMPM++, per RVOS/AVOS/RMOT che raggiunge nuovi risultati state-of-the-art. Il nostro dataset fornisce una piattaforma che facilita lo sviluppo di algoritmi di comprensione video guidata da espressioni di movimento in scene video complesse. Il dataset MeViS proposto e il codice sorgente del metodo sono pubblicamente disponibili all'indirizzo https://henghuiding.com/MeViS/.
I modelli visione-linguaggio su larga scala (VLM) mostrano impressionanti capacità di ragionamento complesso, ma rimangono in gran parte inesplorati nella pianificazione sequenziale visiva, ovvero nell'esecuzione di azioni multi-step finalizzate a un obiettivo. Inoltre, la pianificazione sequenziale pratica spesso coinvolge step non ottimali (errati), mettendo alla prova i VLM nel rilevare e correggere tali passaggi. Proponiamo il benchmark Corrective Sequential Planning (CoSPlan) per valutare i VLM in compiti di pianificazione sequenziale basati sulla visione e soggetti a errori, attraverso 4 domini: navigazione in labirinto, riarrangiamento di blocchi, ricostruzione di immagini e riorganizzazione di oggetti. CoSPlan valuta due abilità chiave: Rilevamento Errori (identificare un'azione non ottimale) e Completamento Step (correggere e completare le sequenze di azioni per raggiungere l'obiettivo). Nonostante l'uso di tecniche di ragionamento all'avanguardia come Chain-of-Thought e Scene Graph, i VLM (ad es. Intern-VLM e Qwen2) mostrano difficoltà su CoSPlan, fallendo nel sfruttare gli indizi contestuali per raggiungere gli obiettivi. Per affrontare questo problema, proponiamo un nuovo metodo senza addestramento, Scene Graph Incremental updates (SGI), che introduce passaggi di ragionamento intermedi tra lo stato iniziale e quello obiettivo. SGI aiuta i VLM a ragionare sulle sequenze, producendo un miglioramento prestazionale medio del 5.2%. Oltre a potenziare l'affidabilità nella pianificazione sequenziale correttiva, SGI generalizza a compiti di pianificazione tradizionali come Plan-Bench e VQA.
La generazione video da testo (Text-to-video, T2V) ha compiuto rapidi progressi, ma mantenere identità dei personaggi consistenti tra le diverse scene rimane una sfida importante. I metodi di personalizzazione esistenti si concentrano spesso sull'identità facciale ma non riescono a preservare gli indizi contestuali più ampi come l'acconciatura, l'abbigliamento e la corporatura, che sono critici per la coerenza visiva. Proponiamo ContextAnyone, un framework di diffusione context-aware che genera video con personaggi consistenti a partire da un testo e una singola immagine di riferimento. Il nostro metodo ricostruisce congiuntamente l'immagine di riferimento e genera nuovi fotogrammi video, consentendo al modello di percepire e utilizzare appieno le informazioni di riferimento. Le informazioni di riferimento vengono integrate efficacemente in un backbone di diffusione basato su DiT attraverso un nuovo modulo Emphasize-Attention che rinforza selettivamente le feature consapevoli del riferimento e previene la deriva dell'identità tra i fotogrammi. Una funzione di loss a doppia guida combina gli obiettivi di diffusione e di ricostruzione del riferimento per migliorare la fedeltà dell'aspetto, mentre il proposto posizionale Gap-RoPE separa i token di riferimento e video per stabilizzare la modellazione temporale. Gli esperimenti dimostrano che ContextAnyone supera i metodi reference-to-video esistenti in termini di consistenza dell'identità e qualità visiva, generando video di personaggi coerenti e che preservano il contesto attraverso movimenti e scene diversificate. Pagina del progetto: https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.