Articoli di ricerca IA selezionati quotidianamente con traduzioni
La memoria è emersa, e continuerà a rimanere, una capacità fondamentale degli agenti basati su modelli fondazionali. Mentre la ricerca sulla memoria degli agenti si espande rapidamente e attira un'attenzione senza precedenti, il campo è diventato anche sempre più frammentato. I lavori esistenti che rientrano nell'ambito della memoria degli agenti spesso differiscono sostanzialmente per motivazioni, implementazioni e protocolli di valutazione, mentre la proliferazione di terminologie legate alla memoria definite in modo approssimativo ha ulteriormente offuscato la chiarezza concettuale. Tassonomie tradizionali come memoria a lungo/breve termine si sono rivelate insufficienti per catturare la diversità dei sistemi di memoria degli agenti contemporanei. Questo lavoro mira a fornire una panoramica aggiornata dell'attuale ricerca sulla memoria degli agenti. Iniziamo delineando chiaramente l'ambito della memoria degli agenti e distinguendola da concetti correlati come la memoria degli LLM, la Retrieval Augmented Generation (RAG) e l'ingegneria del contesto. Esaminiamo quindi la memoria degli agenti attraverso le lenti unificate di forme, funzioni e dinamiche. Dal punto di vista delle forme, identifichiamo tre realizzazioni dominanti della memoria degli agenti, ovvero memoria a livello di token, parametrica e latente. Dal punto di vista delle funzioni, proponiamo una tassonomia più granulare che distingue tra memoria fattuale, esperienziale e di lavoro. Dal punto di vista delle dinamiche, analizziamo come la memoria si formi, si evolva e venga recuperata nel tempo. Per supportare lo sviluppo pratico, compiliamo una raccolta completa di benchmark per la memoria e framework open-source. Oltre al consolidamento, articoliamo una prospettiva lungimirante sulle frontiere di ricerca emergenti, inclusi l'automazione della memoria, l'integrazione con l'apprendimento per rinforzo, la memoria multimodale, la memoria multi-agente e le questioni relative all'affidabilità. Speriamo che questo survey serva non solo come riferimento per il lavoro esistente, ma anche come fondamento concettuale per ripensare la memoria come un primitivo di prima classe nella progettazione della futura intelligenza agentiva.
Introduciamo QwenLong-L1.5, un modello che raggiunge capacità di ragionamento su contesti lunghi superiori attraverso innovazioni sistematiche nel post-addestramento. Le principali innovazioni tecniche di QwenLong-L1.5 sono le seguenti: (1) *Pipeline di Sintesi di Dati per Contesti Lunghi*: Abbiamo sviluppato un framework di sintesi sistematico che genera compiti di ragionamento complessi che richiedono un ancoraggio multi-hop su evidenze distribuite globalmente. Scomponendo i documenti in fatti atomici e le loro relazioni sottostanti, e componendo poi programmaticamente domande di ragionamento verificabili, il nostro approccio crea dati di addestramento di alta qualità su larga scala, andando sostanzialmente oltre i semplici compiti di recupero dell'informazione per abilitare genuine capacità di ragionamento a lungo raggio. (2) *Apprendimento per Rinforzo Stabilizzato per l'Addestramento su Contesti Lunghi*: Per superare l'instabilità critica nell'RL per contesti lunghi, introduciamo un campionamento bilanciato per task con stima del vantaggio specifica per task per mitigare il bias della ricompensa, e proponiamo un'Optimizzazione della Politica con Controllo Entropico Adattivo (AEPO) che regola dinamicamente i compromessi esplorazione-sfruttamento. (3) *Architettura Potenziata con Memoria per Contesti Ultra-Lunghi*: Riconoscendo che persino finestre di contesto estese non possono accomodare sequenze arbitrariamente lunghe, sviluppiamo un framework di gestione della memoria con addestramento RL a fusione multi-stadio che integra perfettamente il ragionamento single-pass con l'elaborazione iterativa basata su memoria per compiti che superano i 4 milioni di token. Basandosi su Qwen3-30B-A3B-Thinking, QwenLong-L1.5 raggiunge prestazioni paragonabili a GPT-5 e Gemini-2.5-Pro sui benchmark di ragionamento su contesti lunghi, superando la sua baseline di 9,90 punti in media. Su compiti ultra-lunghi (1M~4M token), il framework agente-memoria di QwenLong-L1.5 produce un guadagno di 9,48 punti rispetto alla baseline agente. Inoltre, la capacità di ragionamento su contesti lunghi acquisita si traduce in prestazioni potenziate in domini generali come il ragionamento scientifico, l'uso di strumenti di memoria e i dialoghi estesi.
La qualità dello spazio latente nei tokenizzatori visivi (ad esempio, i VAE) è cruciale per i moderni modelli generativi. Tuttavia, il paradigma di addestramento standard basato sulla ricostruzione produce uno spazio latente distorto verso informazioni di basso livello, portando a un difetto di fondo: una migliore accuratezza a livello di pixel non si traduce in una generazione di qualità superiore. Ciò implica che investire massicce risorse computazionali nel pre-addestramento del tokenizzatore visivo si traduce scarsamente in prestazioni migliorate nella generazione. Identifichiamo questo come il "problema di scalabilità del pre-addestramento" e suggeriamo un cambiamento necessario: per essere efficace nella generazione, uno spazio latente deve rappresentare in modo conciso la semantica di alto livello. Presentiamo VTP, un framework unificato per il pre-addestramento di tokenizzatori visivi, pionieristico nell'ottimizzazione congiunta delle loss di contrasto immagine-testo, self-supervised e di ricostruzione. Il nostro studio su larga scala rivela due risultati principali: (1) la comprensione è un fattore chiave per la generazione, e (2) proprietà di scalabilità di gran lunga migliori, dove le prestazioni generative scalano efficacemente con il calcolo, i parametri e i dati allocati per il pre-addestramento del tokenizzatore visivo. Dopo un pre-addestramento su larga scala, il nostro tokenizzatore fornisce un profilo competitivo (78.2% di accuratezza zero-shot e 0.36 rFID su ImageNet) e un convergenza nella generazione 4.1 volte più veloce rispetto ai metodi avanzati di distillazione. Ancora più importante, scala efficacemente: senza modificare le specifiche standard dell'addestramento DiT, investire solo più FLOPS nel pre-addestramento di VTP raggiunge un miglioramento del FID del 65.8% nella generazione downstream, mentre un autoencoder convenzionale ristagna molto precocemente a 1/10 dei FLOPS. I nostri modelli pre-addestrati sono disponibili su https://github.com/MiniMax-AI/VTP.
I modelli autoregressivi (ARM) sono ostacolati da un'inferenza sequenziale lenta. Sebbene i modelli di diffusione mascherati (MDM) offrano un'alternativa parallela, soffrono di svantaggi critici: elevato sovraccarico computazionale dovuto all'impossibilità di utilizzare la cache Key-Value (KV) e generazione incoerente derivante dall'apprendimento di dipendenze su uno spazio intrattabile di combinazioni di token. Per affrontare queste limitazioni, introduciamo ReFusion, un nuovo modello di diffusione mascherato che raggiunge prestazioni ed efficienza superiori elevando la decodifica parallela dal livello del token a un livello di *slot* superiore, dove ogni slot è una sottosequenza contigua di lunghezza fissa. Ciò è ottenuto attraverso un processo di decodifica iterativo "plan-and-infill" (pianifica e riempi): un passo di pianificazione basato su diffusione identifica prima un insieme di slot debolmente dipendenti, e un passo di riempimento autoregressivo decodifica poi questi slot selezionati in parallelo. Il design basato sug slot sblocca simultaneamente il riutilizzo completo della cache KV con un framework causale unificato e riduce la complessità di apprendimento dallo spazio delle combinazioni di token a uno spazio gestibile di permutazioni a livello di slot. Esperimenti estesi su sette benchmark diversi mostrano che ReFusion non solo supera nettamente i precedenti MDM con un guadagno prestazionale del 34% e una velocizzazione media di oltre 18 volte, ma colma anche il divario prestazionale con gli ARM forti mantenendo una velocizzazione media di 2.33 volte.
La costruzione di modelli di mondo video su sistemi di generazione video pre-addestrati rappresenta un passo importante ma impegnativo verso un’intelligenza spaziotemporale generale. Un modello di mondo dovrebbe possedere tre proprietà essenziali: controllabilità, qualità visiva a lungo termine e coerenza temporale. A tal fine, adottiamo un approccio progressivo, migliorando prima la controllabilità e poi estendendoci verso una generazione di alta qualità e a lungo termine. Presentiamo LongVie 2, un framework autoregressivo end-to-end addestrato in tre fasi: (1) Guida multi-modale, che integra segnali di controllo densi e sparsi per fornire una supervisione implicita a livello di mondo e migliorare la controllabilità; (2) Addestramento consapevole del degrado sul frame di input, colmando il divario tra addestramento e inferenza a lungo termine per mantenere un’alta qualità visiva; e (3) Guida contestuale storica, che allinea le informazioni contestuali tra clip adiacenti per garantire la coerenza temporale. Introduciamo inoltre LongVGenBench, un benchmark completo che comprende 100 video ad alta risoluzione della durata di un minuto, coprendo ambienti reali e sintetici diversificati. Esperimenti estensivi dimostrano che LongVie 2 raggiunge prestazioni all’avanguardia nella controllabilità a lungo raggio, nella coerenza temporale e nella fedeltà visiva, e supporta una generazione video continua della durata fino a cinque minuti, segnando un passo significativo verso una modellazione unificata del mondo video.
Introduciamo un benchmark finanziario e contabile (Finch) per valutare agenti di intelligenza artificiale su flussi di lavoro professionali reali di livello enterprise – che integrano inserimento dati, strutturazione, formattazione, ricerca web, recupero interfile, calcolo, modellizzazione, validazione, traduzione, visualizzazione e reporting. Finch è ricavato da ambienti di lavoro aziendali autentici di Enron (15.000 fogli di calcolo e 500.000 email di 150 dipendenti) e di altre istituzioni finanziarie, preservando la disorganizzazione tipica del mondo reale attraverso artefatti multimodali (testo, tabelle, formule, grafici, codice e immagini) e coprendo domini diversi come budgeting, trading e gestione patrimoniale. Proponiamo un processo di costruzione dei flussi di lavoro che combina scoperta assistita da LLM con annotazione esperta: (1) derivazione di flussi di lavoro da thread email reali e cronologie delle versioni di file di fogli di calcolo, assistita da LLM e verificata da esperti, e (2) meticolosa annotazione esperta dei flussi di lavoro, che ha richiesto oltre 700 ore di lavoro da parte di esperti di dominio. Questo processo ha prodotto 172 flussi di lavoro compositi con 384 task, coinvolgendo 1.710 fogli di calcolo con 27 milioni di celle, insieme a PDF e altri artefatti, catturando la natura intrinsecamente disordinata, a lungo termine, knowledge-intensive e collaborativa del lavoro aziendale reale. Sono state condotte valutazioni sia umane che automatizzate di sistemi di IA all'avanguardia, inclusi GPT 5.1, Claude Sonnet 4.5, Gemini 3 Pro, Grok 4 e Qwen 3 Max. GPT 5.1 Pro impiega 48 ore in totale ma supera solo il 38,4% dei flussi di lavoro, mentre Claude Sonnet 4.5 ne supera appena il 25,0%. Casi di studio completi evidenziano ulteriormente le sfide che i flussi di lavoro aziendali reali pongono agli agenti di IA.
I recenti progressi negli agenti di programmazione suggeriscono rapidi passi avanti verso lo sviluppo software autonomo, eppure i benchmark esistenti non riescono a valutare rigorosamente le capacità a lungo termine necessarie per costruire sistemi software completi. La maggior parte delle valutazioni precedenti si concentra sulla generazione di codice localizzato, sul completamento guidato o su compiti di riparazione a breve termine, lasciando aperta la questione se gli agenti possano sostenere ragionamenti, pianificazione ed esecuzione coerenti sugli orizzonti estesi richiesti dalla costruzione di repository nel mondo reale. Per colmare questa lacuna, presentiamo NL2Repo Bench, un benchmark progettato esplicitamente per valutare la capacità di generazione di repository a lungo termine degli agenti di programmazione. Dato solo un singolo documento di specifiche in linguaggio naturale e un'area di lavoro vuota, gli agenti devono progettare autonomamente l'architettura, gestire le dipendenze, implementare logiche multi-modulo e produrre una libreria Python completamente installabile. I nostri esperimenti condotti sui modelli open-source e proprietari più all'avanguardia rivelano che la generazione di repository a lungo termine rimane in gran parte irrisolta: anche gli agenti più potenti raggiungono tassi di successo medi inferiori al 40% e raramente completano correttamente un intero repository. Un'analisi dettagliata mette in luce modalità fondamentali di fallimento a lungo termine, tra cui terminazione prematura, perdita di coerenza globale, dipendenze cross-file fragili e pianificazione inadeguata su centinaia di passi di interazione. NL2Repo Bench stabilisce un banco di prova rigoroso e verificabile per misurare la competenza agentica sostenuta e evidenzia il ragionamento a lungo termine come un collo di bottiglia centrale per la prossima generazione di agenti di programmazione autonomi.
I modelli di generazione video avatar hanno compiuto progressi notevoli negli ultimi anni. Tuttavia, i lavori precedenti mostrano un'efficienza limitata nella generazione di video ad alta risoluzione di lunga durata, soffrendo di deriva temporale, degradazione della qualità e un debole adeguamento ai prompt all'aumentare della lunghezza del video. Per affrontare queste sfide, proponiamo KlingAvatar 2.0, un framework a cascata spazio-temporale che esegue un upscaling sia nella risoluzione spaziale che nella dimensione temporale. Il framework genera prima keyframe video blueprint a bassa risoluzione che catturano la semantica globale e il movimento, per poi affinarli in sottoclip ad alta risoluzione e temporalmente coerenti utilizzando una strategia dei frame iniziale-finale, mantenendo al contempo transizioni temporali fluide in video di lunga durata. Per potenziare la fusione e l'allineamento delle istruzioni cross-modale in video estesi, introduciamo un Direttore di Co-Ragionamento (Co-Reasoning Director) composto da tre esperti LLM (Large Language Model) specifici per modalità. Questi esperti ragionano sulle priorità delle modalità e inferiscono l'intento sottostante dell'utente, convertendo gli input in trame narrative dettagliate attraverso dialoghi multi-turno. Un Direttore Negativo (Negative Director) affina ulteriormente i prompt negativi per migliorare l'allineamento alle istruzioni. Basandosi su questi componenti, estendiamo il framework per supportare il controllo multi-personaggio specifico per ID. Esperimenti estensivi dimostrano che il nostro modello affronta efficacemente le sfide della generazione efficiente di video lunghi e ad alta risoluzione con allineamento multimodale, offrendo una chiarezza visiva migliorata, un rendering realistico di labbra e denti con una precisa sincronizzazione labiale, una forte preservazione dell'identità e un coerente adeguamento alle istruzioni multimodali.
L'attenzione a tempo lineare e i Modelli Spaziali di Stato (SSM) promettono di risolvere il collo di bottiglia del costo quadratico nei modelli linguistici a contesto lungo che impiegano l'attenzione softmax. Introduciamo Error-Free Linear Attention (EFLA), una formulazione numericamente stabile, completamente parallelizzabile e generalizzata della delta rule. Nello specifico, formuliamo l'aggiornamento dell'apprendimento online come un sistema dinamico a tempo continuo e dimostriamo che la sua soluzione esatta non solo è ottenibile ma anche calcolabile in tempo lineare con piena parallelizzazione. Sfruttando la struttura di rango-1 della matrice delle dinamiche, deriviamo direttamente la soluzione esatta in forma chiusa, che corrisponde efficacemente al metodo di Runge-Kutta di ordine infinito. Questo meccanismo di attenzione è teoricamente privo di accumulo di errori, catturando perfettamente le dinamiche continue preservando al contempo la complessità temporale lineare. Attraverso un'ampia serie di esperimenti, dimostriamo che EFLA consente prestazioni robuste in ambienti rumorosi, raggiungendo una minore perplexity nel modeling linguistico e prestazioni superiori sui benchmark downstream rispetto a DeltaNet, senza introdurre parametri aggiuntivi. Il nostro lavoro fornisce una nuova base teorica per la costruzione di modelli di attenzione a tempo lineare ad alta fedeltà e scalabili.
I disturbi della salute mentale colpiscono centinaia di milioni di persone a livello globale, e il Web rappresenta ormai un mezzo primario per accedere a supporto, informazioni e valutazioni. I grandi modelli linguistici (LLM) offrono un'assistenza scalabile e accessibile, ma il loro dispiegamento in contesti di salute mentale rimane rischioso quando il loro ragionamento è incompleto, incoerente o non fondato. Gli attuali LLM psicologici enfatizzano la comprensione emotiva o il richiamo di conoscenze, ma trascurano il ragionamento graduale e clinicamente allineato necessario per la valutazione, la diagnosi, la pianificazione degli interventi, l'astrazione e la verifica. Per affrontare questi problemi, introduciamo MentraSuite, un framework unificato per far progredire un ragionamento affidabile in salute mentale. Proponiamo MentraBench, un benchmark completo che abbraccia cinque aspetti fondamentali del ragionamento, sei compiti e 13 dataset, valutando sia le prestazioni nel compito che la qualità del ragionamento lungo cinque dimensioni: concisione, coerenza, evitamento di allucinazioni, comprensione del compito e coerenza interna. Presentiamo inoltre Mindora, un modello addestrato in post-processing ottimizzato attraverso un framework ibrido SFT-RL con una ricompensa per il rilevamento di incoerenze, per imporre un ragionamento fedele e coerente. Per supportare l'addestramento, costruiamo traiettorie di alta qualità utilizzando una nuova strategia di generazione di traiettorie di ragionamento, che filtra strategicamente i campioni difficili e applica un processo strutturato di riscrittura orientato alla coerenza per produrre traiettorie concise, leggibili e ben bilanciate. Tra i 20 LLM valutati, Mindora raggiunge le prestazioni medie più elevate su MentraBench e mostra risultati notevoli in termini di affidabilità del ragionamento, dimostrando la sua efficacia per scenari complessi di salute mentale.
La BEHAVIOR Challenge 2025 è concepita per monitorare rigorosamente i progressi nella risoluzione di compiti a lungo termine da parte di agenti fisici in ambienti simulati. BEHAVIOR-1K si concentra sulle attività domestiche quotidiane per le quali le persone desiderano maggiormente l'assistenza dei robot; questi compiti presentano sfide di manipolazione mobile a lungo orizzonte in contesti realistici, colmando il divario tra la ricerca attuale e le applicazioni reali incentrate sull'uomo. Questo rapporto presenta la nostra soluzione per la BEHAVIOR Challenge 2025, che si è classificata al 2º posto per un soffio e ha superato sostanzialmente tutte le altre proposte. Basandoci su π_{0.5}, ci siamo concentrati sulla costruzione sistematica della nostra soluzione studiando gli effetti delle tecniche di addestramento e dei dati. Attraverso attente ablazioni, dimostriamo il potere di scalabilità nelle fasi di pre-addestramento e post-addestramento per ottenere prestazioni competitive. Riassumiamo le lezioni pratiche e le raccomandazioni progettuali che speriamo possano offrire spunti operativi alla più ampia comunità dell'AI incarnata quando si adattano potenti modelli di base a scenari incarnati complessi.
I modelli Vision-Language-Action (VLA) forniscono un paradigma promettente per l'apprendimento robotico integrando la percezione visiva con l'apprendimento di politiche guidato dal linguaggio. Tuttavia, la maggior parte degli approcci esistenti si basa su input visivi 2D per eseguire azioni in ambienti fisici 3D, creando un divario significativo tra la percezione e il grounding delle azioni. Per colmare questa lacuna, proponiamo un paradigma di Pre-addestramento VLA con Consapevolezza Spaziale che esegue un allineamento esplicito tra spazio visivo e spazio fisico durante il pre-addestramento, consentendo ai modelli di acquisire una comprensione spaziale 3D prima dell'apprendimento delle politiche robotiche. Partendo da modelli vision-linguaggio pre-addestrati, sfruttiamo video su larga scala di dimostrazioni umane per estrarre annotazioni visive 3D e di azioni 3D, formando una nuova fonte di supervisione che allinea le osservazioni visive 2D con il ragionamento spaziale 3D. Istanziamo questo paradigma con VIPA-VLA, un'architettura a doppio encoder che incorpora un encoder visivo 3D per arricchire le rappresentazioni visive semantiche con caratteristiche consapevoli della terza dimensione. Quando adattato a compiti robotici downstream, VIPA-VLA raggiunge un miglioramento significativo nel grounding tra visione 2D e azione 3D, risultando in politiche robotiche più robuste e generalizzabili.
Gli agenti basati su LLM operano spesso in modo greedy e sequenziale, selezionando azioni unicamente in base all'osservazione corrente senza considerare le conseguenze a lungo termine o percorsi alternativi. Questa mancanza di lungimiranza è particolarmente problematica negli ambienti web, che sono solo parzialmente osservabili - limitati al contenuto visibile nel browser (ad esempio, elementi DOM e dell'interfaccia utente) - dove un singolo passo falso richiede spesso una navigazione complessa e fragile per essere corretto. Senza un meccanismo esplicito di backtracking, gli agenti faticano a correggere errori o esplorare sistematicamente percorsi alternativi. I metodi di ricerca ad albero forniscono un framework strutturato per tale esplorazione, ma gli approcci esistenti mancano di meccanismi per un backtracking sicuro, rendendoli inclini a effetti collaterali indesiderati. Inoltre, presuppongono che tutte le azioni siano reversibili, ignorando la presenza di azioni irreversibili - limitazioni che ne riducono l'efficacia nei compiti web realistici. Per affrontare queste sfide, introduciamo WebOperator, un framework di ricerca ad albero che consente backtracking affidabile ed esplorazione strategica. Il nostro metodo incorpora una strategia di best-first search che classifica le azioni in base sia alle stime di ricompensa che a considerazioni di sicurezza, insieme a un robusto meccanismo di backtracking che verifica la fattibilità dei percorsi già visitati prima di ripercorrerli, prevenendo effetti collaterali indesiderati. Per guidare ulteriormente l'esplorazione, WebOperator genera candidati di azione da contesti di ragionamento multipli e variati per garantire un'esplorazione diversificata e robusta, e successivamente cura un insieme di azioni di alta qualità filtrando le azioni non valide pre-esecuzione e unendo quelle semanticamente equivalenti. I risultati sperimentali su WebArena e WebVoyager dimostrano l'efficacia di WebOperator. Su WebArena, WebOperator raggiunge un tasso di successo state-of-the-art del 54,6% con gpt-4o, sottolineando il vantaggio critico dell'integrazione della lungimiranza strategica con l'esecuzione sicura.
Introduciamo Interactive Intelligence, un nuovo paradigma di umano digitale in grado di espressione allineata alla personalità, interazione adattiva e auto-evoluzione. Per realizzarlo, presentiamo Mio (Multimodal Interactive Omni-Avatar), un framework end-to-end composto da cinque moduli specializzati: Thinker, Talker, Face Animator, Body Animator e Renderer. Questa architettura unificata integra il ragionamento cognitivo con un'embodiment multimodale in tempo reale per abilitare un'interazione fluida e coerente. Inoltre, stabiliamo un nuovo benchmark per valutare rigorosamente le capacità dell'intelligenza interattiva. Esperimenti estensivi dimostrano che il nostro framework raggiunge prestazioni superiori rispetto ai metodi state-of-the-art in tutte le dimensioni valutate. Complessivamente, questi contributi spostano gli umani digitali oltre la semplice imitazione superficiale verso l'interazione intelligente.
Sebbene i modelli linguistici multimodali di grandi dimensioni (MLLM) abbiano dimostrato capacità notevoli in vari domini, la loro applicazione nella generazione di output di percezione 3D granulare e di previsione per la guida autonoma rimane poco esplorata. In questo articolo, proponiamo DrivePI, un innovativo MLLM 4D con consapevolezza spaziale che funge da framework unificato Visione-Linguaggio-Azione (VLA), compatibile anche con modelli visione-azione (VA). Il nostro metodo esegue congiuntamente e in parallelo, attraverso un'ottimizzazione end-to-end, la comprensione spaziale, la percezione 3D (ovvero, l'occupazione 3D), la previsione (ovvero, il flusso di occupazione) e la pianificazione (ovvero, gli output di azione). Per ottenere sia informazioni geometriche precise che un ricco aspetto visivo, il nostro approccio integra nuvole di punti, immagini multi-vista e istruzioni linguistiche all'interno di un'architettura MLLM unificata. Abbiamo inoltre sviluppato un motore di dati per generare coppie di domande e risposte (QA) testo-occupazione e testo-flusso per la comprensione spaziale 4D. Notevolmente, utilizzando un modello Qwen2.5 da soli 0.5B come backbone MLLM, DrivePI, come singolo modello unificato, eguaglia o supera sia i modelli VLA esistenti che i modelli VA specializzati. Nello specifico, rispetto ai modelli VLA, DrivePI supera OpenDriveVLA-7B del 2.5% in accuratezza media su nuScenes-QA e riduce il tasso di collisione del 70% rispetto a ORION (dallo 0.37% allo 0.11%) su nuScenes. Confrontato con modelli VA specializzati, DrivePI supera FB-OCC di 10.3 RayIoU per l'occupazione 3D su OpenOcc, riduce il mAVE da 0.591 a 0.509 per il flusso di occupazione su OpenOcc, e raggiunge un errore L2 inferiore del 32% rispetto a VAD (da 0.72m a 0.49m) per la pianificazione su nuScenes. Il codice sarà disponibile all'indirizzo https://github.com/happinesslz/DrivePI.
I modelli linguistici visivi (VLMs) eccellono nel compito di risposta a domande visive (VQA) ma rimangono limitati a una visione istantanea, ragionando a partire da immagini statiche. Al contrario, gli agenti embodied richiedono una visione ambulatoria, muovendosi attivamente per ottenere visuali più informative. Introduciamo la Selezione Attiva della Visuale con Base Visiva (VG-AVS), un compito che seleziona il punto di osservazione successivo più informativo utilizzando esclusivamente le informazioni visive nell'immagine corrente, senza fare affidamento su memoria della scena o conoscenze esterne. Per supportare questo compito, costruiamo un dataset sintetico con coppie di visuali query-target e prompt domanda-risposta generate automaticamente. Proponiamo inoltre un framework che effettua il fine-tuning di VLMs pre-addestrati attraverso un fine-tuning supervisionato (SFT) seguito da un'ottimizzazione della policy basata su RL. Il nostro approccio raggiunge solide prestazioni nella risposta a domande basate sulla selezione del punto di vista e si generalizza in modo robusto a scene sintetiche e reali non viste. Inoltre, l'integrazione del nostro framework VG-AVS appreso nei sistemi esistenti di EQA basati sull'esplorazione della scena migliora l'accuratezza nella risposta a domande a valle.
Mentre molti modelli visione-linguaggio (VLM) sono sviluppati per rispondere a domande ben definite e dirette con obiettivi altamente specificati, come nella maggior parte dei benchmark, spesso incontrano difficoltà nella pratica con compiti complessi e aperti, che solitamente richiedono molteplici fasi di esplorazione e ragionamento nello spazio visivo. Tali percorsi di pensiero visivo non solo forniscono un'esplorazione e una verifica passo-passo, similmente a un detective IA, ma producono anche interpretazioni migliori delle risposte finali. Tuttavia, questi percorsi sono impegnativi da valutare a causa del vasto spazio di esplorazione dei passaggi intermedi. Per colmare questa lacuna, abbiamo sviluppato una suite di valutazione, ``Visual Reasoning with multi-step EXploration (V-REX)'', che è composta da un benchmark di compiti complessi di ragionamento visivo che richiedono un'esplorazione intrinsecamente multi-step e da un protocollo di valutazione. V-REX copre ricchi scenari applicativi in diversi domini. V-REX incanala il ragionamento esplorativo multi-step in una Catena di Domande (Chain-of-Questions, CoQ) e distingue la capacità dei VLM di: (1) Pianificazione: scomporre un compito aperto selezionando una catena di domande esplorative; e (2) Esecuzione: rispondere a una CoQ predisposta in sequenza per raccogliere informazioni utili a derivare la risposta finale. Curando opzioni finite di domande e risposte per ogni passo, V-REX ottiene un'analisi quantitativa affidabile e granulare dei passaggi intermedi. Valutando VLM proprietari e open-source allo stato dell'arte, riveliamo trend di scaling consistenti, differenze significative tra le abilità di pianificazione e esecuzione, e un margine di miglioramento sostanziale nel ragionamento esplorativo multi-step.
I modelli di diffusione possono riprodurre involontariamente esempi di addestramento, sollevando preoccupazioni relative alla privacy e al copyright man mano che questi sistemi vengono implementati su larga scala. I metodi di mitigazione esistenti applicati durante l'inferenza tipicamente manipolano la guida senza classificatore (CFG) o perturbano gli embedding dei prompt; tuttavia, spesso faticano a ridurre la memorizzazione senza compromettere l'allineamento con il prompt condizionante. Introduciamo CAPTAIN, un framework che non richiede addestramento e mitiga la memorizzazione modificando direttamente le feature latenti durante il processo di denoising. CAPTAIN applica innanzitutto un'inizializzazione del rumore basata sulla frequenza per ridurre la tendenza a replicare pattern memorizzati nelle fasi iniziali del denoising. Identifica poi i timestep di denoising ottimali per l'iniezione di feature e localizza le regioni memorizzate. Infine, CAPTAIN inietta feature semanticamente allineate da immagini di riferimento non memorizzate nelle regioni latenti localizzate, sopprimendo la memorizzazione mentre preserva la fedeltà al prompt e la qualità visiva. I nostri esperimenti dimostrano che CAPTAIN raggiunge riduzioni sostanziali della memorizzazione rispetto ai baseline basati su CFG, mantenendo al contempo un forte allineamento con il prompt inteso.
I modelli Vision-Language-Action (VLA) hanno dimostrato capacità notevoli nel generalizzare su una vasta gamma di compiti di manipolazione robotica. Tuttavia, la loro implementazione in ambienti non strutturati rimane una sfida a causa della necessità critica di garantire simultaneamente la conformità al compito e la sicurezza, in particolare nel prevenire potenziali collisioni durante le interazioni fisiche. In questo lavoro, introduciamo un'architettura Vision-Language-Safe Action (VLSA), denominata AEGIS, che include uno strato di vincolo di sicurezza (SC, Safety Constraint) plug-and-play formulato tramite funzioni barriera di controllo. AEGIS si integra direttamente con i modelli VLA esistenti per migliorare la sicurezza con garanzie teoriche, mantenendo al contempo le loro prestazioni originali nel seguire le istruzioni. Per valutare l'efficacia della nostra architettura, abbiamo costruito un benchmark completo per scenari critici per la sicurezza, SafeLIBERO, che copre scenari di manipolazione distinti caratterizzati da diversi gradi di complessità spaziale e intervento di ostacoli. Esperimenti estensivi dimostrano la superiorità del nostro metodo rispetto ai baseline state-of-the-art. In particolare, AEGIS raggiunge un miglioramento del 59,16% nel tasso di evitamento degli ostacoli, aumentando sostanzialmente il tasso di successo dell'esecuzione del compito del 17,25%. Per facilitare la riproducibilità e le ricerche future, rendiamo pubblicamente disponibili il nostro codice, i modelli e i dataset del benchmark all'indirizzo https://vlsa-aegis.github.io/.
L'allineamento delle rappresentazioni (REPA) guida l'addestramento generativo distillando le rappresentazioni da un encoder visivo forte e preaddestrato verso le feature intermedie della diffusione. Investigiamo una questione fondamentale: quale aspetto della rappresentazione target è importante per la generazione, la sua informazione semantica globale (ad esempio, misurata dall'accuratezza su ImageNet-1K) o la sua struttura spaziale (cioè la similarità coseno a coppie tra i token di patch)? La saggezza prevalente sostiene che una migliore performance semantica globale porti a una generazione superiore come rappresentazione target. Per studiarlo, eseguiamo prima un'ampia analisi empirica su 27 diversi encoder visivi e diverse scale di modelli. I risultati sono sorprendenti; la struttura spaziale, più che la performance globale, guida la performance generativa di una rappresentazione target. Per approfondire, introduciamo due modifiche semplici, che accentuano specificamente il trasferimento dell'informazione spaziale. Sostituiamo il layer di proiezione MLP standard in REPA con un semplice layer convoluzionale e introduciamo un layer di normalizzazione spaziale per la rappresentazione esterna. Sorprendentemente, il nostro metodo semplice (implementato in <4 righe di codice), denominato iREPA, migliora consistentemente la velocità di convergenza di REPA, attraverso un insieme variegato di encoder visivi, dimensioni di modelli e varianti di addestramento (come REPA, REPA-E, Meanflow, JiT, ecc.). Il nostro lavoro motiva a riesaminare il meccanismo fondamentale di funzionamento dell'allineamento rappresentazionale e come possa essere sfruttato per un addestramento migliorato dei modelli generativi. Il codice e la pagina del progetto sono disponibili su https://end2end-diffusion.github.io/irepa.
Sebbene un efficace post-addestramento integri l'Affinamento Supervisionato (SFT) e l'Apprendimento per Rinforzo (RL), il meccanismo ottimale per utilizzare le traiettorie esperte rimane irrisolto. Proponiamo il Plasticity-Ceiling Framework per fornire una base teorica a questo panorama, scomponendo la performance in una performance SFT fondamentale e nella successiva plasticità RL. Attraverso un'ampia valutazione comparativa, stabiliamo la pipeline sequenziale SFT-poi-RL come standard superiore, superando i deficit di stabilità degli approcci sincronizzati. Inoltre, deriviamo linee guida precise di scalabilità: (1) La transizione all'RL durante la Sottofase Stabile o di Leggero Overfitting dell'SFT massimizza il limite finale garantendo la performance SFT fondamentale senza compromettere la plasticità RL; (2) Confutando l'idea "Less is More" nel contesto della scalabilità SFT-poi-RL, dimostriamo che la Scala dei Dati determina il potenziale primario del post-addestramento, mentre la Difficoltà della Traiettoria agisce come moltiplicatore di performance; e (3) Identificando che la Perdita di Validazione SFT Minima funge da indicatore robusto per selezionare le traiettorie esperte che massimizzano il limite di performance finale. I nostri risultati forniscono linee guida pratiche per massimizzare il valore estratto dalle traiettorie esperte.
Il lento processo di inferenza dei modelli di diffusione di immagini degrada significativamente l'esperienza utente interattiva. Per affrontare questo problema, introduciamo Diffusion Preview, un nuovo paradigma che utilizza un campionamento rapido a basso numero di passi per generare output preliminari per la valutazione dell'utente, rinviando l'affinamento completo fino a quando l'anteprima non è ritenuta soddisfacente. I metodi di accelerazione esistenti, inclusi i risolutori senza addestramento e la distillazione post-addestramento, faticano a fornire anteprime di alta qualità o a garantire la coerenza tra anteprime e output finali. Proponiamo ConsistencySolver, derivato dai metodi lineari multistep generali, un risolutore addestrabile di ordine elevato e leggero, ottimizzato tramite Apprendimento per Rinforzo, che migliora la qualità e la coerenza dell'anteprima. I risultati sperimentali dimostrano che ConsistencySolver migliora significativamente la qualità della generazione e la coerenza in scenari a basso numero di passi, rendendolo ideale per flussi di lavoro efficienti di tipo "anteprima e affina". In particolare, raggiunge punteggi FID paragonabili a Multistep DPM-Solver utilizzando il 47% in meno di passi, superando allo stesso tempo i baseline di distillazione. Inoltre, studi sugli utenti indicano che il nostro approccio riduce il tempo totale di interazione dell'utente di quasi il 50% mantenendo la qualità della generazione. Il codice è disponibile all'indirizzo https://github.com/G-U-N/consolver.
Un modello di guida consapevole della fisica è essenziale per la pianificazione della guida, la sintesi di dati fuori distribuzione e la valutazione in ciclo chiuso. Tuttavia, i metodi esistenti spesso si basano su un singolo modello di diffusione per mappare direttamente le azioni di guida in video, rendendo difficile l'apprendimento e producendo risultati fisicamente inconsistenti. Per superare queste sfide, proponiamo GenieDrive, un nuovo framework progettato per la generazione di video di guida fisicamente consapevoli. Il nostro approccio inizia generando un'occupazione 4D, che funge da base informata dalla fisica per la successiva generazione video. L'occupazione 4D contiene ricche informazioni fisiche, incluse strutture 3D ad alta risoluzione e dinamiche. Per facilitare una compressione efficace di tali occupazioni ad alta risoluzione, proponiamo un VAE che codifica l'occupazione in una rappresentazione latente tri-piano, riducendo la dimensione latente a solo il 58% rispetto ai metodi precedenti. Introduciamo inoltre l'Attention di Controllo Reciproco (MCA) per modellare accuratamente l'influenza del controllo sull'evoluzione dell'occupazione, e addestriamo congiuntamente il VAE e il modulo di previsione successivo in modalità end-to-end per massimizzare l'accuratezza predittiva. Insieme, questi progetti producono un miglioramento del 7.2% nel mIoU predittivo a una velocità di inferenza di 41 FPS, utilizzando solo 3.47 M di parametri. Inoltre, viene introdotta una Normalized Multi-View Attention nel modello di generazione video per generare video di guida multi-vista con la guida della nostra occupazione 4D, migliorando significativamente la qualità video con una riduzione del 20.7% nell'FVD. Gli esperimenti dimostrano che GenieDrive consente una generazione di video di guida altamente controllabile, multi-vista coerente e fisicamente consapevole.
L'allineamento eccessivo dei modelli di generazione di immagini a una preferenza estetica generalizzata entra in conflitto con l'intento dell'utente, in particolare quando vengono richiesti output "anti-estetici" per scopi artistici o critici. Questa aderenza privilegia valori centrati sullo sviluppatore, compromettendo l'autonomia dell'utente e il pluralismo estetico. Testiamo questo pregiudizio costruendo un dataset estetico a largo spettro e valutando modelli all'avanguardia per la generazione e la ricompensa. Scopriamo che i modelli di generazione allineati all'estetica ricadono frequentemente in output convenzionalmente belli, non riuscendo a rispettare le istruzioni per immagini di bassa qualità o negative. Crucialmente, i modelli di ricompensa penalizzano le immagini anti-estetiche anche quando corrispondono perfettamente al prompt esplicito dell'utente. Confermiamo questo bias sistemico attraverso l'editing immagine-immagine e la valutazione rispetto a opere d'arte astratte reali.
Le moderne architetture neurali per l'elaborazione di nuvole di punti 3D contengono sia strati convoluzionali che blocchi di attenzione, ma il modo migliore per assemblarli rimane poco chiaro. Analizziamo il ruolo dei diversi blocchi computazionali nelle reti per nuvole di punti 3D e troviamo un comportamento intuitivo: la convoluzione è adeguata per estrarre geometria di basso livello ad alta risoluzione negli strati iniziali, dove l'attenzione è costosa senza apportare benefici; l'attenzione cattura la semantica di alto livello e il contesto negli strati profondi a bassa risoluzione in modo più efficiente. Guidati da questo principio progettuale, proponiamo una nuova e migliorata backbone per nuvole di punti 3D che utilizza convoluzioni nelle fasi iniziali e passa all'attenzione per gli strati più profondi. Per evitare la perdita di informazioni sul layout spaziale quando si scartano gli strati convoluzionali ridondanti, introduciamo una nuova codifica posizionale 3D, PointROPE, che non richiede addestramento. Il modello LitePT risultante ha 3,6 volte meno parametri, è eseguito 2 volte più velocemente e utilizza 2 volte meno memoria dello state-of-the-art Point Transformer V3, ma comunque lo eguaglia o addirittura lo supera in una serie di attività e dataset. Codice e modelli sono disponibili all'indirizzo: https://github.com/prs-eth/LitePT.
La distillazione per diffusione ha accelerato drasticamente la sintesi di immagini condizionate per classe, ma la sua applicabilità alla generazione testo-immagine (T2I) open-ended rimane poco chiara. Presentiamo il primo studio sistematico che adatta e confronta tecniche di distillazione allo stato dell'arte su un forte modello insegnante T2I, FLUX.1-lite. Inquadrando i metodi esistenti in un framework unificato, identifichiamo i principali ostacoli che emergono nel passaggio da etichette di classe discrete a prompt linguistici in linguaggio libero. Oltre a un'analisi metodologica approfondita, forniamo linee guida pratiche sul ridimensionamento degli input, l'architettura di rete e gli iperparametri, accompagnate da un'implementazione open-source e modelli studente pre-addestrati. I nostri risultati stabiliscono una solida base per l'implementazione di generatori per diffusione veloci, ad alta fedeltà e efficienti nelle risorse in applicazioni T2I del mondo reale. Il codice è disponibile su github.com/alibaba-damo-academy/T2I-Distill.
La generazione Music-to-Video (M2V) per canzoni complete affronta sfide significative. I metodi esistenti producono clip brevi e sconnesse, non riuscendo ad allineare le immagini alla struttura musicale, ai beat o al testo, e mancano di coerenza temporale. Proponiamo AutoMV, un sistema multi-agente che genera video musicali (MV) completi direttamente da una canzone. AutoMV applica prima strumenti di elaborazione musicale per estrarre attributi come la struttura, le tracce vocali e i testi allineati temporalmente, costruendo queste caratteristiche come input contestuale per gli agenti successivi. L'Agente sceneggiatore e l'Agente regista utilizzano queste informazioni per progettare una breve sceneggiatura, definire i profili dei personaggi in una banca condivisa esterna e specificare le istruzioni di ripresa. Successivamente, questi agenti richiamano il generatore di immagini per i fotogrammi chiave e diversi generatori video per le scene "narrative" o del "cantante". Un Agente Verificatore valuta il loro output, consentendo una collaborazione multi-agente per produrre un MV lungo e coerente. Per valutare la generazione M2V, proponiamo inoltre un benchmark con quattro categorie di alto livello (Contenuto Musicale, Tecnica, Post-produzione, Artistico) e dodici criteri granulari. Questo benchmark è stato applicato per confrontare prodotti commerciali, AutoMV e MV diretti da umani con valutatori umani esperti: AutoMV supera significativamente le baseline attuali in tutte e quattro le categorie, riducendo il divario con i MV professionali. Infine, investigiamo l'uso di grandi modelli multimodali come giudici automatici di MV; sebbene promettenti, sono ancora inferiori agli esperti umani, evidenziando margine per futuri lavori.
I tokenizzatori visivi svolgono un ruolo cruciale nei modelli di diffusione. La dimensionalità dello spazio latente governa sia la fedeltà di ricostruzione che l'espressività semantica della caratteristica latente. Tuttavia, è insito un compromesso fondamentale tra dimensionalità e qualità della generazione, che costringe i metodi esistenti a spazi latenti a bassa dimensionalità. Sebbene lavori recenti abbiano sfruttato modelli fondazione visivi per arricchire la semantica dei tokenizzatori visivi e accelerare la convergenza, i tokenizzatori ad alta dimensionalità continuano a ottenere prestazioni inferiori rispetto alle loro controparti a bassa dimensionalità. In questo lavoro, proponiamo RecTok, che supera i limiti dei tokenizzatori visivi ad alta dimensionalità attraverso due innovazioni chiave: la distillazione semantica di flusso e la distillazione allineamento-ricostruzione. La nostra intuizione chiave è rendere semanticamente ricco il flusso in avanti nel flow matching, che funge da spazio di addestramento per i transformer di diffusione, piuttosto che concentrarsi sullo spazio latente come nei lavori precedenti. Nello specifico, il nostro metodo distilla le informazioni semantiche dei VFM nelle traiettorie di flusso in avanti nel flow matching. E miglioriamo ulteriormente la semantica introducendo una perdita di ricostruzione delle caratteristiche mascherate. Il nostro RecTok raggiunge una ricostruzione dell'immagine, una qualità di generazione e prestazioni discriminative superiori. Ottiene risultati all'avanguardia sul gFID-50K sia in configurazioni con che senza guida classifier-free, mantenendo al contempo una struttura dello spazio latente semanticamente ricca. Inoltre, all'aumentare della dimensionalità latente, osserviamo miglioramenti consistenti. Codice e modello sono disponibili su https://shi-qingyu.github.io/rectok.github.io.
I Large Language Model (LLM) possono generare token di ragionamento prima della risposta finale per migliorare le prestazioni su compiti complessi. Sebbene queste sequenze possano apparire simili a processi di pensiero umani, evidenze empiriche rivelano che non costituiscono una spiegazione fedele del processo di ragionamento effettivo del modello. Per colmare questa distanza tra apparenza e funzione, introduciamo il framework concettuale Stato sui Token (SoT). SoT ridefinisce i token di ragionamento non come una narrazione linguistica, ma come uno stato computazionale esternalizzato – l'unico vettore di informazione persistente attraverso i cicli di generazione senza stato del modello. Ciò spiega come i token possano guidare un ragionamento corretto senza essere una spiegazione fedele se letti come testo, e mette in luce questioni di ricerca precedentemente trascurate su questi token. Sosteniamo che per comprendere veramente il processo attuato dagli LLM, la ricerca deve andare oltre la lettura dei token di ragionamento come testo e concentrarsi sulla loro decodifica come stato.
La generalizzazione rimane la sfida centrale per la generazione interattiva di scene 3D. Gli approcci esistenti basati sull'apprendimento fondano la comprensione spaziale su dataset di scene limitati, limitando la generalizzazione a nuovi layout. Noi, invece, riprogrammiamo un generatore di istanze 3D pre-addestrato per fungere da learner a livello di scena, sostituendo la supervisione vincolata al dataset con una supervisione spaziale centrata sul modello. Questa riprogrammazione sblocca la conoscenza spaziale trasferibile del generatore, consentendo la generalizzazione a layout non visti e a nuove composizioni di oggetti. Notevolmente, il ragionamento spaziale emerge anche quando le scene di addestramento sono composte da oggetti casuali. Ciò dimostra che il prior di scena trasferibile del generatore fornisce un segnale di apprendimento ricco per inferire prossimità, supporto e simmetria da indizi puramente geometrici. Sostituendo l'ampia-mente utilizzato spazio canonico, istanziamo questa intuizione con una formulazione vista-centrica dello spazio della scena, ottenendo un generatore di scene completamente feed-forward e generalizzabile che apprende le relazioni spaziali direttamente dal modello di istanza. I risultati quantitativi e qualitativi mostrano che un generatore di istanze 3D è un learner e ragionatore spaziale implicito, indicando la strada verso modelli di fondazione per la comprensione e generazione interattiva di scene 3D. Pagina del progetto: https://luling06.github.io/I-Scene-project/
Presentiamo Flowception, un innovativo framework di generazione video non autoregressivo e a lunghezza variabile. Flowception apprende un percorso probabilistico che intercala inserimenti discreti di frame con operazioni di denoising continuo dei frame. Rispetto ai metodi autoregressivi, Flowception mitiga l'accumulo e la deriva dell'errore, poiché il meccanismo di inserimento frame durante il campionamento funge da efficiente meccanismo di compressione per gestire il contesto a lungo termine. Rispetto ai flussi a sequenza completa, il nostro metodo riduce i FLOP per l'addestramento di tre volte, risultando al contempo più adatto a varianti di attenzione locale e consentendo di apprendere congiuntamente la lunghezza dei video e il loro contenuto. I risultati sperimentali quantitativi mostrano metriche FVD e VBench migliorate rispetto ai baseline autoregressivi e a sequenza completa, il che è ulteriormente validato da risultati qualitativi. Infine, apprendendo come inserire e applicare il denoising ai frame in una sequenza, Flowception integra perfettamente diverse attività come la generazione da immagine a video e l'interpolazione video.
La comprensione del movimento è fondamentale per il ragionamento fisico, poiché consente ai modelli di inferire le dinamiche e prevedere stati futuri. Tuttavia, i modelli all'avanguardia continuano a mostrare difficoltà nei recenti benchmark sul movimento, principalmente a causa della scarsità di dataset di movimento su larga scala e a grana fine. I dataset esistenti sono spesso costruiti tramite annotazione manuale costosa, limitandone gravemente la scalabilità. Per affrontare questa sfida, introduciamo FoundationMotion, una pipeline automatizzata per la creazione di dataset di movimento su larga scala. Il nostro approccio rileva e traccia prima gli oggetti nei video per estrarne le traiettorie, quindi sfrutta queste traiettorie e i fotogrammi video con Modelli Linguistici di Grande Dimensione (LLM) per generare descrizioni granulari e coppie domanda-risposta diversificate sul movimento e il ragionamento spaziale. Utilizzando dataset prodotti da questa pipeline, addestriamo modelli open-source come NVILA-Video-15B e Qwen2.5-7B, ottenendo miglioramenti sostanziali nella comprensione del movimento senza compromettere le prestazioni in altri compiti. Notevolmente, i nostri modelli superano baseline closed-source solide come Gemini-2.5 Flash e grandi modelli open-source come Qwen2.5-VL-72B su vari dataset e benchmark di comprensione del movimento. FoundationMotion fornisce quindi una soluzione scalabile per creare dataset di movimento granulari che consentono un effective fine-tuning di modelli diversificati, potenziandone le capacità di comprensione del movimento e ragionamento spaziale.
Presentiamo FIN-bench-v2, una suite di benchmark unificata per la valutazione di modelli linguistici di grandi dimensioni in finlandese. FIN-bench-v2 consolida le versioni finlandesi di benchmark ampiamente utilizzati insieme a una versione aggiornata ed espansa del FIN-bench originale in un'unica raccolta formattata in modo coerente, che copre attività a scelta multipla e generative relative a comprensione della lettura, ragionamento di senso comune, analisi del sentiment, conoscenza generale e allineamento. Tutti i dataset sono convertiti nel formato HuggingFace Datasets, che include formulazioni di prompt sia di tipo cloze che a scelta multipla con cinque varianti per attività, e incorporiamo annotazioni umane o revisioni per risorse tradotte automaticamente, come GoldenSwag e XED. Per selezionare compiti robusti, addestriamo preliminarmente una serie di modelli decoder-only da 2,15 miliardi di parametri e utilizziamo le loro curve di apprendimento per calcolare la monotonicità, il rapporto segnale-rumore, le prestazioni non casuali e la coerenza nell'ordinamento dei modelli, mantenendo solo i compiti che soddisfano tutti i criteri. Valutiamo inoltre una serie di modelli più grandi ottimizzati per istruzioni per caratterizzare le prestazioni tra i diversi compiti e formulazioni di prompt. Tutti i dataset, i prompt e le configurazioni di valutazione sono disponibili pubblicamente tramite il nostro fork di Language Model Evaluation Harness all'indirizzo https://github.com/LumiOpen/lm-evaluation-harness. Le risorse supplementari sono rilasciate in un repository separato all'indirizzo https://github.com/TurkuNLP/FIN-bench-v2.
Le scene del mondo reale sono spesso composte da diversi oggetti statici e dinamici. Catturarne le strutture quadridimensionali, la composizione e la configurazione spazio-temporale in contesti non controllati, sebbene estremamente interessante, è altrettanto difficile. Pertanto, i lavori esistenti si concentrano spesso su un oggetto alla volta, basandosi su modelli di forma parametrici specifici per categoria per gli oggetti dinamici. Ciò può portare a configurazioni di scene inconsistenti, oltre a essere limitato alle categorie di oggetti modellate. Proponiamo COM4D (Composizionale 4D), un metodo che prevede in modo coerente e congiunto la struttura e la configurazione spazio-temporale di oggetti 4D/3D utilizzando esclusivamente una supervisione basata su oggetti multipli statici o su oggetti singoli dinamici. Raggiungiamo questo obiettivo attraverso un addestramento accuratamente progettato di attenzioni spaziali e temporali su input video 2D. L'addestramento è scomposto nell'apprendimento da composizioni di oggetti da un lato, e nella dinamica di oggetti singoli lungo il video dall'altro, evitando così completamente la dipendenza da dati di addestramento composizionali 4D. Al momento dell'inferenza, il nostro meccanismo di mixing delle attenzioni combina queste attenzioni apprese indipendentemente, senza richiedere alcun esempio di composizione 4D. Alternando il ragionamento spaziale e temporale, COM4D ricostruisce scene 4D complete e persistenti con più oggetti interagenti direttamente da video monoculari. Inoltre, COM4D fornisce risultati all'avanguardia nei problemi separati esistenti della ricostruzione 4D di oggetti e della ricostruzione 3D composizionale, nonostante sia puramente basato sui dati.
La comprensione dei grafici è cruciale per l'implementazione di modelli linguistici multimodali di grandi dimensioni (MLLM) in scenari reali come l'analisi di articoli scientifici e report tecnici. A differenza delle immagini naturali, i grafici abbinano un layout visivo strutturato (proprietà spaziale) a una rappresentazione dati sottostante (proprietà testuale) – afferrare entrambi è essenziale per un ragionamento sui grafici preciso e granulare. Sulla base di questa osservazione, proponiamo START, l'apprendimento Spaziale e Testuale per la comprensione dei gRAfici. Nello specifico, introduciamo (i) il grounding degli elementi del grafico e (ii) la generazione di codice a partire dal grafico per potenziare la comprensione da parte di un MLLM sia del layout visivo del grafico che dei dettagli dei dati. Per facilitare l'apprendimento spaziale e testuale, proponiamo il START-Dataset, generato con una nuova pipeline di generazione dati che sfrutta prima un MLLM per tradurre immagini reali di grafici in codice grafico eseguibile, recuperando la rappresentazione dati sottostante preservando al contempo la distribuzione visiva dei grafici del mondo reale. Successivamente, evolviamo il codice con un Large Language Model (LLM) per accertare le posizioni degli elementi del grafico che catturano la struttura visiva del grafico, affrontando sfide che i metodi esistenti non possono gestire. Per valutare la capacità di un modello di comprendere le strutture spaziali dei grafici, proponiamo il Benchmark per la comprensione spaziale dei grafici (CS-Bench), colmando una lacuna critica nella valutazione completa della comprensione dei grafici. Sfruttando l'apprendimento spaziale e testuale, START fornisce miglioramenti consistenti across diverse dimensioni dei modelli e benchmark rispetto ai modelli base e supera i precedenti state-of-the-art con un margine netto. Codice, dati e modelli saranno resi pubblicamente disponibili.
I modelli di diffusione video hanno rivoluzionato la sintesi video generativa, ma sono imprecisi, lenti e possono risultare opachi durante la generazione, mantenendo gli utenti all'oscuro per un periodo prolungato. In questo lavoro, proponiamo DiffusionBrowser, un framework decodificatore leggero e indipendente dal modello, che consente agli utenti di generare in modo interattivo anteprime in qualsiasi punto (timestep o blocco transformer) durante il processo di denoising. Il nostro modello può generare rappresentazioni di anteprime multimodali che includono RGB e dati intrinseci della scena a una velocità superiore a 4 volte il tempo reale (meno di 1 secondo per un video di 4 secondi), le quali trasmettono un aspetto e un movimento coerenti con il video finale. Grazie al decodificatore addestrato, dimostriamo che è possibile guidare interattivamente la generazione a passi di rumore intermedi tramite reiniezione della stocasticità e orientamento modale, sbloccando una nuova capacità di controllo. Inoltre, analizziamo sistematicamente il modello utilizzando i decodificatori appresi, rivelando come la scena, gli oggetti e altri dettagli vengano composti e assemblati durante il processo di denoising che altrimenti rimarrebbe una scatola nera.
I recenti progressi nei modelli multimodali di grandi dimensioni suggeriscono che i meccanismi di ragionamento esplicito svolgono un ruolo cruciale nel migliorare l'affidabilità, l'interpretabilità e l'allineamento cross-modale dei modelli. Sebbene questi approcci incentrati sul ragionamento si siano dimostrati efficaci per compiti linguistici e visivi, la loro estensione al 3D rimane poco sviluppata. CoRe3D introduce un framework di ragionamento unificato per la comprensione e la generazione 3D che opera congiuntamente su astrazioni semantiche e spaziali, consentendo all'intento di alto livello inferito dal linguaggio di guidare direttamente la formazione di contenuti 3D di basso livello. Elemento centrale di questo design è una rappresentazione di ragionamento ancorata allo spazio che scompone lo spazio latente 3D in regioni localizzate, permettendo al modello di ragionare sulla geometria in modo compositivo e procedurale. Accoppiando strettamente l'inferenza a catena del pensiero semantica con un ragionamento spaziale strutturato, CoRe3D produce output 3D che mostrano una forte consistenza locale e un fedele allineamento con le descrizioni linguistiche.
La Textual Inversion (TI) è un approccio efficiente per la personalizzazione testo-immagine, ma spesso fallisce con prompt complessi. Riconduciamo questi fallimenti all'inflazione della norma degli embedding: i token appresi divergono verso magnitudini fuori distribuzione, degradando il condizionamento del prompt nei Transformer pre-norm. Empiricamente, mostriamo che la semantica è codificata principalmente dalla direzione nello spazio token di CLIP, mentre norme inflazionate danneggiano la contestualizzazione; teoricamente, analizziamo come magnitudini elevate attenuino l'informazione posizionale e ostacolino gli aggiornamenti residui nei blocchi pre-norm. Proponiamo la Directional Textual Inversion (DTI), che fissa la magnitudine dell'embedding a una scala in-distribuzione e ottimizza solo la direzione sulla ipersfera unitaria tramite Riemannian SGD. Inquadriamo l'apprendimento della direzione come MAP con un prior von Mises-Fisher, ottenendo un gradiente prior a direzione costante, semplice ed efficiente da incorporare. In varie attività di personalizzazione, la DTI migliora la fedeltà testuale rispetto alla TI e alle sue varianti, mantenendo la somiglianza del soggetto. Crucialmente, la parametrizzazione ipersferica della DTI consente un'interpolazione fluida e semanticamente coerente tra concetti appresi (slerp), una capacità assente nella TI standard. I nostri risultati suggeriscono che l'ottimizzazione basata solo sulla direzione è un percorso robusto e scalabile per una personalizzazione fedele al prompt.
I modelli del mondo hanno dimostrato prestazioni impressionanti nei compiti di apprendimento robotico. Molti di questi compiti richiedono intrinsecamente un ragionamento multimodale; ad esempio, riempire una bottiglia d'acqua renderebbe le informazioni visive da sole ambigue o incomplete, richiedendo quindi un ragionamento sull'evoluzione temporale dell'audio, tenendo conto delle sue proprietà fisiche sottostanti e dei modelli di tonalità. In questo articolo, proponiamo un modello generativo di flusso latente per anticipare le future osservazioni audio, consentendo al sistema di ragionare sulle conseguenze a lungo termine quando integrato in una policy robotica. Dimostriamo le capacità superiori del nostro sistema attraverso due compiti di manipolazione che richiedono la percezione di segnali audio o musicali in ambienti non controllati, rispetto a metodi privi di previsione futura. Sottolineiamo inoltre che l'apprendimento di azioni robotiche di successo per questi compiti non si basa semplicemente su un input multimodale, ma dipende criticamente dalla previsione accurata degli stati audio futuri che incarnano modelli ritmici intrinseci.
I dati ittici accurati sono cruciali per una gestione efficace e sostenibile delle risorse marine. Con la recente adozione dei sistemi di Monitoraggio Elettronico (EM), vengono ora raccolti più dati video di quanti sia fattibile revisionare manualmente. Questo articolo affronta questa sfida sviluppando una pipeline ottimizzata di deep learning per la ri-identificazione (Re-ID) automatizzata dei pesci, utilizzando il nuovo dataset AutoFish, che simula sistemi EM con nastri trasportatori contenenti sei specie ittiche dall'aspetto simile. Dimostriamo che le metriche chiave della Re-ID (R1 e mAP@k) vengono sostanzialmente migliorate utilizzando l'hard triplet mining insieme a una pipeline personalizzata di trasformazione delle immagini che include una normalizzazione specifica per il dataset. Impiegando queste strategie, dimostriamo che l'architettura Swin-T, basata su Vision Transformer, supera costantemente la ResNet-50, basata su Rete Neurale Convoluzionale, raggiungendo prestazioni massime del 41,65% in mAP@k e del 90,43% in accuratezza Rank-1. Un'analisi approfondita rivela che la sfida principale è distinguere individui visivamente simili della stessa specie (errori intra-specie), dove l'inconsistenza del punto di vista si rivela significativamente più dannosa dell'occlusione parziale. Il codice sorgente e la documentazione sono disponibili all'indirizzo: https://github.com/msamdk/Fish_Re_Identification.git.
La degenerazione maculare legata all'età (DMLE) e le condizioni correlate alla neovascolarizzazione coroidale (CNV) sono tra le principali cause di perdita della vista a livello mondiale, e la tomografia a coerenza ottica (OCT) rappresenta uno strumento fondamentale per la loro diagnosi precoce e gestione. Tuttavia, la distribuzione in ambito clinico di modelli di deep learning all'avanguardia, come ConvNeXtV2-Large, è ostacolata dalle loro elevate esigenze computazionali. Pertanto, è auspicabile sviluppare modelli efficienti che mantengano elevate prestazioni diagnostiche consentendo al contempo una distribuzione in tempo reale. In questo studio, viene proposto un nuovo framework di distillazione della conoscenza, denominato KD-OCT, per comprimere un modello insegnante ad alte prestazioni ConvNeXtV2-Large, potenziato con tecniche avanzate di data augmentation, stochastic weight averaging e focal loss, in uno studente leggero EfficientNet-B2, finalizzato alla classificazione di casi normali, con drusen e con CNV. KD-OCT utilizza una distillazione in tempo reale con una funzione di perdita combinata che bilancia il trasferimento della conoscenza "soft" dall'insegnante e la supervisione "hard" delle ground-truth. L'efficacia del metodo proposto è valutata sul dataset del Noor Eye Hospital (NEH) utilizzando una cross-validazione a livello paziente. I risultati sperimentali dimostrano che KD-OCT supera classificatori OCT comparabili basati su approcci multi-scala o di fusione di feature nel bilanciamento efficienza-precisione, raggiungendo prestazioni vicine a quelle del modello insegnante con riduzioni sostanziali delle dimensioni del modello e del tempo di inferenza. Nonostante la compressione, il modello studente supera la maggior parte dei framework esistenti, facilitando la distribuzione su dispositivi edge per lo screening della DMLE. Il codice è disponibile all'indirizzo https://github.com/erfan-nourbakhsh/KD-OCT.