Articoli di ricerca IA selezionati quotidianamente con traduzioni
Cosa accade quando un narratore dimentica la propria storia? I Modelli Linguistici di Grandi Dimensioni (LLM) sono ora in grado di generare narrazioni che si estendono per decine di migliaia di parole, ma spesso non riescono a mantenere la coerenza lungo tutto il testo. Durante la generazione di narrazioni di forma lunga, questi modelli possono contraddire fatti precedentemente stabiliti, tratti caratteriali e regole del mondo narrativo. I benchmark esistenti per la generazione di storie si concentrano principalmente sulla qualità della trama e sulla fluidità, lasciando in gran parte inesplorati gli errori di coerenza. Per colmare questa lacuna, presentiamo ConStory-Bench, un benchmark progettato per valutare la coerenza narrativa nella generazione di storie di forma lunga. Esso contiene 2.000 prompt relativi a quattro scenari di attività e definisce una tassonomia di cinque categorie di errori con 19 sottotipi granulari. Sviluppiamo inoltre ConStory-Checker, una pipeline automatizzata che rileva le contraddizioni e basa ogni giudizio su evidenze testuali esplicite. Valutando una serie di LLM attraverso cinque domande di ricerca, scopriamo che gli errori di coerenza mostrano tendenze precise: sono più comuni nelle dimensioni fattuali e temporali, tendono a comparire verso la metà delle narrazioni, si manifestano in segmenti di testo con entropia a livello di token più elevata e certi tipi di errore tendono a co-verificarsi. Questi risultati possono guidare i futuri sforzi per migliorare la coerenza nella generazione narrativa di forma lunga. La nostra pagina progetto è disponibile all'indirizzo https://picrew.github.io/constory-bench.github.io/.
La ricerca dell'intelligenza spaziale si basa fondamentalmente sull'accesso a dati 3D su larga scala e ad alta risoluzione. Tuttavia, gli approcci esistenti costruiscono principalmente benchmark di comprensione spaziale generando coppie domanda-risposta (QA) da un numero limitato di dataset annotati manualmente, piuttosto che annotare sistematicamente nuove scene 3D su larga scala a partire da dati grezzi del web. Di conseguenza, la loro scalabilità è fortemente limitata e le prestazioni dei modelli sono ulteriormente ostacolate dai gap di dominio intrinseci in questi dataset strettamente curati. In questo lavoro, proponiamo Holi-Spatial, il primo dataset multimodale su larga scala e consapevole dello spazio completamente automatizzato, costruito a partire da input video grezzi senza intervento umano, utilizzando la pipeline di data curation proposta. Holi-Spatial supporta una supervisione spaziale multi-livello, che spazia dalle ricostruzioni geometricamente accurate con Gaussian Splatting 3D (3DGS) con mappe di depth renderizzate, alle annotazioni semantiche a livello di oggetto e relazionale, insieme alle corrispondenti coppie domanda-risposta (QA) spaziali. Seguendo una pipeline sistematica e basata su principi, costruiamo ulteriormente Holi-Spatial-4M, il primo dataset semantico 3D su larga scala e di alta qualità, contenente 12K scene 3DGS ottimizzate, 1.3M maschere 2D, 320K bounding box 3D, 320K didascalie di istanza, 1.2M istanze di grounding 3D e 1.2M coppie QA spaziali che coprono diverse attività di ragionamento geometrico, relazionale e semantico. Holi-Spatial dimostra prestazioni eccezionali nella qualità della data curation, superando significativamente i metodi feed-forward e ottimizzati per scena esistenti su dataset come ScanNet, ScanNet++ e DL3DV. Inoltre, il fine-tuning di Modelli Visione-Linguaggio (VLM) su compiti di ragionamento spaziale utilizzando questo dataset ha portato anche a sostanziali miglioramenti nelle prestazioni del modello.
I modelli feedforward per la ricostruzione geometrica di base ottengono una ricostruzione solida su finestre temporali brevi, ma il loro scaling a video di diversi minuti è limitato dalla complessità quadratica dell'attenzione o dalla memoria efficace limitata nei design ricorrenti. Presentiamo LoGeR (Long-context Geometric Reconstruction), una nuova architettura che scala la ricostruzione 3D densa a sequenze estremamente lunghe senza ottimizzazione a posteriori. LoGeR elabora i flussi video a segmenti, sfruttando forti prior bidirezionali per un ragionamento ad alta fedeltà all'interno del segmento. Per gestire la sfida critica della coerenza attraverso i confini dei segmenti, proponiamo un modulo di memoria ibrido basato sull'apprendimento. Questo sistema a doppia componente combina una memoria parametrica di Addestramento al Tempo di Test (TTT) per ancorare il sistema di coordinate globale e prevenire la deriva di scala, insieme a un meccanismo di Attenzione a Finestra Scorrevole (SWA) non parametrico per preservare il contesto non compresso per un allineamento adiacente ad alta precisione. Notevolmente, questa architettura di memoria consente a LoGeR di essere addestrato su sequenze di 128 frame e di generalizzare fino a migliaia di frame durante l'inferenza. Valutato su benchmark standard e su un dataset VBR riproposto con sequenze fino a 19k frame, LoGeR supera sostanzialmente i precedenti metodi feedforward all'avanguardia—riducendo l'ATE su KITTI di oltre il 74%—e raggiunge una ricostruzione robusta e globalmente coerente su orizzonti senza precedenti.
L'apprendimento per rinforzo non supervisionato con ricompense verificabili (URLVR) offre un percorso per scalare l'addestramento di LLM oltre il collo di bottiglia della supervisione, derivando le ricompense senza etichette di ground truth. I lavori recenti sfruttano segnali intrinseci del modello, mostrando promettenti guadagni iniziali, ma il loro potenziale e le loro limitazioni rimangono poco chiari. In questo lavoro, esaminiamo nuovamente l'URLVR e forniamo un'analisi completa che abbraccia tassonomia, teoria ed esperimenti estensivi. Classifichiamo prima i metodi URLVR in intrinseci versus esterni in base alle fonti di ricompensa, per poi stabilire un quadro teorico unificato che rivela come tutti i metodi intrinseci convergano verso l'*affinamento* della distribuzione iniziale del modello. Questo meccanismo di affinamento ha successo quando la fiducia iniziale è allineata con la correttezza, ma fallisce in modo catastrofico quando non lo è. Attraverso esperimenti sistematici, mostriamo che le ricompense intrinseche seguono costantemente uno schema di *ascesa e poi caduta* tra i vari metodi, con il momento del collasso determinato dal *prior* del modello piuttosto che da scelte ingegneristiche. Nonostante questi limiti di scalabilità, troviamo che le ricompense intrinseche rimangono preziose nell'addestramento al momento del test su piccoli dataset, e proponiamo il *Model Collapse Step* per misurare il prior del modello, servendo come indicatore pratico per l'addestrabilità RL. Infine, esploriamo metodi a ricompensa esterna che ancorano la verifica a asimmetrie computazionali, mostrando evidenze preliminari del fatto che possano superare il limite fiducia-correttezza. I nostri risultati delineano i confini per l'URLVR intrinseco motivando al contempo percorsi verso alternative scalabili.
I modelli di ragionamento su larga scala hanno dimostrato prestazioni notevoli con l'avanzamento delle tecniche di scaling al momento del test, che migliorano l'accuratezza predittiva generando molteplici risposte candidate e selezionando la risposta più affidabile. Sebbene lavori precedenti abbiano analizzato come segnali interni del modello, come i punteggi di confidenza, possano in parte indicare la correttezza della risposta ed esibire una correlazione distribuzionale con l'accuratezza, tali informazioni distributive non sono state pienamente utilizzate per guidare la selezione della risposta. Motivati da ciò, proponiamo DistriVoting, che incorpora prior distributivi come un ulteriore segnale insieme alla confidenza durante la votazione. Nello specifico, il nostro metodo (1) scompone prima la distribuzione mista di confidenza in componenti positiva e negativa utilizzando Modelli di Mistura Gaussiana, (2) applica poi un filtro di scarto basato su campioni positivi/negativi da esse per mitigare la sovrapposizione tra le due distribuzioni. Inoltre, per alleviare ulteriormente la sovrapposizione dalla prospettiva della distribuzione stessa, proponiamo SelfStepConf, che utilizza la confidenza a livello di step per regolare dinamicamente il processo di inferenza, aumentando la separazione tra le due distribuzioni per migliorare l'affidabilità delle confidenze nella votazione. Esperimenti su 16 modelli e 5 benchmark dimostrano che il nostro metodo supera significativamente gli approcci allo stato dell'arte.
I recenti progressi nei Modelli Multimodali Unificati (UMM) hanno fatto avanzare significativamente la generazione di immagini da testo (T2I), in particolare grazie all'integrazione del ragionamento a catena di pensieri (CoT). Tuttavia, i metodi T2I basati su CoT esistenti si basano in larga misura su una pianificazione astratta in linguaggio naturale, che manca della precisione richiesta per layout spaziali complessi, elementi visivi strutturati e contenuti testuali densi. In questo lavoro, proponiamo CoCo (Code-as-CoT), un framework di ragionamento guidato dal codice che rappresenta il processo di ragionamento come codice eseguibile, abilitando una pianificazione intermedia esplicita e verificabile per la generazione di immagini. Dato un prompt testuale, CoCo genera prima del codice eseguibile che specifica il layout strutturale della scena, che viene poi eseguito in un ambiente sandbox per produrre una bozza d'immagine deterministica. Il modello successivamente affina questa bozza attraverso un editing fine dell'immagine per produrre il risultato finale ad alta fedeltà. Per supportare questo paradigma di addestramento, abbiamo costruito CoCo-10K, un dataset curato contenente coppie di immagini bozza-finale strutturate, progettato per insegnare sia la costruzione strutturata della bozza che il perfezionamento visivo correttivo. Le valutazioni empiriche su StructT2IBench, OneIG-Bench e LongText-Bench mostrano che CoCo raggiunge miglioramenti rispettivamente del +68,83%, +54,8% e +41,23% rispetto alla generazione diretta, superando anche altri metodi di generazione potenziati da CoT. Questi risultati dimostrano che il codice eseguibile è un paradigma di ragionamento efficace e affidabile per una generazione di immagini da testo precisa, controllabile e strutturata. Il codice è disponibile all'indirizzo: https://github.com/micky-li-hd/CoCo
Gli editor di diffusione unificati si basano spesso su un'architettura fissa e condivisa per diverse attività, soffrendo di interferenze tra compiti e scarsa adattabilità a richieste eterogenee (ad esempio, locale vs globale, semantico vs fotometrico). In particolare, le varianti prevalenti di ControlNet e OmniControl combinano segnali di condizionamento multipli (ad esempio testo, maschera, riferimento) tramite concatenazione statica o adattatori additivi che non possono dare priorità dinamica o sopprimere modalità in conflitto, risultando così in artefatti come sanguinamento cromatico ai bordi delle maschere, deriva di identità o stile, e comportamenti imprevedibili con input multi-condizione. Per affrontare ciò, proponiamo Condition-Aware Routing of Experts (CARE-Edit), che allinea il calcolo del modello a competenze di editing specifiche. Nella sua essenza, un router latente-attention leggero assegna i token di diffusione codificati a quattro esperti specializzati—Testo, Maschera, Riferimento e Base—in base a condizioni multimodali e step temporali di diffusione: (i) un modulo Mask Repaint affina inizialmente le maschere definite approssimativamente dall'utente per una guida spaziale precisa; (ii) il router applica una selezione sparsa top-K per allocare dinamicamente il calcolo agli esperti più rilevanti; (iii) un modulo Latent Mixture fonde successivamente gli output degli esperti, integrando coerentemente informazioni semantiche, spaziali e stilistiche nelle immagini base. Gli esperimenti convalidano le solide prestazioni di CARE-Edit su attività di editing contestuale, inclusa cancellazione, sostituzione, modifiche guidate da testo e trasferimento di stile. L'analisi empirica rivela ulteriormente un comportamento specifico per compito degli esperti specializzati, evidenziando l'importanza di un'elaborazione dinamica e consapevole delle condizioni per mitigare i conflitti multi-condizione.
La diffusione autoregressiva (AR) offre un quadro promettente per generare video di lunghezza teoricamente infinita. Tuttavia, una sfida principale è mantenere la continuità temporale prevenendo al contempo il progressivo degrado della qualità causato dall'accumulo di errori. Per garantire la continuità, i metodi esistenti tipicamente condizionano la generazione su contesti altamente denoisati; questa pratica, tuttavia, propaga gli errori di predizione con alta certezza, aggravando così il degrado. In questo articolo, sosteniamo che un contesto estremamente pulito non sia necessario. Traendo ispirazione dai modelli di diffusione bidirezionale, che denoisano i fotogrammi a un livello di rumore condiviso mantenendo la coerenza, proponiamo che il condizionamento su un contesto allo stesso livello di rumore del blocco corrente fornisca un segnale sufficiente per la coerenza temporale, mitigando efficacemente la propagazione degli errori. Basandoci su questa intuizione, proponiamo HiAR, un framework di denoising gerarchico che inverte l'ordine di generazione convenzionale: invece di completare ogni blocco sequenzialmente, esso esegue una generazione causale su tutti i blocchi ad ogni passo di denoising, in modo che ogni blocco sia sempre condizionato su un contesto allo stesso livello di rumore. Questa gerarchia si presta naturalmente a un'inferenza parallela in pipeline, producendo un accelerazione di 1.8x nel tempo reale ("wall-clock") nella nostra configurazione a 4 passi. Osserviamo inoltre che la distillazione tramite "self-rollout" in questo paradigma amplifica una scorciatoia di basso movimento intrinseca all'obiettivo reverse-KL propenso alla moda. Per contrastare ciò, introduciamo un regolarizzatore forward-KL in modalità "bidirectional-attention", che preserva la diversità del movimento per l'inferenza causale senza interferire con la loss di distillazione. Su VBench (generazione di 20s), HiAR raggiunge il punteggio complessivo migliore e la minore deriva temporale tra tutti i metodi confrontati.
Man mano che i modelli linguistici (LM) evolvono da assistenti di chat ad agenti a lungo termine capaci di ragionamento multi-step e utilizzo di strumenti, i benchmark esistenti rimangono in gran parte confinati a compiti strutturati o di tipo scolastico che non soddisfano le richieste del mondo professionale reale. A tal fine, introduciamo \OneMillion-Bench OneMillion-Bench, un benchmark di 400 compiti curati da esperti che abbracciano Diritto, Finanza, Industria, Sanità e Scienze Naturali, creato per valutare gli agenti in scenari economicamente rilevanti. A differenza dei lavori precedenti, il benchmark richiede il recupero di fonti autorevoli, la risoluzione di prove contrastanti, l'applicazione di regole dominio-specifiche e il prendere decisioni vincolate, dove la correttezza dipende tanto dal processo di ragionamento quanto dalla risposta finale. Adottiamo un protocollo di valutazione basato su rubriche che assegna punteggi per accuratezza fattuale, coerenza logica, fattibilità pratica e conformità professionale, concentrandosi su problemi di livello esperto per garantire una differenziazione significativa tra gli agenti. Nel complesso, \$OneMillion-Bench fornisce una piattaforma di test unificata per valutare l'affidabilità agentiva, la profondità professionale e la prontezza pratica in scenari ad alta intensità di dominio.
Sebbene i sistemi di riconoscimento vocale basati su LLM autoregressivi (AR) raggiungano un'elevata accuratezza, la loro decodifica sequenziale limita il parallelismo e comporta un'elevata latenza. Proponiamo NLE, un approccio non autoregressivo (NAR) che formula il riconoscimento vocale come un'editing condizionato del trascritto, consentendo una previsione completamente parallela. NLE estrae embedding acustici e un'ipotesi iniziale da un codificatore vocale preaddestrato, per poi affinare l'ipotesi utilizzando un editor LLM bidirezionale addestrato con un obiettivo di allineamento latente. Una strategia di padding intercalato sfrutta il bias di mappatura identitaria dei Transformer, permettendo al modello di concentrarsi sulle correzioni piuttosto che sulla ricostruzione completa. Sulla Open ASR leaderboard, NLE++ raggiunge una WER media del 5,67% con un RTFx (fattore di tempo reale inverso) di 1630. In scenari con singola espressione, NLE raggiunge un'accelerazione di 27x rispetto al baseline AR, rendendolo adatto per applicazioni in tempo reale.
Presentiamo AutoResearch-RL, un framework in cui un agente di apprendimento per rinforzo conduce ricerche aperte sull'architettura neurale e sugli iperparametri senza supervisione umana, operando in modo perpetuo fino a quando un oracolo di terminazione segnala la convergenza o l'esaurimento delle risorse. Ad ogni passo, l'agente propone una modifica al codice di uno script di addestramento target, la esegue con un budget di tempo fisso di clock wall, osserva una ricompensa scalare derivata dai bit-per-byte di validazione (val-bpb) e aggiorna la propria policy tramite Proximal Policy Optimisation (PPO). L'intuizione progettuale chiave è la separazione di tre aspetti: (i) un ambiente congelato (pipeline dei dati, protocollo di valutazione e costanti) che garantisce un confronto equo tra gli esperimenti; (ii) un file target modificabile (train.py) che rappresenta lo stato modificabile dell'agente; e (iii) un meta-apprendista (l'agente RL stesso) che accumula una traiettoria crescente di risultati sperimentali e li utilizza per informare le proposte successive. Formalizziamo questo processo come un Processo Decisionale di Markov, deriviamo garanzie di convergenza sotto ipotesi moderate e dimostriamo empiricamente, su un benchmark di pre-addestramento nanochat su una singola GPU, che AutoResearch-RL scopre configurazioni che eguagliano o superano le baseline ottimizzate manualmente dopo circa 300 iterazioni notturne, senza alcun intervento umano nel ciclo.
I sistemi agentici che operano su ecosistemi di strumenti di grandi dimensioni devono pianificare ed eseguire flussi di lavoro a lungo orizzonte sotto una supervisione debole o non verificabile. Sebbene i modelli all'avanguardia mitigano queste sfide attraverso la scala e ampi budget di contesto, i modelli linguistici piccoli (SLM) rimangono fragili: il caricamento aggressivo degli strumenti satura il contesto, gli errori di esecuzione si cumulano nel tempo e le ricompense sparse limitano l'apprendimento. Introduciamo ATLAS, un framework di fine-tuning per rinforzo che consente agli SLM di operare efficacemente in ambienti con spazi di strumenti su larga scala, apprendendo come acquisire contesto e come eseguire azioni. Il nostro approccio fornisce due contributi chiave. Primo, trattiamo il controllo del contesto e la struttura di esecuzione come decisioni apprendibili, combinando il caricamento iterativo degli strumenti con l'orchestrazione programmatica degli stessi per delimitare la crescita del contesto e stabilizzare le traiettorie a lungo orizzonte. Secondo, proponiamo il fine-tuning per rinforzo basato su rubriche, che scompone il successo del compito in criteri strutturati e allineati al compito, consentendo un addestramento scalabile utilizzando piccoli modelli giudicanti. Sui benchmark MCP, queste scelte progettuali producono miglioramenti ampi e consistenti rispetto ai metodi generici di RL, permettendo a un SLM da 4B di avvicinarsi alle prestazioni degli agenti all'avanguardia con budget di parametri e contesto molto più ridotti.
I modelli di diffusione degradano le immagini attraverso il rumore, e invertire questo processo rivela una gerarchia informativa attraverso i timestep. La teoria dello scale-space mostra una gerarchia simile tramite filtraggio passa-basso. Formalizziamo questa connessione e dimostriamo che gli stati di diffusione altamente rumorosi non contengono più informazioni di piccole immagini sottocampionate - sollevando la questione del perché debbano essere processate a risoluzione completa. Per affrontare ciò, fondiamo gli scale-space nel processo di diffusione formulando una famiglia di modelli di diffusione con degradazioni lineari generalizzate e implementazioni pratiche. Utilizzare il sottocampionamento come degradazione produce la nostra proposta Scale Space Diffusion. Per supportare Scale Space Diffusion, introduciamo Flexi-UNet, una variante di UNet che esegue la denoising preservando e aumentando la risoluzione utilizzando solo le parti necessarie della rete. Valutiamo il nostro framework su CelebA e ImageNet e analizziamo il suo comportamento di scaling attraverso risoluzioni e profondità di rete. Il nostro sito web del progetto ( https://prateksha.github.io/projects/scale-space-diffusion/ ) è disponibile pubblicamente.
Gli agenti di interfaccia grafica (GUI) attuali operano principalmente secondo un paradigma reattivo: un utente deve fornire un'istruzione esplicita affinché l'agente esegua un compito. Tuttavia, un assistente IA intelligente dovrebbe essere proattivo, cioè in grado di anticipare le intenzioni dell'utente direttamente da input visivi continui, come screenshot di schermate mobili o desktop, e di offrire raccomandazioni tempestive senza una richiesta esplicita dell'utente. La transizione verso questo paradigma proattivo presenta sfide significative. L'attività sullo schermo nel mondo reale raramente è lineare; consiste in traiettorie di lungo periodo piene di navigazione rumorosa, azioni prive di significato e commutazione tra compiti multithread. Per colmare questa lacuna, introduciamo PIRA-Bench (Proactive Intent Recommendation Agent Benchmark), un nuovo benchmark per valutare modelli linguistici di grandi dimensioni multimodali (MLLM) su input visivi continui e debolmente supervisionati. A differenza dei dataset reattivi, PIRA-Bench presenta traiettorie complesse con multiple intenzioni interallacciate e segmenti rumorosi con vari contesti di profilo utente, mettendo alla prova gli agenti nel rilevare eventi azionabili adattandosi alle preferenze dell'utente. Inoltre, proponiamo la baseline PIRF, un framework di tracciamento dello stato con memoria che consente ai MLLM generici di gestire più thread di attività e gestire input visivi fuorvianti. PIRA-Bench rappresenta un passo iniziale verso assistenti personali robusti e proattivi basati su GUI.
I modelli attuali di generazione video soffrono di un'elevata latenza computazionale, rendendo le applicazioni in tempo reale proibitivamente costose. In questo articolo, affrontiamo questa limitazione sfruttando la ridondanza temporale intrinseca delle patch latenti video. A tal fine, proponiamo il framework Latent Inter-frame Pruning with Attention Recovery (LIPAR), che rileva ed evita di ricalcolare le patch latenti duplicate. Inoltre, introduciamo un innovativo meccanismo di Recupero dell'Attenzione che approssima i valori di attenzione dei token eliminati, rimuovendo così gli artefatti visivi derivanti dall'applicazione ingenua del metodo di pruning. Empiricamente, il nostro metodo aumenta la produttività dell'editing video di 1,45 volte, raggiungendo in media 12,2 FPS su una NVIDIA A6000 rispetto ai 8,4 FPS del baseline. Il metodo proposto non compromette la qualità della generazione e può essere integrato perfettamente con il modello senza addestramento aggiuntivo. Il nostro approccio colma efficacemente il divario tra gli algoritmi di compressione tradizionali e le pipeline generative moderne.
L'addestramento di grandi modelli linguistici (LLM) come agenti autonomi inizia spesso con l'apprendimento per imitazione, ma questo insegna solo agli agenti cosa fare senza comprenderne il motivo: gli agenti non confrontano mai le azioni di successo con alternative subottimali e quindi mancano di consapevolezza sulla qualità delle azioni. Recenti approcci tentano di affrontare questo problema introducendo una supervisione basata sull'autoriflessione, derivata dal contrasto tra azioni esperte e alternative. Tuttavia, il paradigma di addestramento rimane fondamentalmente un apprendimento per imitazione: il modello imita testi di riflessione pre-costruiti anziché imparare a ragionare autonomamente. Proponiamo l'Agentic Critical Training (ACT), un paradigma di apprendimento per rinforzo che addestra gli agenti a identificare l'azione migliore tra le alternative. Ricompandando la correttezza del giudizio del modello, ACT spinge il modello a sviluppare autonomamente un ragionamento sulla qualità delle azioni, producendo un'autentica autoriflessione anziché imitarla. Su tre benchmark impegnativi per agenti, ACT migliora costantemente le prestazioni degli agenti quando combinato con diversi metodi di post-addestramento. Rispetto all'apprendimento per imitazione, si registra un miglioramento medio di 5,07 punti e di 4,62 punti rispetto all'apprendimento per rinforzo. Rispetto agli approcci che iniettano capacità riflessive attraverso la distillazione di conoscenza, ACT dimostra anche chiari vantaggi, con un miglioramento medio di 2,42 punti. Inoltre, ACT consente una forte generalizzazione fuori distribuzione su benchmark agentici e migliora le prestazioni su benchmark di ragionamento generale senza alcun dato di addestramento specifico per il ragionamento, evidenziando il valore del nostro metodo. Questi risultati suggeriscono che ACT sia una strada promettente per sviluppare agenti LLM più riflessivi e capaci.
I Modelli Linguistici di Grande Dimensioni (LLM) hanno dimostrato forti capacità generali, tuttavia il loro dispiegamento in ambito finanziario rimane impegnativo a causa della densa terminologia di dominio specifico, dei rigorosi requisiti di ragionamento numerico e della bassa tolleranza per gli errori fattuali. Conduciamo uno studio empirico controllato che dimostra come, in domini verticali specializzati, le prestazioni siano largamente determinate dalla qualità e dal profilo di difficoltà/verificabilità dei dati post-addestramento. Introduciamo ODA-Fin-SFT-318k, costruito tramite una distillazione e verifica multi-stadio per produrre supervisione di alta qualità basata sul Ragionamento a Catena (Chain-of-Thought), e ODA-Fin-RL-12k, curato per compiti difficili ma verificabili che bilanciano la precisione della ricompensa e la diversità dei task. Utilizzando le pipeline standard di SFT (Supervised Fine-Tuning) e RL (Reinforcement Learning), mostriamo che una distillazione di alta qualità del CoT stabilisce una base solida durante l'SFT, mentre un campionamento consapevole della difficoltà e della verificabilità migliora la generalizzazione nell'RL. Valutato su nove benchmark che coprono task finanziari generali, analisi del sentiment e ragionamento numerico, il nostro modello ODA-Fin-RL-8B supera costantemente i migliori LLM finanziari open-source (SOTA) di dimensioni comparabili. Rilasciamo i nostri dataset ODA-Fin-SFT-318k e ODA-Fin-RL-12k, insieme ai modelli addestrati, per promuovere la ricerca sull'IA finanziaria incentrata sui dati.
Sebbene i modelli generativi a pochi passi abbiano reso possibile una potente generazione di immagini e video a costi significativamente ridotti, i paradigmi generici di apprendimento per rinforzo (RL) per i modelli a pochi passi rimangono un problema irrisolto. Gli approcci RL esistenti per i modelli di diffusione a pochi passi si basano fortemente sulla retropropagazione attraverso modelli di ricompensa differenziabili, escludendo così la maggior parte degli importanti segnali di ricompensa del mondo reale, ad esempio ricompense non differenziabili come il gradimento binario umano, il conteggio di oggetti, ecc. Per incorporare correttamente le ricompense non differenziabili al fine di migliorare i modelli generativi a pochi passi, introduciamo TDM-R1, un nuovo paradigma di apprendimento per rinforzo basato su un modello leader a pochi passi, il Trajectory Distribution Matching (TDM). TDM-R1 disaccoppia il processo di apprendimento in apprendimento di una ricompensa surrogata e apprendimento del generatore. Inoltre, abbiamo sviluppato metodi pratici per ottenere segnali di ricompensa per ogni passo lungo la traiettoria di generazione deterministica del TDM, dando vita a un metodo unificato di post-addestramento RL che migliora significativamente la capacità dei modelli a pochi passi di gestire ricompense generiche. Conduciamo esperimenti approfonditi che spaziano dal rendering del testo, alla qualità visiva e all'allineamento alle preferenze. Tutti i risultati dimostrano che TDM-R1 è un potente paradigma di apprendimento per rinforzo per i modelli text-to-image a pochi passi, raggiungendo prestazioni all'avanguardia nell'apprendimento per rinforzo sia su metriche in-dominio che out-of-domain. Inoltre, TDM-R1 scala efficacemente anche al recente e potente modello Z-Image, superando costantemente sia le sue varianti a 100 NFE che quelle a pochi passi con soli 4 NFE. Pagina del progetto: https://github.com/Luo-Yihong/TDM-R1
I Vision Transformer (ViT) spesso si degradano in presenza di cambiamenti nella distribuzione dei dati perché si basano su correlazioni spurie, come gli indizi contestuali dello sfondo, piuttosto che su caratteristiche semanticamente significative. I metodi di regolarizzazione esistenti, che tipicamente si affidano a semplici maschere primo piano-sfondo, non riescono a catturare i concetti semantici granulari che definiscono un oggetto (ad esempio, "becco lungo" e "ali" per un "uccello"). Di conseguenza, questi metodi offrono una robustezza limitata ai cambiamenti distribuzionali. Per affrontare questa limitazione, introduciamo un nuovo framework di fine-tuning che indirizza il ragionamento del modello verso la semantica a livello di concetto. Il nostro approccio ottimizza le mappe di rilevanza interne del modello per allinearle a maschere concettuali georeferenziate spazialmente. Queste maschere sono generate automaticamente, senza annotazione manuale: i concetti rilevanti per la classe vengono prima proposti utilizzando un metodo basato su LLM e senza etichette, e poi segmentati utilizzando un VLM. L'obiettivo del fine-tuning allinea la rilevanza con queste regioni concettuali sopprimendo simultaneamente l'attenzione sulle aree spurie dello sfondo. Notevolmente, questo processo richiede solo un set minimo di immagini e utilizza la metà delle classi del dataset. Esperimenti estesi su cinque benchmark di out-of-distribution dimostrano che il nostro metodo migliora la robustezza in molteplici modelli basati su ViT. Inoltre, mostriamo che le mappe di rilevanza risultanti presentano un allineamento più forte con le parti semantiche dell'oggetto, offrendo un percorso scalabile verso modelli visivi più robusti e interpretabili. Infine, confermiamo che le maschere guidate dai concetti forniscono una supervisione più efficace per la robustezza del modello rispetto alle mappe di segmentazione convenzionali, supportando la nostra ipotesi centrale.
La fase di inizializzazione cold-start svolge un ruolo cruciale nell'addestramento dei Modelli Multimodali di Ragionamento Su larga scala (MLRMs), sebbene i suoi meccanismi rimangano insufficientemente compresi. Per analizzare questa fase, introduciamo il Visual Attention Score (VAS), una metrica basata sull'attenzione che quantifica quanto un modello si concentra sui token visivi. Rileviamo che le prestazioni nel ragionamento sono fortemente correlate con il VAS (r=0,9616): i modelli con VAS più elevato ottengono capacità di ragionamento multimodale sostanzialmente superiori. Sorprendentemente, il cold-start multimodale non riesce ad elevare il VAS, producendo distribuzioni di attenzione simili al modello base, mentre il cold-start esclusivamente testuale determina un aumento significativo. Definiamo questo fenomeno controintuitivo Localizzazione Pigra dell'Attenzione (Lazy Attention Localization). Per verificarne il ruolo causale, progettiamo interventi senza addestramento che modulano direttamente l'allocazione dell'attenzione durante l'inferenza, ottenendo miglioramenti prestazionali dell'1-2% senza alcun riaddestramento. Sulla base di queste intuizioni, proponiamo ulteriormente l'Ancoraggio e Riflessione Visiva Guidati dall'Attenzione (AVAR), un framework cold-start completo che integra sintesi di dati ancorati al visivo, obiettivi guidati dall'attenzione e modellazione di reward ancorata al visivo. Applicato a Qwen2.5-VL-7B, AVAR ottiene un miglioramento medio del 7,0% su 7 benchmark di ragionamento multimodale. Studi di ablazione confermano inoltre che ogni componente di AVAR contribuisce incrementalmente ai guadagni complessivi. Il codice, i dati e i modelli sono disponibili su https://github.com/lrlbbzl/Qwen-AVAR.
I metodi esistenti di personalizzazione concettuale hanno ottenuto risultati notevoli nell'adattamento fedele e multi-concetto. Tuttavia, essi trascurano spesso l'influenza sul comportamento e sulle capacità del modello originale durante l'apprendimento di nuovi concetti personalizzati. Per affrontare questo problema, proponiamo PureCC. PureCC introduce un nuovo obiettivo di apprendimento disaccoppiato per la personalizzazione concettuale, che combina la guida implicita del concetto target con la previsione condizionale originale. Questa forma separata consente a PureCC di concentrarsi sostanzialmente sul modello originale durante l'addestramento. Inoltre, basandosi su questo obiettivo, PureCC progetta una pipeline di addestramento a doppio ramo che include un estrattore congelato che fornisce rappresentazioni purificate del concetto target come guida implicita e un modello di flusso addestrabile che produce la previsione condizionale originale, raggiungendo congiuntamente un apprendimento puro per concetti personalizzati. Inoltre, PureCC introduce una nuova scala di guida adattativa λ^star per regolare dinamicamente l'intensità di guida del concetto target, bilanciando fedeltà di personalizzazione e preservazione del modello. Esperimenti estensivi dimostrano che PureCC raggiunge prestazioni all'avanguardia nel preservare il comportamento e le capacità originali, consentendo al contempo una personalizzazione concettuale ad alta fedeltà. Il codice è disponibile all'indirizzo https://github.com/lzc-sg/PureCC.
Il panorama dell'assistenza all'codifica tramite IA sta subendo un cambiamento fondamentale: dal ricorso a complessi plugin per IDE all'adozione di agenti versatili e nativi per il terminale. Operando direttamente nell'ambiente in cui gli sviluppatori gestiscono il controllo del codice sorgente, eseguono le build e distribuiscono gli ambienti, gli agenti basati su CLI offrono un'autonomia senza precedenti per attività di sviluppo a lungo termine. In questo articolo presentiamo OPENDEV, un agente di codifica open-source da riga di comando, progettato specificamente per questo nuovo paradigma. Un'assistenza autonoma efficace richiede controlli di sicurezza rigorosi e una gestione del contesto altamente efficiente per prevenire il rigonfiamento del contesto e il degrado del ragionamento. OPENDEV supera queste sfide attraverso un'architettura di sistema IA composta, che include un instradamento dei modelli specializzato per carico di lavoro, un'architettura a doppio agente che separa la pianificazione dall'esecuzione, il rilevamento lazy degli strumenti e una compattazione adattiva del contesto che riduce progressivamente le osservazioni più vecchie. Inoltre, impiega un sistema di memoria automatizzato per accumulare conoscenze specifiche del progetto tra le sessioni e contrasta l'affievolimento delle istruzioni attraverso promemori di sistema guidati da eventi. Applicando fasi di ragionamento esplicito e prioritarizzando l'efficienza del contesto, OPENDEV fornisce una base sicura ed estensibile per un'assistenza IA incentrata sul terminale, offrendo un modello di riferimento per un'ingegneria del software autonoma e robusta.
I modelli linguistici autoregressivi (AR) si basano su una tokenizzazione causale, ma estendere questo paradigma alla visione rimane non banale. Gli attuali tokenizzatori visivi appiattiscono le patch 2D in sequenze non causali o impongono ordinamenti euristici che non si allineano con il pattern di "predizione del token successivo". I recenti autoencoder diffusivi similmente non sono all'altezza: condizionare il decoder su tutti i token manca di causalità, mentre applicare un meccanismo di nested dropout introduce uno squilibrio. Per affrontare queste sfide, presentiamo CaTok, un tokenizzatore di immagini causale 1D con un decoder MeanFlow. Selezionando token su intervalli temporali e vincolandoli all'obiettivo MeanFlow, come illustrato in Fig. 1, CaTok apprende rappresentazioni causali 1D che supportano sia una generazione one-step veloce sia un campionamento multi-step ad alta fedeltà, catturando naturalmente diversi concetti visivi attraverso gli intervalli di token. Per stabilizzare e accelerare ulteriormente l'addestramento, proponiamo una semplice regolarizzazione REPA-A, che allinea le feature dell'encoder con i Modelli Fondazionali per la Visione (VFMs). Gli esperimenti dimostrano che CaTok raggiunge risultati allo stato dell'arte nella ricostruzione su ImageNet, raggiungendo 0.75 FID, 22.53 PSNR e 0.674 SSIM con meno epoche di addestramento, e il modello AR ottiene prestazioni comparabili agli approcci leader.
I modelli visione-linguaggio (VLM) sono emersi come una direzione promettente per la guida autonoma end-to-end, modellando congiuntamente osservazioni visive, contesto di guida e ragionamento basato sul linguaggio. Tuttavia, i sistemi esistenti basati su VLM affrontano un compromesso tra ragionamento di alto livello e pianificazione del movimento: i modelli di grandi dimensioni offrono una forte comprensione semantica ma sono costosi da adattare per un controllo preciso, mentre i piccoli modelli VLM possono essere messi a punto in modo efficiente ma spesso mostrano un ragionamento più debole. Proponiamo NaviDriveVLM, un framework disaccoppiato che separa il ragionamento dalla generazione di azioni utilizzando un Navigator su larga scala e un Driver leggero e addestrabile. Questo progetto preserva la capacità di ragionamento, riduce i costi di addestramento e fornisce una rappresentazione intermedia esplicita e interpretabile per la pianificazione a valle. Gli esperimenti sul benchmark nuScenes mostrano che NaviDriveVLM supera i baseline di grandi VLM nella pianificazione del movimento end-to-end.
La sintonizzazione basata su prompt CLIP consente ai modelli linguistico-visivi (VLM) preaddestrati di adattarsi efficientemente ai task downstream. Sebbene gli studi esistenti abbiano compiuto progressi significativi, prestano un'attenzione limitata ai cambiamenti nelle rappresentazioni interne di attenzione dei VLM durante il processo di sintonizzazione. In questo articolo, attribuiamo le modalità di fallimento delle previsioni della sintonizzazione dei prompt a spostamenti nell'attenzione sul foreground dell'encoder visivo, e proponiamo la Foreground View-Guided Prompt Tuning (FVG-PT), un modulo plug-and-play adattivo di guida all'attenzione sul foreground, per alleviare tali spostamenti. Nello specifico, FVG-PT introduce un Foreground Reliability Gate addestrabile per migliorare automaticamente la qualità della vista del foreground, applica un modulo di Foreground Distillation Compensation per guidare l'attenzione visiva verso il foreground, e introduce ulteriormente un modulo di Prior Calibration per mitigare il degrado della generalizzazione causato da un'eccessiva focalizzazione sul foreground. Esperimenti su molteplici modelli di backbone e dataset dimostrano l'efficacia e la compatibilità di FVG-PT. I codici sono disponibili su: https://github.com/JREion/FVG-PT
L'addestramento di modelli di nuova generazione per la generazione di codice richiede dataset di alta qualità, ma i dataset esistenti presentano squilibri di difficoltà, incoerenze di formato e problemi di qualità dei dati. Affrontiamo queste sfide attraverso un'elaborazione sistematica dei dati e un ridimensionamento della difficoltà. Introduciamo un Framework di Elaborazione Dati in quattro fasi che comprende raccolta, elaborazione, filtraggio e verifica, incorporando un Filtro Automatico di Difficoltà tramite una struttura predict-calibrate-select basata su LLM che sfrutta metriche di difficoltà multidimensionali su cinque dimensioni ponderate per conservare i problemi impegnativi rimuovendo quelli banali. Il dataset MicroCoder risultante comprende decine di migliaia di problemi curati di programmazione competitiva reali provenienti da diverse piattaforme, con enfasi sulla recentezza e sulla difficoltà. Le valutazioni su LiveCodeBench rigorosamente non visto dimostrano che MicroCoder raggiunge miglioramenti delle prestazioni 3 volte maggiori entro 300 step di addestramento rispetto a dataset di riferimento ampiamente utilizzati di dimensioni comparabili, con vantaggi consistenti sia sotto gli algoritmi di addestramento GRPO che la sua variante. Il dataset MicroCoder fornisce miglioramenti evidenti sui problemi di difficoltà media e difficile attraverso diverse dimensioni del modello, raggiungendo guadagni relativi fino al 17,2% nelle prestazioni complessive dove le capacità del modello sono maggiormente sollecitate. Questi risultati convalidano che una cura dei dati consapevole della difficoltà migliora le prestazioni del modello su compiti impegnativi, fornendo molteplici spunti per la creazione di dataset nella generazione di codice.
I moderni modelli di generazione di codice producono output più lunghi, mostrano una crescita accelerata delle capacità e dinamiche di addestramento modificate, rendendo le metodologie, gli algoritmi e i dataset di addestramento tradizionali inefficaci per migliorare le loro prestazioni. Per affrontare questi colli di bottiglia dell'addestramento, proponiamo MicroCoder-GRPO, un approccio migliorato di Ottimizzazione della Politica Relativa di Gruppo con tre innovazioni: mascheramento condizionale del troncamento per migliorare il potenziale di output lungo mantenendo la stabilità dell'addestramento, selezione della temperatura basata sulla diversità per mantenere e incoraggiare la diversità degli output, e rimozione della perdita KL con alti rapporti di clipping per facilitare la diversità delle soluzioni. MicroCoder-GRPO raggiunge un miglioramento relativo fino al 17,6% rispetto a baseline solide su LiveCodeBench v6, con guadagni più pronunciati in contesti di valutazione estesi. Inoltre, rilasciamo MicroCoder-Dataset, un corpus di addestramento più impegnativo che ottiene guadagni prestazionali 3 volte maggiori rispetto ai dataset mainstream su LiveCodeBench v6 entro 300 passi di addestramento, e MicroCoder-Evaluator, un framework robusto con un'accuratezza di valutazione migliorata di circa il 25% e un'esecuzione circa il 40% più veloce. Attraverso un'analisi completa su più di trenta esperimenti controllati, riveliamo 34 insight sull'addestramento attraverso sette aspetti principali, dimostrando che modelli adeguatamente addestrati possono raggiungere prestazioni competitive con controparti più grandi.
La sparsità semi-strutturata N:M e la quantizzazione a basso bit (ad esempio, BitNet a 1.58 bit) sono due approcci promettenti per migliorare l'efficienza dei Large Language Model (LLM), ma sono stati finora studiati principalmente in modo isolato. In questo lavoro, ne investigiamo l'interazione e dimostriamo che BitNet a 1.58 bit è intrinsecamente più compatibile con la sparsità N:M rispetto ai modelli in precisione piena. Per studiare questo effetto, proponiamo Sparse-BitNet, un framework unificato che applica congiuntamente la quantizzazione a 1.58 bit e la sparsificazione N:M dinamica, garantendo per la prima volta un addestramento stabile. Attraverso molteplici scale modelli e regimi di addestramento (pre-training sparso e schedulazioni dense-to-sparse), BitNet a 1.58 bit mostra costantemente un degrado delle prestazioni inferiore rispetto ai baseline in precisione piena agli stessi livelli di sparsità e può tollerare una sparsità strutturata più elevata prima del collasso dell'accuratezza. Inoltre, utilizzando la nostra unità di calcolo tensoriale sparsa personalizzata, Sparse-BitNet raggiunge accelerazioni sostanziali sia in addestramento che in inferenza, fino a 1.30X. Questi risultati evidenziano come combinare la quantizzazione a bit estremamente bassi con la sparsità semi-strutturata N:M sia una direzione promettente per LLM efficienti. Codice disponibile all'indirizzo https://github.com/AAzdi/Sparse-BitNet.
Con il crescente orientamento della creazione di contenuti video verso narrazioni di lunga durata, diventa sempre più importante comporre clip brevi in trame coerenti. Tuttavia, le formulazioni di retrieval prevalenti rimangono agnostiche al contesto al momento dell'inferenza, privilegiando l'allineamento semantico locale mentre trascurano la coerenza di stato e identità. Per affrontare questa limitazione strutturale, formalizziamo il compito del Consistent Video Retrieval (CVR) e introduciamo un benchmark diagnostico che abbraccia YouCook2, COIN e CrossTask. Proponiamo CAST (Context-Aware State Transition), un adattatore leggero, plug-and-play, compatibile con diversi spazi di embedding visione-linguaggio congelati. Prevedendo un aggiornamento residuo (Δ) condizionato dallo stato a partire dalla cronologia visiva, CAST introduce un bias induttivo esplicito per l'evoluzione dello stato latente. Esperimenti estensivi mostrano che CAST migliora le prestazioni su YouCook2 e CrossTask, rimane competitivo su COIN e supera costantemente i baseline zero-shot su diversi backbone fondazionali. Inoltre, CAST fornisce un utile segnale di reranking per candidati di generazione video di tipo black-box (ad es. da Veo), promuovendo continuazioni temporalmente più coerenti.
I modelli linguistici autoregressivi (AR) costruiscono le rappresentazioni in modo incrementale attraverso la predizione da sinistra a destra, mentre i modelli linguistici a diffusione (dLLM) vengono addestrati tramite la denoising dell'intera sequenza. Sebbene i dLLM recenti eguaglino le prestazioni AR, non è ancora chiaro se gli obiettivi di diffusione rimodellino fondamentalmente le rappresentazioni interne attraverso la profondità del modello. Eseguiamo la prima analisi rappresentazionale a livello di layer e di token confrontando dLLM nativi (LLaDA), modelli AR nativi (Qwen2.5) e dLLM inizializzati come AR (Dream-7B). Scopriamo che gli obiettivi di diffusione producono astrazioni diverse e più gerarchiche, con una sostanziale ridondanza negli strati iniziali e un bias di recenza ridotto, mentre gli obiettivi AR producono rappresentazioni strettamente accoppiate e dipendenti dalla profondità. Fattore cruciale, i dLLM inizializzati come AR mantengono dinamiche rappresentazionali simili all'AR nonostante l'addestramento a diffusione, rivelando un persistente bias di inizializzazione. Sfruttando questa ridondanza rappresentativa osservata, introduciamo un metodo statico, agnostico al compito, di salto dei layer (*layer-skipping*) durante l'inferenza, che non richiede modifiche architetturali né condivisione della KV-cache. I dLLM nativi raggiungono una riduzione dei FLOPs fino al 18,75% preservando oltre il 90% delle prestazioni su benchmark di ragionamento e generazione di codice, mentre i modelli AR si degradano bruscamente con un salto comparabile. Questi risultati collegano gli obiettivi di addestramento alla struttura rappresentativa e abilitano guadagni di efficienza pratici e ortogonali alla cache.
Introduciamo OfficeQA Pro, un benchmark per valutare gli agenti di IA sul ragionamento multimodale e fondato su documenti, applicato a un corpus documentale ampio ed eterogeneo. Il corpus è costituito dai Bollettini del Tesoro degli Stati Uniti che coprono quasi 100 anni, comprendendo 89.000 pagine e oltre 26 milioni di valori numerici. OfficeQA Pro consiste in 133 domande che richiedono un'analisi precisa dei documenti, un recupero delle informazioni e un ragionamento analitico che spazia sia su testo non strutturato che su dati tabellari. I modelli linguistici all'avanguardia, inclusi Claude Opus 4.6, GPT-5.4 e Gemini 3.1 Pro Preview, ottengono un'accuratezza inferiore al 5% su OfficeQA Pro quando si basano sulla conoscenza parametrica, e meno del 12% con accesso aggiuntivo al web. Quando viene fornito loro direttamente l'accesso al corpus documentale, questi agenti all'avanguardia continuano a incontrare difficoltà su oltre la metà delle domande, raggiungendo in media un punteggio del 34,1%. Rileviamo che fornire agli agenti una rappresentazione strutturata del documento prodotta da Databricks' `ai_parse_document` produce un guadagno di performance relativo medio del 16,1% tra gli agenti. Eseguiamo ulteriori studi di ablazione per analizzare gli effetti della selezione del modello, della rappresentazione tabellare, della strategia di retrieval e dello scaling a tempo di test sulle prestazioni. Nonostante questi miglioramenti, rimane un margine di progresso significativo prima che gli agenti possano essere considerati affidabili per un ragionamento fondato di livello enterprise.
La modifica basata su prompt diretti fallisce spesso su trasformazioni complesse, poiché prompt vaghi e soggettivi richiedono una comprensione sfumata di ciò che dovrebbe essere modificato nell'immagine. La nostra intuizione fondamentale è che sfruttare strumenti di modifica composizionale dell'immagine, piuttosto che prompt diretti, trae vantaggio da una pianificazione strutturata a livello di agente con ragionamento esplicito, portando a risultati migliori. Questo quadro di pianificazione strutturata consente un efficiente post-addestramento RL offline su traiettorie con punteggio di qualità per migliorare le prestazioni. Presentiamo un framework di post-addestramento RL agentico basato su strumenti che affronta questo problema attraverso una pianificazione strutturata con ragionamento a catena di pensieri. I nostri contributi chiave includono: (1) Una metodologia di pianificazione agentica basata su strumenti che combina una libreria composizionale di trasformazioni primitive ortogonali, una rappresentazione contestuale strutturata e un ragionamento esplicito per passo per scomporre lo styling complesso in sequenze di strumenti interpretabili. (2) Una pipeline di generazione di dati sintetici che produce tre dataset su larga scala (ciascuno con ~10K traiettorie simulate) contenenti catene di ragionamento, piani e punteggi di qualità, poiché nessun dataset esistente fornisce tale supervisione. I nostri dataset e il codice sono pubblicamente disponibili sul repository HuggingFace. (3) Metodi di addestramento RL offline per apprendere pianificatori con ragionamento come nostro contributo algoritmico principale, che migliorano costantemente rispetto al baseline Edit-Only nella qualità visiva e nell'aderenza alle istruzioni. (4) Una valutazione completa su modelli Qwen3-VL da 4B e 8B parametri che dimostra come i nostri metodi superino altri baseline nella maggior parte dei task composizionali, convalidato da valutazioni umane.
I recenti modelli generativi video di mondo mirano a simulare l'evoluzione degli ambienti visivi, consentendo a un osservatore di esplorare interattivamente la scena tramite il controllo della telecamera. Tuttavia, essi presuppongono implicitamente che il mondo evolva solo all'interno del campo visivo dell'osservatore. Una volta che un oggetto esce dalla vista dell'osservatore, il suo stato viene "congelato" nella memoria, e rivisitare la stessa regione in un secondo momento spesso non riflette gli eventi che sarebbero dovuti accadere nel frattempo. In questo lavoro, identifichiamo e formalizziamo questa limitazione trascurata come il problema delle "dinamiche fuori campo", che impedisce ai modelli video di mondo di rappresentare un mondo in continua evoluzione. Per affrontare questo problema, proponiamo LiveWorld, un framework innovativo che estende i modelli video di mondo per supportare un'evoluzione mondiale persistente. Invece di trattare il mondo come una memoria osservativa statica, LiveWorld modella uno stato globale persistente composto da uno sfondo 3D statico e da entità dinamiche che continuano a evolversi anche quando non sono osservate. Per mantenere queste dinamiche non viste, LiveWorld introduce un meccanismo basato su monitor che simula autonomamente la progressione temporale delle entità attive e sincronizza i loro stati evoluti al momento della rivisitazione, garantendo un rendering spazialmente coerente. Per la valutazione, introduciamo inoltre LiveBench, un benchmark dedicato al compito di mantenere le dinamiche fuori campo. Esperimenti estesi mostrano che LiveWorld abilita un'evoluzione persistente degli eventi e una coerenza scenica a lungo termine, colmando il divario tra l'attuale memoria basata su osservazioni 2D e una vera simulazione dinamica del mondo in 4D. Il baseline e il benchmark saranno pubblicamente disponibili all'indirizzo https://zichengduan.github.io/LiveWorld/index.html.
In questo articolo, affrontiamo il problema del trasferimento sim-to-real di politiche per compiti ad alto contatto basate su dati tattili. I metodi esistenti si concentrano principalmente su sensori di tipo visivo ed enfatizzano la qualità del rendering delle immagini, fornendo al contempo modelli eccessivamente semplificati della forza e dello sforzo di taglio. Di conseguenza, questi modelli presentano un ampio divario sim-to-real per molti compiti di manipolazione fine. Presentiamo qui HydroShear, un simulatore tattile idroelastico non olonomo che avanza lo stato dell'arte modellando: a) le transizioni di adesione-scorrimento (stick-slip), b) l'accumulo di forza e sforzo di taglio dipendente dal percorso, e c) le interazioni complete SE(3) tra oggetto e sensore. HydroShear estende i modelli di contatto idroelastici utilizzando le Funzioni di Distanza con Segno (SDF) per tracciare gli spostamenti dei punti sulla superficie di un indentatore durante l'interazione fisica con la membrana del sensore. Il nostro approccio genera campi di forza basati sulla fisica e computazionalmente efficienti a partire da geometrie "watertight" arbitrarie, rimanendo al contempo agnostico rispetto al motore fisico sottostante. Negli esperimenti con i sensori GelSight Mini, HydroShear riproduce lo sforzo di taglio tattile reale in modo più fedele rispetto ai metodi esistenti. Questa fedeltà consente il trasferimento sim-to-real zero-shot di politiche di apprendimento per rinforzo attraverso quattro compiti: inserimento di un piolo, riempimento di un contenitore, sistemazione di un libro su uno scaffale (per l'inserimento) e apertura di un cassetto (per il controllo fine della presa in condizioni di scorrimento). Il nostro metodo raggiunge un tasso di successo medio del 93%, superando le politiche addestrate su immagini tattili (34%) e i metodi alternativi di simulazione dello sforzo di taglio (58%-61%).
I modelli di base stanno transitando da predittori offline a sistemi distribuiti progettati per operare su orizzonti temporali prolungati. Negli scenari reali di implementazione, gli obiettivi non sono fissi: i domini subiscono derive, le preferenze degli utenti evolvono e nuovi compiti emergono dopo che il modello è stato rilasciato. Ciò eleva l'apprendimento continuo e la personalizzazione istantanea da caratteristiche opzionali a requisiti architetturali fondamentali. Tuttavia, la maggior parte delle pipeline di adattamento segue ancora un paradigma di pesi statici: dopo l'addestramento (o dopo qualsiasi fase di adattamento), l'inferenza esegue un unico vettore di parametri indipendentemente dall'intento dell'utente, dal dominio o dai vincoli specifici dell'istanza. Questo approccio tratta il modello addestrato o adattato come un singolo punto nello spazio dei parametri. In regimi eterogenei e in continua evoluzione, obiettivi distinti possono indurre regioni fattibili separate sui parametri, costringendo qualsiasi aggiornamento condiviso a compromessi, interferenze o overspecializzazione. Di conseguenza, l'apprendimento continuo e la personalizzazione sono spesso implementati come riscritture ripetute di pesi condivisi, rischiando il degrado dei comportamenti appresi in precedenza. Proponiamo HY-WU (Weight Unleashing), un framework di adattamento memory-first che sposta la pressione adattativa dalla riscrittura di un singolo punto parametrico condiviso. HY-WU implementa una memoria funzionale (a livello di operatore) come modulo neurale: un generatore che sintetizza aggiornamenti dei pesi on-the-fly dalla condizione dell'istanza, producendo operatori specifici per istanza senza ottimizzazione al momento del test.
Le slide costituiscono un mezzo fondamentale per veicolare informazioni in contesti orientati alla presentazione, come l'ambito accademico, l'istruzione e il mondo degli affari. Nonostante la loro importanza, la creazione di presentazioni di alta qualità rimane un'attività che richiede tempo e un notevole impegno cognitivo. I recenti progressi nei modelli generativi, come Nano Banana Pro, hanno reso la generazione automatica di slide sempre più fattibile. Tuttavia, le valutazioni esistenti per la generazione di slide sono spesso grossolane e si basano su giudizi olistici, rendendo difficile valutare con precisione le capacità dei modelli o monitorare progressi significativi in questo campo. Nella pratica, la mancanza di criteri di valutazione granulari e verificabili rappresenta un collo di bottiglia critico sia per la ricerca che per l'implementazione nel mondo reale. In questo articolo, proponiamo PresentBench, un benchmark granulare e basato su rubriche per valutare la generazione automatica di slide in scenari reali. Esso contiene 238 istanze di valutazione, ciascuna corredata dai materiali di background necessari per la creazione delle slide. Inoltre, abbiamo progettato manualmente una media di 54,1 elementi di controllo per istanza, ciascuno formulato come domanda binaria, per consentire una valutazione granulare e specifica per ogni istanza delle presentazioni generate. Esperimenti estensivi dimostrano che PresentBench fornisce risultati di valutazione più affidabili rispetto ai metodi esistenti e mostra un allineamento significativamente più forte con le preferenze umane. Inoltre, il nostro benchmark rivela che NotebookLM supera significativamente altri metodi di generazione di slide, evidenziando sostanziali progressi recenti in questo dominio.
La distillazione della conoscenza (KD) è stata ampiamente applicata nella segmentazione semantica per comprimere modelli di grandi dimensioni, ma gli approcci convenzionali preservano principalmente l'accuratezza in-dominio trascurando la generalizzazione out-of-domain, essenziale in presenza di cambiamenti distributivi. Questa limitazione diventa più severa con l'emergere dei modelli fondazione per la visione (VFM): sebbene i VFM mostrino una forte robustezza su dati non visti, distillandoli con la KD convenzionale si compromette spesso questa capacità. Proponiamo la Distillazione della Conoscenza Generalizzabile (GKD), un framework multi-stadio che migliora esplicitamente la generalizzazione. GKD disaccoppia l'apprendimento della rappresentazione dall'apprendimento del compito. Nella prima fase, lo studente acquisisce rappresentazioni agnostiche al dominio attraverso una distillazione selettiva delle feature, mentre nella seconda fase queste rappresentazioni vengono congelate per l'adattamento al compito, mitigando così l'overfitting sui domini visibili. Per supportare ulteriormente il transfer, introduciamo un meccanismo di distillazione soft basato su query, in cui le feature dello studente fungono da query per le rappresentazioni del docente per recuperare selettivamente conoscenza spaziale trasferibile dai VFM. Esperimenti estesi su cinque benchmark di generalizzazione di dominio dimostrano che GKD supera costantemente i metodi KD esistenti, ottenendo miglioramenti medi di +1,9% nella distillazione foundation-to-foundation (F2F) e +10,6% in quella foundation-to-local (F2L). Il codice sarà disponibile su https://github.com/Younger-hua/GKD.
I modelli linguistici moderni si basano ancora su tokenizzazioni sublessicali predefinite e fisse. Una volta addestrato un tokenizer, il LM può operare solo a questo livello di granularità fisso, il che spesso porta a comportamenti fragili e controintuitivi anche in modelli di ragionamento altrimenti robusti. Introduciamo ByteFlow Net, una nuova architettura gerarchica che elimina completamente i tokenizer e consente invece ai modelli di apprendere autonomamente la segmentazione dei flussi di byte grezzi in unità semanticamente significative. ByteFlow Net esegue una segmentazione guidata dalla compressione basata sul tasso di codifica delle rappresentazioni latenti, producendo confini adattativi mentre preserva un grafo computazionale statico tramite selezione Top-K. A differenza dei metodi di auto-tokenizzazione precedenti che dipendono da euristiche fragili con bias induttivi progettati manualmente, ByteFlow Net adatta la propria granularità rappresentativa interna all'input stesso. Gli esperimenti dimostrano che questa strategia di segmentazione basata sulla compressione produce guadagni prestazionali sostanziali, con ByteFlow Net che supera sia i Transformer basati su BPE che le architetture precedenti a livello di byte. Questi risultati suggeriscono che la modellazione end-to-end senza tokenizer non sia solo fattibile ma anche più efficace, aprendo la strada verso modelli linguistici più adattivi e fondati sull'informazione.
L'ottimizzazione manuale dei kernel GPU è un compito complesso e che richiede tempo. Con il rapido sviluppo degli LLM, l'ottimizzazione automatizzata dei kernel GPU sta gradualmente diventando una realtà tangibile. Tuttavia, gli attuali metodi di ottimizzazione automatizzata basati su LLM si concentrano in modo restrittivo su applicazioni di machine learning, come l'ottimizzazione degli operatori PyTorch, trascurando ambiti più ampi come le operazioni su matrici sparse nel calcolo scientifico. L'estensione a queste applicazioni più vaste comporta nuove sfide per i benchmark e gli algoritmi. Pertanto, lo sviluppo di un metodo di ottimizzazione automatizzata dei kernel a scopo generale diventa il nostro obiettivo primario. In questo articolo, affrontiamo l'assenza di una valutazione sistematica per impostazioni multi-scenario introducendo MSKernelBench, che copre molteplici scenari, incluse operazioni algebriche fondamentali, kernel LLM comuni, operatori per matrici sparse e routine di calcolo scientifico, ciascuno con supporto per precisione FP32 e BF16. Basandoci su questo benchmark, introduciamo CUDAMaster, un sistema multi-agente e hardware-aware per l'ottimizzazione dei kernel che sfrutta le informazioni di profilazione e costruisce automaticamente l'intera toolchain di compilazione ed esecuzione. I risultati sperimentali dimostrano che CUDAMaster raggiunge significativi miglioramenti di velocità sulla maggior parte degli operatori, superando Astra di circa il 35%. In diversi casi, le sue prestazioni eguagliano o superano quelle di librerie altamente ottimizzate e closed-source come cuBLAS. Una demo che mostra il codice originale e ottimizzato per ciascun operatore è disponibile all'indirizzo https://hanyx2021.github.io/MSKernelBenchDemo/.
Le mappe di flusso consentono la generazione di immagini di alta qualità in un singolo passaggio in avanti. Tuttavia, a differenza dei modelli di diffusione iterativi, la loro mancanza di una traiettoria di campionamento esplicita impedisce l'incorporazione di vincoli esterni per la generazione condizionata e la risoluzione di problemi inversi. Proponiamo le Mappe di Flusso Variazionali (Variational Flow Maps, VFMs), un framework per il campionamento condizionato che sposta la prospettiva del condizionamento dal "guidare un percorso di campionamento" a quella di "apprendere il rumore iniziale appropriato". Nello specifico, data un'osservazione, cerchiamo di apprendere un modello adattatore di rumore che restituisca una distribuzione di rumore, in modo che, dopo la mappatura nello spazio dei dati tramite la mappa di flusso, i campioni rispettino l'osservazione e il precedente sui dati. A tal fine, sviluppiamo un obiettivo variazionale basato su principi che addestra congiuntamente l'adattatore di rumore e la mappa di flusso, migliorando l'allineamento rumore-dati, in modo che il campionamento da un posterior di dati complesso sia ottenuto con un semplice adattatore. Esperimenti su vari problemi inversi mostrano che le VFMs producono campioni condizionati ben calibrati in uno (o pochi) passi. Per ImageNet, le VFMs raggiungono una fedeltà competitiva accelerando il campionamento di ordini di grandezza rispetto ad alternative iterative basate su modelli di diffusione/flusso. Il codice è disponibile all'indirizzo https://github.com/abbasmammadov/VFM
Prevedere come le cellule rispondono alle perturbazioni genetiche è fondamentale per comprendere la funzione genica, i meccanismi patologici e lo sviluppo di terapie. Sebbene i recenti approcci di deep learning abbiano mostrato potenzialità nella modellizzazione delle risposte cellulari a perturbazioni a livello di singola cellula, essi faticano a generalizzare attraverso diversi tipi cellulari e contesti di perturbazione a causa di informazioni contestuali limitate durante la generazione. Introduciamo PT-RAG (Perturbation-aware Two-stage Retrieval-Augmented Generation), un framework innovativo che estende la Generazione Aumentata tramite Recupero (RAG) oltre le tradizionali applicazioni dei modelli linguistici alla biologia cellulare. A differenza dei sistemi RAG standard progettati per il recupero di testo con LLM pre-addestrati, il recupero di perturbazioni manca di metriche di similarità consolidate e richiede di apprendere cosa costituisce un contesto rilevante, rendendo essenziale un recupero differenziabile. PT-RAG affronta questa sfida attraverso una pipeline a due stadi: prima, recupera le perturbazioni candidate K utilizzando gli embedding di GenePT, poi affina selettivamente la scelta attraverso un campionamento discreto Gumbel-Softmax condizionato sia dallo stato cellulare che dalla perturbazione in input. Questo recupero differenziabile e consapevole del tipo cellulare permette l'ottimizzazione end-to-end dell'obiettivo di recupero congiuntamente alla generazione. Sul dataset di perturbazione a singolo gene Replogle-Nadig, dimostriamo che PT-RAG supera sia STATE che il RAG standard in condizioni sperimentali identiche, con i miglioramenti più significativi nelle metriche di similarità distribuzionale (W_1, W_2). È degno di nota che il fallimento eclatante del RAG standard sia di per sé un risultato chiave: dimostra che in questo ambito è essenziale un recupero differenziabile e consapevole del tipo cellulare, e che un recupero ingenuo può attivamente danneggiare le prestazioni. I nostri risultati stabiliscono la generazione aumentata tramite recupero come un paradigma promettente per modellare le risposte cellulari alla perturbazione genica. Il codice per riprodurre i nostri esperimenti è disponibile all'indirizzo https://github.com/difra100/PT-RAG_ICLR.
Gli agenti moderni per interfacce grafiche (GUI) basati su modelli visione-linguaggio (VLM) sono tenuti non solo a eseguire azioni con precisione, ma anche a rispondere alle istruzioni dell'utente con bassa latenza. Sebbene la ricerca esistente sulla sicurezza degli agenti GUI si concentri principalmente sulla manipolazione della correttezza delle azioni, i rischi per la sicurezza legati all'efficienza di risposta rimangono in gran parte inesplorati. In questo articolo introduciamo SlowBA, un nuovo attacco backdoor che mira alla reattività degli agenti GUI basati su VLM. L'idea chiave è manipolare la latenza di risposta inducendo catene di ragionamento eccessivamente lunghe in presenza di specifici pattern trigger. Per raggiungere questo obiettivo, proponiamo una strategia di iniezione backdoor a livello di ricompensa (RBI) in due fasi: prima allinea il formato di risposta lunga e poi impara l'attivazione trigger-aware attraverso l'apprendimento per rinforzo. Inoltre, progettiamo finestre pop-up realistiche come trigger che compaiono naturalmente negli ambienti GUI, migliorando la dissimulazione dell'attacco. Esperimenti estesi su più dataset e baseline dimostrano che SlowBA può aumentare significativamente la lunghezza e la latenza delle risposte, preservando in larga misura l'accuratezza del compito. L'attacco rimane efficace anche con un basso rapporto di avvelenamento e in diverse configurazioni di difesa. Questi risultati rivelano una vulnerabilità della sicurezza precedentemente trascurata negli agenti GUI e sottolineano la necessità di difese che considerino sia la correttezza delle azioni che l'efficienza di risposta. Il codice è disponibile all'indirizzo https://github.com/tu-tuing/SlowBA.
Studiamo l'autodiffusioforesi di una particella sferica chimicamente attiva in prossimità di una parete planare e impermeabile, concentrandoci sull'influenza dell'orientamento della particella sulla propulsione. Analizziamo una particella di Janus con attività chimica superficiale asimmetrica, costituita da una piccola regione inerte all'interno di un cappuccio cataliticamente attivo. Sebbene le simulazioni numeriche siano state utilizzate per studiare tali particelle, esse incontrano difficoltà nel risolvere il flusso e il trasporto nel regime di estrema vicinanza alla parete a causa del confinamento geometrico e dei ripidi gradienti di concentrazione del soluto. Affrontiamo questa limitazione attraverso un'analisi asintotica nel limite di quasi-contatto, dove lo spazio tra la particella e la parete è molto ridotto. In particolare, consideriamo il limite distinto in cui la regione inerte ha una dimensione asintoticamente confrontabile con la regione di lubrificazione. Analizziamo una configurazione assialsimmetrica in cui la faccia inerte è orientata parallelamente alla parete ed estendiamo l'analisi a orientamenti leggermente inclinati. Troviamo che il ribaltamento determina se una particella inclinata ruota nuovamente verso lo stato assialsimmetrico o continua a riorientarsi, caratterizzando così la sua stabilità rotazionale nel regime di quasi-contatto.
La generazione di output diversificati è necessaria per un'esplorazione efficace nei compiti di ragionamento complesso, come la generazione di codice e la risoluzione di problemi matematici. Problemi di tipo Pass@k beneficiano di candidati distinti che coprano lo spazio delle soluzioni. Tuttavia, gli approcci di campionamento tradizionali spesso sprecano risorse computazionali su modalità di fallimento ripetitive. Sebbene i Modelli Linguistici di Diffusione siano emersi come un'alternativa competitiva al paradigma Autoregressivo prevalente, rimangono suscettibili a questa ridondanza, con campioni indipendenti che collassano frequentemente in modalità simili. Per affrontare questo problema, proponiamo un intervento a basso costo e senza necessità di addestramento per migliorare la diversità generativa nei Modelli Linguistici di Diffusione. Il nostro approccio modifica sequenzialmente i campioni intermedi in un batch, dove ogni campione viene respinto dallo spazio delle caratteristiche dei campioni precedenti, penalizzando attivamente la ridondanza. A differenza dei metodi precedenti che richiedono riaddestramento o beam search, la nostra strategia comporta un overhead computazionale trascurabile, garantendo al contempo che ogni campione apporti una prospettiva unica al batch. Valutiamo il nostro metodo sui benchmark HumanEval e GSM8K utilizzando il modello LLaDA-8B-Instruct. I nostri risultati dimostrano un miglioramento significativo della diversità e delle prestazioni Pass@k attraverso varie impostazioni di temperatura. Come semplice modifica al processo di campionamento, il nostro metodo offre un miglioramento immediato e a basso costo per gli attuali e futuri Modelli Linguistici di Diffusione in compiti che beneficiano di una ricerca di soluzioni diversificata. Rendiamo disponibile il nostro codice all'indirizzo https://github.com/sean-lamont/odd.
Il flusso del traffico urbano è governato dall'interazione complessa e non lineare tra la configurazione dell'uso del suolo e la domanda di mobilità eterogenea da un punto di vista spaziotemporale. I modelli convenzionali di regressione globale e di serie temporali non riescono a catturare simultaneamente queste dinamiche multi-scala attraverso molteplici modalità di spostamento. Questo studio propone un framework analitico ibrido GeoAI che integra sequenzialmente la Regressione Geograficamente Ponderata Multi-scala (MGWR), le Foreste Casuali (RF) e le Reti Grafici Convoluzionali Spazio-Temporali (ST-GCN) per modellare l'eterogeneità spaziotemporale dei modelli di flusso del traffico e la loro interazione con l'uso del suolo in tre modalità di mobilità: veicoli a motore, trasporto pubblico e trasporto attivo. Applicando il framework a un dataset calibrato empiricamente di 350 zone di analisi del traffico in sei città che coprono due morfologie urbane contrastanti, emergono quattro risultati chiave: (i) l'ibrido GeoAI raggiunge un errore quadratico medio (RMSE) di 0,119 e un R² di 0,891, superando tutti i benchmark del 23-62%; (ii) l'analisi SHAP identifica la miscela di usi del suolo come il predittore più forte per i flussi di veicoli a motore e la densità delle fermate di transito come il predittore più forte per il trasporto pubblico; (iii) il clustering DBSCAN identifica cinque tipologie di traffico urbano funzionalmente distinte con un punteggio di silhuette di 0,71, e i residui dell'ibrido GeoAI mostrano un indice I di Moran=0,218 (p<0,001), una riduzione del 72% rispetto ai modelli di regressione lineare semplice (OLS); e (iv) esperimenti di trasferimento cross-city rivelano una trasferibilità moderata all'interno dei cluster (R²>=0,78) e una generalizzabilità limitata tra cluster, sottolineando la primaria importanza del contesto morfologico urbano. Il framework offre a pianificatori e ingegneri dei trasporti un toolkit interpretabile e scalabile per la gestione evidence-based della mobilità multimodale e la progettazione di politiche per l'uso del suolo.
Tracking any point (TAP) è un compito fondamentale ma impegnativo nella visione artificiale, che richiede alta precisione e ragionamento sul movimento a lungo termine. I recenti tentativi di combinare frame RGB e flussi di eventi hanno mostrato risultati promettenti, ma si basano tipicamente su fusioni sincrone o non adattative, portando a disallineamenti temporali e a un grave degrado delle prestazioni quando una modalità fallisce. Introduciamo TAPFormer, un framework basato su transformer che esegue una fusione asincrona e temporalmente coerente di frame ed eventi per un tracking robusto e ad alta frequenza di punti arbitrari. La nostra innovazione principale è un meccanismo di Transient Asynchronous Fusion (TAF), che modella esplicitamente l'evoluzione temporale tra frame discreti attraverso aggiornamenti continui degli eventi, colmando il divario tra frame a bassa frequenza ed eventi ad alta frequenza. Inoltre, un modulo di Cross-modal Locally Weighted Fusion (CLWF) regola in modo adattivo l'attenzione spaziale in base all'affidabilità della modalità, producendo feature stabili e discriminative anche in condizioni di sfocatura o scarsa illuminazione. Per valutare il nostro approccio in condizioni realistiche, abbiamo costruito un nuovo dataset TAP reale frame-eventi in diverse condizioni di illuminazione e movimento. Il nostro metodo supera i tracker di punti esistenti, ottenendo un miglioramento del 28,2% nell'errore medio dei pixel entro soglia. Inoltre, sui benchmark standard per il point tracking, il nostro tracker raggiunge costantemente le migliori prestazioni. Sito web del progetto: tapformer.github.io
I modelli di diffusione generativa sono sempre più utilizzati per l'aumento dei dati di imaging medico, ma il prompting testuale non può produrre dati di addestramento causali. Il re-prompting riavvia l'intera traiettoria di generazione, alterando anatomia, texture e sfondo. I metodi di editing basati sull'inversione introducono un errore di ricostruzione che causa uno scostamento strutturale. Proponiamo MedSteer, un framework di attivazione guidata senza addestramento per la sintesi endoscopica. MedSteer identifica un vettore di patologia per ogni coppia di prompt contrastivi negli strati di cross-attention di un diffusion transformer. Al momento dell'inferenza, guida le attivazioni dell'immagine lungo questo vettore, generando coppie controfattuali da zero in cui l'unica differenza è il concetto guidato. Tutta la restante struttura è preservata per costruzione. Valutiamo MedSteer attraverso tre esperimenti su Kvasir v3 e HyperKvasir. Sulla generazione controfattuale attraverso tre coppie di concetti clinici, MedSteer raggiunge tassi di inversione (flip rate) di 0,800, 0,925 e 0,950, superando la migliore baseline basata su inversione sia nel tasso di inversione del concetto che nella preservazione strutturale. Sulla separazione del colorante (dye disentanglement), MedSteer ottiene una rimozione del 75% del colorante contro il 20% (PnP) e il 10% (h-Edit). Sul rilevamento a valle dei polipi, l'aumento con le coppie controfattuali di MedSteer raggiunge un AUC ViT di 0,9755 rispetto a 0,9083 per il re-prompting con quantità equivalente, confermando che la struttura controfattuale guadagna il miglioramento. Il codice è disponibile al link https://github.com/phamtrongthang123/medsteer
I modelli del mondo consentono la pianificazione in uno spazio predittivo immaginato, offrendo una struttura promettente per la navigazione embodied. Tuttavia, i modelli del mondo per la navigazione esistenti spesso mancano di consistenza condizionata all'azione, pertanto previsioni visivamente plausibili possono comunque divergere durante il rollout multi-step e degradare la pianificazione. Inoltre, un dispiegamento efficiente richiede inferenza diffusion con pochi step, ma i metodi di distillazione esistenti non preservano esplicitamente la consistenza del rollout, creando una discrepanza tra addestramento e inferenza. Per affrontare queste sfide, proponiamo MWM, un modello del mondo mobile per la navigazione a obiettivo immagine basata sulla pianificazione. Nello specifico, introduciamo una struttura di addestramento in due fasi che combina il pre-addestramento strutturale con un post-addestramento di Consistenza Condizionata all'Azione (ACC) per migliorare la consistenza del rollout condizionato all'azione. Introduciamo inoltre la Distillazione di Stato Consistente per l'Inferenza (ICSD) per la distillazione diffusion a pochi step con una migliorata consistenza del rollout. I nostri esperimenti su benchmark e compiti del mondo reale dimostrano miglioramenti consistenti nella fedeltà visiva, accuratezza della traiettoria, successo della pianificazione ed efficienza inferenziale. Codice: https://github.com/AIGeeksGroup/MWM. Sito web: https://aigeeksgroup.github.io/MWM.
L'Imitation Learning (IL) consente ai robot di acquisire abilità di manipolazione a partire da dimostrazioni esperte. I modelli Diffusion Policy (DP) rappresentano comportamenti esperti multimodali, ma subiscono un degrado delle prestazioni all'aumentare degli orizzonti di osservazione, limitando la manipolazione a lungo orizzonte. Proponiamo il Self-Evolving Gated Attention (SEGA), un modulo temporale che mantiene uno stato latente in evoluzione temporale tramite un meccanismo di attenzione controllata (gated), consentendo aggiornamenti ricorrenti efficienti che comprimono le osservazioni a lungo orizzonte in una rappresentazione di dimensione fissa, filtrando al contempo le informazioni temporali irrilevanti. L'integrazione di SEGA in DP dà vita alla Self-Evolving Diffusion Policy (SeedPolicy), che risolve il collo di bottiglia nella modellazione temporale e consente un'estensione scalabile dell'orizzonte con un sovraccarico moderato. Sul benchmark RoboTwin 2.0 con 50 compiti di manipolazione, SeedPolicy supera DP e altri metodi baseline di IL. In media, considerando sia backbone CNN che Transformer, SeedPolicy raggiunge un miglioramento relativo del 36.8% in condizioni standard e del 169% in condizioni randomizzate complesse rispetto al DP. Rispetto a modelli visione-linguaggio-azione come RDT con 1.2 miliardi di parametri, SeedPolicy ottiene prestazioni competitive con uno o due ordini di grandezza in meno di parametri, dimostrando una forte efficienza e scalabilità. Questi risultati stabiliscono SeedPolicy come un metodo di imitation learning all'avanguardia per la manipolazione robotica a lungo orizzonte. Il codice è disponibile all'indirizzo: https://github.com/Youqiang-Gui/SeedPolicy.