Articoli di ricerca IA selezionati quotidianamente con traduzioni
La memoria è fondamentale per gli agenti di intelligenza artificiale, tuttavia la memoria statica ampiamente adottata, che mira a creare memoria prontamente disponibile in anticipo, è inevitabilmente soggetta a una grave perdita di informazioni. Per affrontare questa limitazione, proponiamo un nuovo framework chiamato memoria agentica generale (GAM). GAM segue il principio della "compilazione just-in-time (JIT)", in cui si concentra sulla creazione di contesti ottimizzati per il suo client durante l'esecuzione, mantenendo solo una memoria semplice ma utile durante la fase offline. A tal fine, GAM utilizza un design duale con i seguenti componenti. 1) Memorizer, che evidenzia le informazioni storiche chiave utilizzando una memoria leggera, mantenendo al contempo le informazioni storiche complete all'interno di un archivio universale di pagine. 2) Ricercatore, che recupera e integra informazioni utili dall'archivio di pagine per le sue richieste online guidate dalla memoria pre-costruita. Questo design consente a GAM di sfruttare efficacemente le capacità agentiche e la scalabilità al momento del test dei modelli linguistici di grandi dimensioni (LLM) di frontiera, facilitando anche l'ottimizzazione delle prestazioni end-to-end attraverso l'apprendimento per rinforzo. Nel nostro studio sperimentale, dimostriamo che GAM ottiene un miglioramento sostanziale in vari scenari di completamento di attività basate sulla memoria rispetto ai sistemi di memoria esistenti.
Gli esseri umani si adattano naturalmente ad ambienti diversi apprendendo regole sottostanti attraverso mondi con dinamiche, osservazioni e strutture di ricompensa differenti. Al contrario, gli agenti esistenti tipicamente dimostrano miglioramenti tramite auto-evoluzione all'interno di un singolo dominio, assumendo implicitamente una distribuzione ambientale fissa. L'apprendimento trasversale agli ambienti è rimasto largamente non misurato: non esiste una raccolta standard di ambienti controllabili ed eterogenei, né un modo unificato per rappresentare come gli agenti apprendono. Affrontiamo queste lacune in due fasi. In primo luogo, proponiamo AutoEnv, un framework automatizzato che tratta gli ambienti come distribuzioni fattorizzabili su transizioni, osservazioni e ricompense, consentendo la generazione a basso costo (4.12 USD in media) di mondi eterogenei. Utilizzando AutoEnv, costruiamo AutoEnv-36, un dataset di 36 ambienti con 358 livelli validati, sul quale sette modelli linguistici raggiungono una ricompensa normalizzata del 12-49%, dimostrando la sfida rappresentata da AutoEnv-36. In secondo luogo, formalizziamo l'apprendimento dell'agente come un processo centrato sui componenti guidato da tre fasi di Selezione, Ottimizzazione e Valutazione applicate a un componente agente migliorabile. Utilizzando questa formulazione, progettiamo otto metodi di apprendimento e li valutiamo su AutoEnv-36. Empiricamente, il guadagno di qualsiasi singolo metodo di apprendimento diminuisce rapidamente all'aumentare del numero di ambienti, rivelando che i metodi di apprendimento fissi non si adattano a ambienti eterogenei. La selezione adattiva all'ambiente dei metodi di apprendimento migliora sostanzialmente le prestazioni ma mostra rendimenti decrescenti man mano che lo spazio dei metodi si espande. Questi risultati evidenziano sia la necessità che le attuali limitazioni dell'apprendimento degli agenti per una generalizzazione scalabile attraverso gli ambienti, e posizionano AutoEnv e AutoEnv-36 come banchi di prova per studiare l'apprendimento trasversale degli agenti. Il codice è disponibile all'indirizzo https://github.com/FoundationAgents/AutoEnv.
La diffusione pixel mira a generare immagini direttamente nello spazio dei pixel in modo end-to-end. Questo approccio evita le limitazioni del VAE nella diffusione latente a due stadi, offrendo una maggiore capacità del modello. I modelli di diffusione pixel esistenti soffrono di addestramento e inferenza lenti, poiché di solito modellano sia i segnali ad alta frequenza che la semantica a bassa frequenza all'interno di un unico transformer di diffusione (DiT). Per perseguire un paradigma di diffusione pixel più efficiente, proponiamo il framework di diffusione pixel a frequenza disaccoppiata (DeCo). Sfruttando l'intuizione di disaccoppiare la generazione delle componenti ad alta e bassa frequenza, utilizziamo un decoder pixel leggero per generare dettagli ad alta frequenza condizionati dalla guida semantica del DiT. In questo modo il DiT viene liberato per specializzarsi nella modellazione della semantica a bassa frequenza. Inoltre, introduciamo una loss di flow-matching sensibile alla frequenza che enfatizza le frequenze visivamente salienti sopprimendo quelle insignificanti. Esperimenti estensivi mostrano che DeCo raggiunge prestazioni superiori tra i modelli di diffusione pixel, ottenendo un FID di 1.62 (256x256) e 2.22 (512x512) su ImageNet, colmando il divario con i metodi di diffusione latente. Inoltre, il nostro modello preaddestrato text-to-image raggiunge un punteggio complessivo leader di 0.86 su GenEval nel confronto a livello di sistema. I codici sono pubblicamente disponibili su https://github.com/Zehong-Ma/DeCo.
I modelli di ricerca approfondita eseguono ricerche multi-step per produrre risposte estese e ben attribuite. Tuttavia, la maggior parte dei modelli aperti di ricerca approfondita viene addestrata su compiti di domanda-risposta (QA) di breve formato facilmente verificabili tramite apprendimento per rinforzo con ricompense verificabili (RLVR), approccio che non si estende a compiti realistici di lungo formato. Affrontiamo questo problema con l'Apprendimento per Rinforzo con Rubriche Evolutive (RLER), in cui costruiamo e manteniamo rubriche che co-evolvono con il modello policy durante l'addestramento; ciò consente alle rubriche di incorporare le informazioni esplorate di recente dal modello e di fornire un feedback discriminatorio e on-policy. Utilizzando RLER, sviluppiamo Deep Research Tulu (DR Tulu-8B), il primo modello aperto addestrato specificamente per la ricerca approfondita di lungo formato e a dominio aperto. In quattro benchmark di ricerca approfondita di lungo formato nei domini scientifico, sanitario e generale, DR Tulu supera sostanzialmente i modelli aperti di ricerca approfondita esistenti e raggiunge o supera i sistemi proprietari di ricerca approfondita, pur essendo significativamente più piccolo ed economico per query. Per facilitare la ricerca futura, rilasciamo tutti i dati, i modelli e il codice, inclusa la nostra nuova infrastruttura agentistica basata su MCP per sistemi di ricerca approfondita.
Gli Agenti per l'Uso del Computer (CUA) stanno diventando sempre più capaci di operare autonomamente negli ambienti digitali attraverso Interfacce Grafiche Utente (GUI). Tuttavia, la maggior parte delle GUI rimane progettata principalmente per gli esseri umani, privilegiando estetica e usabilità, costringendo gli agenti ad adottare comportamenti orientati all'uomo non necessari per un'esecuzione efficiente dei compiti. Parallelamente, i rapidi progressi nei modelli linguistici orientati alla codifica (Coder) hanno trasformato la progettazione automatica delle GUI. Ciò solleva una questione fondamentale: i CUA possono fungere da giudici per assistere i Coder nella progettazione automatica delle GUI? Per indagare, introduciamo AUI-Gym, un benchmark per lo sviluppo automatico di GUI che copre 52 applicazioni in diversi domini. Utilizzando modelli linguistici, sintetizziamo 1560 compiti che simulano scenari del mondo reale. Per garantire l'affidabilità dei compiti, sviluppiamo inoltre un verificatore che controlla programmaticamente se ogni compito è eseguibile nel proprio ambiente. Su questa base, proponiamo un framework di Collaborazione Coder-CUA: il Coder funge da Progettista, generando e revisionando siti web, mentre il CUA funge da Giudice, valutando la funzionalità e perfezionando i progetti. Il successo non è misurato dall'aspetto visivo, ma dalla risolvibilità del compito e dal tasso di successo della navigazione del CUA. Per trasformare il feedback del CUA in una guida utilizzabile, progettiamo una Dashboard CUA che comprime le cronologie di navigazione multi-step in riepiloghi visivi concisi, offrendo una guida interpretabile per la riprogettazione iterativa. Posizionando gli agenti sia come progettisti che come giudici, il nostro framework sposta la progettazione dell'interfaccia verso l'efficienza e l'affidabilità native per gli agenti. Il nostro lavoro compie un passo verso il passaggio degli agenti dall'uso passivo alla partecipazione attiva negli ambienti digitali. Il nostro codice e dataset sono disponibili all'indirizzo https://github.com/showlab/AUI.
I transformer per diffusione hanno recentemente ottenuto eccellenti risultati nella generazione di immagini da testo attorno alla risoluzione 1K, ma dimostriamo che estenderli a 4K nativi su diversi aspect ratio rivela una modalità di errore strettamente accoppiata che coinvolge la codifica posizionale, la compressione VAE e l'ottimizzazione. Affrontare singolarmente uno di questi fattori lascia sul piatto una qualità sostanziale. Adottiamo quindi una prospettiva di co-progettazione dati-modello e introduciamo UltraFlux, un DiT basato su Flux addestrato nativamente a 4K su MultiAspect-4K-1M, un corpus di 1 milione di immagini 4K con copertura multi-AR controllata, didascalie bilingue e ricchi metadati VLM/IQA per un campionamento consapevole della risoluzione e dell'AR. Sul lato del modello, UltraFlux combina (i) Resonance 2D RoPE con YaRN per una codifica posizionale a 4K consapevole della finestra di addestramento, della frequenza e dell'AR; (ii) uno schema semplice e non adversarial di post-addestramento VAE che migliora la fedeltà della ricostruzione a 4K; (iii) un obiettivo SNR-Aware Huber Wavelet che riequilibra i gradienti attraverso i timestep e le bande di frequenza; e (iv) una strategia di Apprendimento per Curriculum Estetico Fase-per-Fase che concentra la supervisione di alta estetica sui passi ad alto rumore governati dal prior del modello. Insieme, questi componenti producono un DiT 4K stabile e che preserva i dettagli, in grado di generalizzare su AR larghi, quadrati e verticali. Sul benchmark Aesthetic-Eval a 4096 e in contesti multi-AR 4K, UltraFlux supera costantemente forti baseline open-source nelle metriche di fedeltà, estetica e allineamento e, con un raffinatore di prompt basato su LLM, eguaglia o supera il proprietario Seedream 4.0.
I recenti modelli generativi video su larga scala hanno dimostrato notevoli capacità visive, permettendo la previsione di fotogrammi futuri che rispettano i suggerimenti logici e fisici presenti nell'osservazione corrente. In questo lavoro, indaghiamo se tali capacità possano essere sfruttate per una generazione controllata da immagine a video, interpretando i segnali visivi incorporati nei fotogrammi come istruzioni, un paradigma che definiamo Istruzione nel Video. A differenza del controllo basato su prompt, che fornisce descrizioni testuali intrinsecamente globali e approssimative, l'Istruzione nel Video codifica la guida dell'utente direttamente nel dominio visivo attraverso elementi come testo sovrapposto, frecce o traiettorie. Ciò consente corrispondenze esplicite, spazialmente consapevoli e inequivocabili tra i soggetti visivi e le azioni previste, assegnando istruzioni distinte a oggetti diversi. Esperimenti estesi su tre generatori all'avanguardia, inclusi Veo 3.1, Kling 2.5 e Wan 2.2, mostrano che i modelli video possono interpretare ed eseguire in modo affidabile tali istruzioni incorporate visivamente, specialmente in scenari complessi con più oggetti.
Una funzione di reward affidabile è essenziale per l'apprendimento per rinforzo (RL) nella generazione di immagini. La maggior parte degli approcci RL attuali si basa su modelli di preferenza pre-addestrati che restituiscono reward scalari per approssimare le preferenze umane. Tuttavia, questi reward spesso non catturano la percezione umana e sono vulnerabili al *reward hacking*, dove punteggi più alti non corrispondono a immagini migliori. Per affrontare questo problema, introduciamo Adv-GRPO, un framework RL con un reward avversario che aggiorna iterativamente sia il modello del reward che il generatore. Il modello del reward è supervisionato utilizzando immagini di riferimento come campioni positivi e può in gran parte evitare di essere hackerato. A differenza della regolarizzazione KL che vincola gli aggiornamenti dei parametri, il nostro reward appreso guida direttamente il generatore attraverso i suoi output visivi, portando a immagini di qualità superiore. Inoltre, sebbene l'ottimizzazione delle funzioni di reward esistenti possa alleviare il reward hacking, i loro bias intrinseci permangono. Ad esempio, PickScore può degradare la qualità dell'immagine, mentre i reward basati su OCR spesso riducono la fedeltà estetica. Per risolvere questo problema, consideriamo l'immagine stessa come un reward, utilizzando immagini di riferimento e modelli fondazione per la visione (ad esempio, DINO) per fornire reward visivi ricchi. Questi segnali visivi densi, invece di un singolo scalare, portano a miglioramenti consistenti in termini di qualità dell'immagine, estetica e metriche specifiche del task. Infine, dimostriamo che combinare campioni di riferimento con reward basati su modelli fondazione consente il trasferimento di distribuzione e una personalizzazione stilistica flessibile. Nella valutazione umana, il nostro metodo supera Flow-GRPO e SD3, raggiungendo tassi di vittoria del 70,0% e del 72,4% rispettivamente per qualità e estetica delle immagini. Codice e modelli sono stati rilasciati.
I modelli visione-linguaggio (VLM) eccellono nel ragionamento nello spazio linguistico ma faticano nella comprensione percettiva che richiede una percezione visiva densa, ad esempio il ragionamento spaziale e la consapevolezza geometrica. Questa limitazione deriva dal fatto che gli attuali VLM hanno meccanismi limitati per catturare informazioni visive dense attraverso le dimensioni spaziali. Introduciamo Chain-of-Visual-Thought (COVT), un framework che consente ai VLM di ragionare non solo in parole ma anche attraverso token visivi continui - rappresentazioni latenti compatte che codificano ricchi indizi percettivi. Con un budget ridotto di circa 20 token, COVT distilla la conoscenza da esperti visivi leggeri, catturando proprietà complementari come l'aspetto 2D, la geometria 3D, il layout spaziale e la struttura dei bordi. Durante l'addestramento, il VLM con COVT predice autoregressivamente questi token visivi per ricostruire segnali di supervisione densi (ad esempio, profondità, segmentazione, bordi e feature DINO). In fase di inferenza, il modello ragiona direttamente nello spazio continuo dei token visivi, preservando l'efficienza mentre opzionalmente decodifica predizioni dense per l'interpretabilità. Valutato su oltre dieci benchmark percettivi diversificati, tra cui CV-Bench, MMVP, RealWorldQA, MMStar, WorldMedQA e HRBench, l'integrazione di COVT in VLM robusti come Qwen2.5-VL e LLaVA migliora costantemente le prestazioni dal 3% al 16% e dimostra che il pensiero visivo continuo e compatto abilita un'intelligenza multimodale più precisa, fondata e interpretabile.
L'aumento del calcolo durante il test migliora le prestazioni su diversi compiti nei grandi modelli linguistici (LLM), estensione applicata anche agli agenti potenziati da strumenti. Per questi agenti, il scaling coinvolge non solo il "pensare" in token ma anche l'"agire" tramite chiamate a strumenti. Il numero di chiamate a strumenti delimita direttamente l'interazione dell'agente con l'ambiente esterno. Tuttavia, abbiamo riscontrato che concedere semplicemente agli agenti un budget più ampio per le chiamate a strumenti non migliora le prestazioni, poiché essi mancano di "consapevolezza del budget" e raggiungono rapidamente un plateau prestazionale. Per affrontare questo problema, studiamo come scalare efficacemente tali agenti sotto budget espliciti di chiamate a strumenti, concentrandoci sugli agenti di ricerca web. Introduciamo prima il Budget Tracker, un plug-in leggero che fornisce all'agente una consapevolezza continua del budget, abilitando uno scaling semplice ma efficace. Sviluppiamo ulteriormente BATS (Budget Aware Test-time Scaling), un framework avanzato che sfrutta questa consapevolezza per adattare dinamicamente la sua strategia di pianificazione e verifica, decidendo se "approfondire" una pista promettente o "cambiare direzione" verso nuovi percorsi in base alle risorse rimanenti. Per analizzare il scaling costo-prestazioni in modo controllato, formalizziamo una metrica di costo unificata che considera congiuntamente il consumo di token e strumenti. Forniamo il primo studio sistematico sugli agenti vincolati da budget, dimostrando che i metodi consapevoli del budget producono curve di scaling più favorevoli e spingono in avanti la frontiera di Pareto costo-prestazioni. Il nostro lavoro offre intuizioni empiriche verso una comprensione più trasparente e principiata del scaling negli agenti potenziati da strumenti.
Presentiamo HunyuanVideo 1.5, un modello open-source per la generazione di video leggero ma potente, che raggiunge una qualità visiva e una coerenza del movimento allo stato dell'arte con soli 8,3 miliardi di parametri, consentendo un'inferenza efficiente su GPU di livello consumer. Questo risultato si basa su diversi componenti chiave, tra cui una meticolosa cura dei dati, un'architettura DiT avanzata che include un'attenzione selettiva e scorrevole a riquadri (SSTA), una migliore comprensione bilingue tramite codifica testuale glyph-aware, pre-addestramento e post-addestramento progressivi e una rete efficiente per la super-risoluzione video. Sfruttando questi progetti, abbiamo sviluppato un framework unificato in grado di generare video di alta qualità da testo e da immagine per diverse durate e risoluzioni. Esperimenti estensivi dimostrano che questo modello compatto e competente stabilisce un nuovo stato dell'arte tra i modelli open-source per la generazione video. Rilasciando il codice e i pesi del modello, forniamo alla comunità una base ad alte prestazioni che abbassa la barriera alla creazione e alla ricerca video, rendendo la generazione video avanzata accessibile a un pubblico più ampio. Tutte le risorse open-source sono disponibili pubblicamente all'indirizzo https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5.
La radiologia svolge un ruolo integrale nella medicina moderna, ma il crescente volume di imaging ha superato di gran lunga l'aumento della forza lavoro. I modelli fondazionali offrono una strada verso l'assistenza nell'intero spettro dei compiti radiologici, ma i modelli medici esistenti rimangono limitati: elaborano le TC e le risonanze magnetiche volumetriche come sezioni 2D a bassa fedeltà, scartano le fondamentali informazioni sul contrasto in scala di grigi e mancano di framework di valutazione che riflettano la pratica clinica reale. Presentiamo Pillar-0, un modello fondazionale per la radiologia pre-addestrato su 42.990 TC addome-pelvi, 86.411 TC del torace, 14.348 TC cranio e 11.543 risonanze magnetiche mammarie provenienti da un grande centro accademico, insieme a RATE, un framework scalabile che estrae etichette strutturate per 366 reperti radiologici con un'accuratezza quasi perfetta utilizzando LLM. Su set di test interni di 14.230 TC addome-pelvi, 10.646 TC del torace, 4.906 TC cranio e 1.585 risonanze magnetiche mammarie, Pillar-0 stabilisce una nuova frontiera delle prestazioni, raggiungendo AUROC medi dell'86,4, 88,0, 90,1 e 82,9, superando MedGemma (Google), MedImageInsight (Microsoft), Lingshu (Alibaba) e Merlin (Stanford) di 7,8-15,8 punti AUROC e classificandosi al primo posto nell'87,2% (319/366) dei compiti. Pillar-0 supera similamente tutti i baseline in una validazione esterna sul dataset Stanford Abdominal CT, incluso Merlin (82,2 vs 80,6 AUROC). Pillar-0 si estende a compiti oltre il suo pre-addestramento, come la previsione del rischio di cancro al polmone a lungo termine, dove migliora lo stato dell'arte Sybil di 3,0 punti C-index su NLST, e generalizza con guadagni di 5,9 (MGH) e 1,9 (CGMH). Nel rilevamento dell'emorragia cerebrale, Pillar-0 ha ottenuto un AUROC >95 utilizzando solo 1/20 dei dati del baseline successivo più efficiente in termini di campionamento. Pillar-0 e RATE insieme forniscono una base aperta e clinicamente rigorosa per costruire sistemi radiologici ad alte prestazioni, abilitando applicazioni precedentemente irrealizzabili a causa di vincoli computazionali, di dati e di valutazione.
I sistemi multi-agente ottengono buone prestazioni in compiti di ragionamento generale. Tuttavia, la mancanza di formazione in aree specialistiche ne ostacola l'accuratezza. I metodi di addestramento attuali addestrano un unico grande modello linguistico (LLM) per tutti gli agenti del sistema. Ciò può limitare le prestazioni a causa delle diverse distribuzioni sottostanti per i diversi agenti. Pertanto, l'addestramento di sistemi multi-agente con LLM distinti dovrebbe essere il passo successivo da risolvere. Tuttavia, questo approccio introduce sfide di ottimizzazione. Ad esempio, gli agenti operano a frequenze diverse, i rollout coinvolgono invocazioni di sub-agenti variabili e gli agenti sono spesso distribuiti su server separati, interrompendo il flusso del gradiente end-to-end. Per affrontare questi problemi, proponiamo M-GRPO, un'estensione gerarchica dell'ottimizzazione della politica relativa di gruppo (Group Relative Policy Optimization) progettata per sistemi multi-agente verticali con un agente principale (pianificatore) e più sub-agenti (esecutori di strumenti multi-turn). M-GRPO calcola i vantaggi relativi di gruppo sia per l'agente principale che per i sub-agenti, mantenendo un'assegnazione gerarchica del merito. Introduce inoltre uno schema di allineamento delle traiettorie che genera batch di dimensione fissa nonostante le invocazioni variabili dei sub-agenti. Implementiamo una pipeline di addestramento disaccoppiata in cui gli agenti vengono eseguiti su server separati e scambiano statistiche minime tramite un archivio condiviso. Ciò consente un addestramento scalabile senza backpropagation tra server. Negli esperimenti su benchmark del mondo reale (ad esempio, GAIA, XBench-DeepSearch e WebWalkerQA), M-GRPO supera costantemente sia GRPO ad agente singolo che GRPO multi-agente con sub-agenti congelati, dimostrando una stabilità e un'efficienza campionaria migliorate. Questi risultati mostrano che allineare traiettorie eterogenee e disaccoppiare l'ottimizzazione tra agenti specializzati migliora i compiti di ragionamento potenziati da strumenti.
Presentiamo M³-Bench, il primo benchmark per la valutazione dell'uso di strumenti multimodali secondo il Model Context Protocol. Il benchmark si concentra su flussi di lavoro realistici, multi-hop e multi-thread, che richiedono grounding visivo e ragionamento testuale, dipendenze cross-tool e persistenza di risorse intermedie attraverso i vari passaggi. Introduciamo un allineamento basato sulla similarità che serializza ogni chiamata di strumento, incorpora le firme con un encoder di frasi ed esegue un abbinamento ungherese (Hungarian matching) raggruppato per similarità per ottenere corrispondenze uno-a-uno verificabili. Sulla base di questo allineamento, riportiamo metriche interpretabili che disaccoppiano la fedeltà semantica dalla coerenza del flusso di lavoro. Il benchmark comprende 28 server con 231 strumenti e fornisce traiettorie standardizzate curate attraverso una pipeline Executor & Judge con verifica umana; un ensemble giudicante ausiliario di quattro grandi modelli linguistici (LLM) riporta il Completamento del Compito finale e il grounding delle informazioni. Le valutazioni di modelli linguistici multimodali (MLLM) all'avanguardia rivelano lacune persistenti nell'uso di strumenti MCP multimodali, in particolare nella fedeltà degli argomenti e nella coerenza strutturale, sottolineando la necessità di metodi che ragionino congiuntamente su immagini, testo e grafi degli strumenti. La repository anonima del nostro benchmark è disponibile all'indirizzo https://github.com/EtaYang10th/Open-M3-Bench.
I Diffusion Transformer hanno dimostrato capacità notevoli nella sintesi visiva, ma spesso incontrano difficoltà nel ragionamento semantico di alto livello e nella pianificazione a lungo termine. Questa limitazione porta frequentemente ad allucinazioni visive e disallineamenti con le istruzioni dell'utente, specialmente in scenari che coinvolgono la comprensione di scene complesse, interazioni uomo-oggetto, azioni multi-stadio e ragionamento motion in contesto. Per affrontare queste sfide, proponiamo Plan-X, un framework che applica esplicitamente una pianificazione semantica di alto livello per guidare il processo di generazione video. Il suo nucleo è costituito da un Semantic Planner, un modello linguistico multimodale addestrabile che ragiona sull'intento dell'utente a partire da prompt testuali e contesto visivo, e genera in modo autoregressivo una sequenza di token semantici spazio-temporali ancorati al testo. Questi token semantici, complementari alla guida di alto livello del prompt testuale, fungono da "schizzi semantici" strutturati nel tempo per il modello di diffusione video, che eccelle nel sintetizzare dettagli visivi ad alta fedeltà. Plan-X integra efficacemente la forza dei modelli linguistici nel ragionamento e pianificazione multimodale in contesto, con la forza dei modelli di diffusione nella sintesi video fotorealistica. Esperimenti estensivi dimostrano che il nostro framework riduce sostanzialmente le allucinazioni visive e abilita una generazione video granulare e allineata alle istruzioni, coerente con il contesto multimodale.
Presentiamo One4D, un framework unificato per la generazione e la ricostruzione 4D che produce contenuti dinamici 4D come frame RGB e mappe di punti sincronizzati. Gestendo in modo coerente le diverse sparsità dei frame di condizionamento attraverso un meccanismo di Condizionamento Mascherato Unificato (UMC), One4D può passare senza soluzione di continuità dalla generazione 4D da una singola immagine, alla ricostruzione 4D da un video completo, fino a una combinazione di generazione e ricostruzione da frame sparsi. Il nostro framework adatta un potente modello di generazione video per la generazione congiunta di RGB e mappe di punti, con architetture di rete accuratamente progettate. Le comuni strategie di fine-tuning basate sulla diffusione per la ricostruzione di mappe di profondità o di punti spesso falliscono nella generazione congiunta di RGB e mappe di punti, degradando rapidamente il modello video base. Per affrontare questa sfida, introduciamo il Controllo LoRA Disaccoppiato (DLC), che impiega due adattatori LoRA specifici per modalità per formare rami computazionali disaccoppiati per i frame RGB e le mappe di punti, connessi da legami di controllo leggeri, inizializzati a zero, che apprendono gradualmente una reciproca coerenza a livello di pixel. Addestrato su un mix di dataset 4D sintetici e reali con budget computazionali modesti, One4D produce frame RGB di alta qualità e mappe di punti accurate sia nei compiti di generazione che di ricostruzione. Questo lavoro rappresenta un passo verso la modellazione generale e di alta qualità del mondo 4D basata sulla geometria utilizzando modelli di diffusione video. Pagina del progetto: https://mizhenxing.github.io/One4D
La risposta a domande a scelta multipla (MCQA) è stata un formato popolare per la valutazione e il fine-tuning di rinforzo (RFT) dei moderni modelli linguistici multimodali. Il suo formato di output vincolato consente una verifica automatica semplificata e deterministica. Tuttavia, abbiamo riscontrato che le opzioni possono rivelare segnali sfruttabili, il che rende le metriche di accuratezza inaffidabili per indicare le reali capacità e incoraggia comportamenti di indovinamento espliciti o impliciti delle risposte durante il RFT. Proponiamo ReVeL (Riscrivi e Verifica tramite LLM), un framework che riscrive le domande a scelta multipla in domande a risposta aperta, mantenendo le risposte verificabili ove possibile. Il framework categorizza le domande in base a diversi tipi di risposta e applica rispettivamente schemi di riscrittura e verifica differenti. Applicato al RFT, abbiamo convertito 20.000 esempi MCQA e utilizzato GRPO per effettuare il fine-tuning dei modelli Qwen2.5-VL. I modelli addestrati su ReVeL-OpenQA eguagliano l'accuratezza MCQA su benchmark a scelta multipla e migliorano l'accuratezza OpenQA di circa sei punti percentuali, indicando una migliore efficienza dei dati e segnali di reward più robusti rispetto all'addestramento basato su MCQA. Quando utilizzato per la valutazione, ReVeL rivela anche un'inflazione dei punteggi fino al 20% nei benchmark MCQA (rispetto all'OpenQA), migliora l'accuratezza del giudizio e riduce sia i costi che la latenza. Rilasceremo pubblicamente codice e dati.
Proponiamo un approccio completamente data-driven per la progettazione di stimatori di informazione mutua (MI). Poiché qualsiasi stimatore di MI è una funzione del campione osservato da due variabili casuali, parametrizziamo questa funzione con una rete neurale (MIST) e la addestriamo end-to-end per prevedere i valori di MI. L'addestramento viene eseguito su un ampio meta-dataset di 625.000 distribuzioni congiunte sintetiche con MI noto. Per gestire dimensioni del campione e dimensionalità variabili, impieghiamo uno schema di attenzione bidimensionale che garantisce l'invarianza permutazionale tra i campioni di input. Per quantificare l'incertezza, ottimizziamo una loss di regressione quantilica, permettendo allo stimatore di approssimare la distribuzione campionaria del MI piuttosto che restituire una singola stima puntuale. Questo programma di ricerca si discosta dai lavori precedenti prendendo una rotta completamente empirica, scambiando garanzie teoriche universali per flessibilità ed efficienza. Empiricamente, gli stimatori appresi superano ampiamente i baseline classici su diverse dimensioni del campione e dimensionalità, incluso su distribuzioni congiunte non viste durante l'addestramento. Gli intervalli basati sui quantili risultanti sono ben calibrati e più affidabili degli intervalli di confidenza basati sul bootstrap, mentre l'inferenza è ordini di grandezza più veloce rispetto ai baseline neurali esistenti. Oltre ai vantaggi empirici immediati, questo framework produce stimatori addestrabili e completamente differenziabili che possono essere integrati in pipeline di apprendimento più ampie. Inoltre, sfruttando l'invarianza del MI rispetto alle trasformazioni invertibili, i meta-dataset possono essere adattati a modalità di dati arbitrarie tramite normalizing flows, consentendo un addestramento flessibile per diverse meta-distribuzioni target.
Questo lavoro presenta la Decomposione Controllabile a Livelli (CLD), un metodo per ottenere una separazione multi-livello fine e controllabile di immagini raster. Nei flussi di lavoro pratici, i designer tipicamente generano e modificano ogni livello RGBA in modo indipendente prima di comporli in un'immagine raster finale. Tuttavia, questo processo è irreversibile: una volta composte, la modifica a livello di layer non è più possibile. I metodi esistenti si basano comunemente sul matting e sull'inpainting di immagini, ma rimangono limitati in termini di controllabilità e precisione di segmentazione. Per affrontare queste sfide, proponiamo due moduli chiave: LayerDecompose-DiT (LD-DiT), che disaccoppia gli elementi dell'immagine in livelli distinti e consente un controllo granulare; e l'Adattatore Condizionale Multi-Livello (MLCA), che inietta le informazioni dell'immagine target nei token multi-livello per ottenere una generazione condizionale precisa. Per consentire una valutazione completa, costruiamo un nuovo benchmark e introduciamo metriche di valutazione su misura. I risultati sperimentali mostrano che CLD supera costantemente i metodi esistenti sia nella qualità della decomposizione che nella controllabilità. Inoltre, i livelli separati prodotti da CLD possono essere manipolati direttamente in strumenti di progettazione comunemente utilizzati come PowerPoint, evidenziandone il valore pratico e l'applicabilità nei flussi di lavoro creativi reali.
Sebbene la qualità dei dati web sia cruciale per i grandi modelli linguistici, la maggior parte degli sforzi di curatela si concentra su filtraggio e deduplicazione, trattando l'estrazione da HTML a testo come un passo di pre-elaborazione fisso. I corpora web esistenti si affidano a estrattori euristici come Trafilatura, che faticano a preservare la struttura del documento e spesso danneggiano elementi strutturati come formule, codici e tabelle. Ipotesizziamo che migliorare la qualità dell'estrazione possa essere impattante quanto strategie di filtraggio aggressive per le prestazioni a valle. Introduciamo MinerU-HTML, una nuova pipeline di estrazione che riformula l'estrazione di contenuti come un problema di etichettatura di sequenze risolto da un modello linguistico da 0.6 miliardi di parametri. A differenza delle euristiche basate sulla densità del testo, MinerU-HTML sfrutta la comprensione semantica e impiega una pipeline di formattazione a due stadi che categorizza esplicitamente gli elementi semantici prima della conversione in Markdown. Crucialmente, il suo approccio basato su modelli è intrinsecamente scalabile, mentre i metodi euristici offrono percorsi di miglioramento limitati. Su MainWebBench, il nostro benchmark di 7.887 pagine web annotate, MinerU-HTML raggiunge l'81.8% di F1 ROUGE-N rispetto al 63.6% di Trafilatura, con un'eccezionale conservazione degli elementi strutturati (90.9% per i blocchi di codice, 94.0% per le formule). Utilizzando MinerU-HTML, costruiamo AICC (AI-ready Common Crawl), un corpus multilingue da 7.3 trilioni di token ricavato da due snapshot di Common Crawl. In esperimenti controllati di pre-addestramento, in cui AICC e TfCC (estratta con Trafilatura) subiscono un filtraggio identico, i modelli addestrati su AICC (62B token) raggiungono una precisione media del 50.8% su 13 benchmark, superando TfCC di 1.08 punti percentuali, fornendo così evidenza diretta che la qualità dell'estrazione influisce significativamente sulle capacità del modello. AICC supera anche RefinedWeb e FineWeb su benchmark chiave. Rilasciamo pubblicamente MainWebBench, MinerU-HTML e AICC, dimostrando che l'estrazione HTML è una componente critica e spesso sottovalutata della costruzione di corpora web.
La ricerca di informazioni è una capacità fondamentale per gli agenti di IA, che richiede loro di raccogliere e ragionare su informazioni generate da strumenti attraverso traiettorie lunghe. Tuttavia, tali compiti di ricerca di informazioni multi-step rimangono impegnativi per gli agenti basati su modelli linguistici. Sebbene i modelli di ricompensa di processo (PRM) possano guidare gli agenti classificando i passi candidati durante il test, i PRM esistenti, progettati per ragionamenti brevi con giudizi binari, non riescono a catturare le dimensioni più ricche dei passi di ricerca di informazioni, come le interazioni con gli strumenti e il ragionamento sui loro output, né a gestire il contesto in rapida crescita nei compiti a lungo termine. Per affrontare queste limitazioni, introduciamo PRInTS, un PRM generativo addestrato con capacità duali: (1) valutazione densa basata sul ragionamento del PRM attraverso multiple dimensioni di qualità del passo (ad esempio, interpretazione degli output degli strumenti, informatività della chiamata allo strumento) e (2) riassunto della traiettoria che comprime il contesto crescente preservando le informazioni essenziali per la valutazione del passo. Valutazioni estese su benchmark come FRAMES, GAIA (livelli 1-3) e WebWalkerQA (facile-difficile) con modelli multipli, insieme ad ablazioni, rivelano che il campionamento "best-of-n" con PRInTS potenzia le abilità di ricerca di informazioni dei modelli open-source e degli agenti specializzati, eguagliando o superando le prestazioni di modelli all'avanguardia con un agente backbone molto più piccolo e superando altri solidi baseline di modellazione della ricompensa.
Presentiamo Upsample Anything, un framework leggero di ottimizzazione in fase di test (TTO) che ripristina feature a bassa risoluzione in output pixel-wise ad alta risoluzione, senza alcun addestramento. Sebbene i Vision Foundation Model dimostrino una forte generalizzazione su varie task downstream, le loro rappresentazioni sono tipicamente sottocampionate di 14x/16x (ad es. ViT), il che ne limita l'uso diretto in applicazioni a livello pixel. Gli approcci esistenti di upsampling delle feature dipendono da ri-addestramenti specifici per dataset o da pesanti ottimizzazioni implicite, limitando scalabilità e generalizzazione. Upsample Anything affronta questi problemi attraverso una semplice ottimizzazione per immagine che apprende un kernel Gaussiano anisotropo combinando cue spaziali e di range, collegando efficacemente Gaussian Splatting e Joint Bilateral Upsampling. Il kernel appreso agisce come un operatore universale e edge-aware che si trasferisce senza soluzione di continuità tra architetture e modalità, consentendo una ricostruzione precisa ad alta risoluzione di feature, mappe di profondità o mappe di probabilità. Esegue in soli circa 0,419 s per immagine 224x224 e raggiunge prestazioni state-of-the-art su segmentazione semantica, stima della profondità e upsampling sia di mappe di profondità che di probabilità. Pagina del progetto: https://seominseok0429.github.io/Upsample-Anything/
I modelli linguistici visivi (VLM) ottengono buone prestazioni nei compiti video standard, ma faticano nel ragionamento basato sulla fisica che coinvolge la dinamica del moto e le interazioni spaziali. Questa limitazione riduce la loro capacità di interpretare video di contenuti reali o generati dall'IA (AIGC) e di generare contenuti fisicamente coerenti. Presentiamo un approccio che affronta questa lacuna traducendo gli indizi contestuali del mondo fisico in rappresentazioni interpretabili allineate con la percezione, la comprensione e il ragionamento dei VLM. Introduciamo MASS-Bench, un benchmark completo composto da 4.350 video del mondo reale e AIGC e 8.361 coppie libere di domanda-risposta video incentrate su compiti di comprensione legati alla fisica, con annotazioni dettagliate che includono rilevamenti visivi, grounding di sotto-segmenti e tracciamento 3D del moto a sequenza completa delle entità. Presentiamo inoltre MASS, un metodo agnostico al modello che inietta segnali spazio-temporali nello spazio linguistico del VLM tramite codifica 3D basata sulla profondità e grounding visivo, abbinato a un tracker del moto per la dinamica degli oggetti. Per rafforzare l'allineamento e il ragionamento cross-modale, applichiamo un fine-tuning per rinforzo. Esperimenti e ablazioni dimostrano che i nostri VLM raffinati superano le baseline comparabili e più grandi, nonché i precedenti modelli state-of-the-art, rispettivamente dell'8,7% e del 6,0%, raggiungendo prestazioni paragonabili a VLM SoTA closed-source come Gemini-2.5-Flash nel ragionamento e nella comprensione fisica. Questi risultati convalidano l'efficacia del nostro approccio.
La manipolazione robotica a lungo orizzonte rimane una sfida per i modelli Vision-Language-Action (VLA) nonostante i recenti progressi nella generalizzazione zero-shot e nel transfer da simulazione a mondo reale. Gli attuali modelli VLA soffrono di allucinazione di stadio, in cui gli agenti sfruttano segnali di valutazione approssimativi per trovare scorciatoie nei compiti multi-step, riportando un alto progresso senza completarli realmente. Presentiamo EvoVLA, un framework VLA auto-supervisionato che affronta questo problema attraverso tre componenti complementari: Ricompensa Allineata per Stadio (SAR), che utilizza l'apprendimento contrastivo a triplette con negativi difficili generati da Gemini per prevenire scorciatoie visive; Esplorazione di Oggetti Basata su Posa (POE), che ancorala curiosità alla posa relativa oggetto-pinza invece che ai pixel grezzi; e Memoria a Lungo Orizzonte, che utilizza una ritenzione selettiva del contesto e una fusione controllata per stabilizzare lo shaping intrinseco durante rollout estesi. Valutazioni estensive su Discoverse-L, un benchmark di manipolazione a lungo orizzonte con tre compiti multi-stadio, mostrano che EvoVLA migliora il successo medio del compito di 10.2 punti percentuali rispetto al baseline più forte (OpenVLA-OFT), raggiungendo il 69.2 percento. EvoVLA raggiunge anche un'efficienza campionaria una volta e mezzo superiore e riduce l'allucinazione di stadio dal 38.5 percento al 14.8 percento. Il deployment nel mondo reale su robot fisici raggiunge un tasso di successo medio del 54.6 percento su quattro compiti di manipolazione, superando OpenVLA-OFT di 11 punti, dimostrando un efficace transfer sim-to-real e una forte generalizzazione. Codice: https://github.com/AIGeeksGroup/EvoVLA. Sito web: https://aigeeksgroup.github.io/EvoVLA.
I modelli di flusso all'avanguardia raggiungono una qualità notevole ma richiedono un campionamento iterativo e lento. Per accelerare questo processo, le mappe di flusso possono essere distillate da insegnanti pre-addestrati, una procedura che convenzionalmente richiede il campionamento da un dataset esterno. Sosteniamo che questa dipendenza dai dati introduca un rischio fondamentale di Disallineamento Insegnante-Dati, poiché un dataset statico può fornire una rappresentazione incompleta o addirittura disallineata delle piene capacità generative dell'insegnante. Questo ci porta a chiederci se questa dipendenza dai dati sia veramente necessaria per una distillazione di successo delle mappe di flusso. In questo lavoro, esploriamo un'alternativa senza dati che campiona esclusivamente dalla distribuzione a priori, una distribuzione che l'insegnante segue per costruzione in modo garantito, evitando così completamente il rischio di disallineamento. Per dimostrare la fattibilità pratica di questa filosofia, introduciamo un framework principiato che impara a prevedere il percorso di campionamento dell'insegnamento correggendo attivamente i propri errori cumulativi per garantire un'alta fedeltà. Il nostro approccio supera tutte le controparti basate su dati e stabilisce un nuovo stato dell'arte con un margine significativo. Nello specifico, distillando da SiT-XL/2+REPA, il nostro metodo raggiunge un FID impressionante di 1.45 su ImageNet 256x256 e di 1.49 su ImageNet 512x512, entrambi con un solo passo di campionamento. Speriamo che il nostro lavoro stabilisca un paradigma più robusto per accelerare i modelli generativi e motivi una più ampia adozione della distillazione delle mappe di flusso senza dati.
Sebbene i recenti modelli mondiali generino video altamente realistici, la loro capacità di eseguire la pianificazione di percorsi robotici rimane poco chiara e non quantificata. Presentiamo Target-Bench, il primo benchmark specificamente progettato per valutare i modelli mondiali sulla pianificazione di percorsi senza mappe verso target semantici in ambienti del mondo reale. Target-Bench fornisce 450 sequenze video raccolte da robot, che coprono 45 categorie semantiche, con traiettorie di verità terreno basate su SLAM. La nostra pipeline di valutazione ricostruisce il moto della camera dai video generati e misura le prestazioni di pianificazione utilizzando cinque metriche complementari che quantificano la capacità di raggiungimento del target, l'accuratezza della traiettoria e la coerenza direzionale. Valutiamo modelli all'avanguardia tra cui Sora 2, Veo 3.1 e la serie Wan. Il miglior modello pronto all'uso (Wan2.2-Flash) raggiunge un punteggio complessivo di soli 0.299, rivelando significative limitazioni degli attuali modelli mondiali per compiti di pianificazione robotica. Dimostriamo che la messa a punto di un modello open-source da 5 miliardi di parametri su soli 325 scenari del nostro dataset consente di raggiungere un punteggio complessivo di 0.345 — un miglioramento di oltre il 400% rispetto alla sua versione base (0.066) e del 15% superiore al miglior modello pronto all'uso. Renderemo open-source il codice e il dataset.
I modelli linguistici di grandi dimensioni (LLM) sono ampiamente utilizzati per compiti fattuali come "Cosa cura l'asma?" o "Qual è la capitale della Lettonia?". Tuttavia, rimane poco chiaro quanto stabilmente gli LLM codifichino, nelle loro rappresentazioni probabilistiche interne, le distinzioni tra contenuti veri, falsi e né-veri-né-falsi. Introduciamo la stabilità rappresentazionale come la robustezza delle rappresentazioni di veridicità di un LLM rispetto a perturbazioni nella definizione operativa di verità. Valutiamo la stabilità rappresentazionale (i) addestrando una sonda lineare sulle attivazioni di un LLM per separare affermazioni vere da non-vere e (ii) misurando come il suo confine decisionale appreso si sposti sotto cambiamenti controllati delle etichette. Utilizzando le attivazioni di sedici modelli open-source e tre domini fattuali, confrontiamo due tipi di affermazioni "né". Il primo tipo è costituito da asserzioni simili a fatti riguardanti entità che riteniamo assenti da qualsiasi dato di addestramento. Chiamiamo queste *affermazioni né non familiari*. Il secondo tipo sono affermazioni non fattuali tratte da contesti fittizi ben noti. Chiamiamo queste *affermazioni né familiari*. Le affermazioni non familiari inducono i maggiori spostamenti del confine, producendo fino al 40% di giudizi di verità ribaltati in domini fragili (come le definizioni di parole), mentre le affermazioni fittizie familiari rimangono raggruppate in modo più coerente e producono cambiamenti minori (≤ 8.2%). Questi risultati suggeriscono che la stabilità rappresentazionale derivi più dalla familiarità epistemica che dalla forma linguistica. Più in generale, il nostro approccio fornisce uno strumento diagnostico per verificare e addestrare gli LLM al fine di preservare assegnazioni di verità coerenti sotto incertezza semantica, piuttosto che ottimizzare solo per l'accuratezza dell'output.
La generazione di interazioni mano-oggetto (HOI) svolge un ruolo cruciale nel promuovere applicazioni nell'animazione e nella robotica. I metodi video attuali sono prevalentemente single-view, il che ostacola una percezione geometrica 3D completa e spesso si traduce in distorsioni geometriche o pattern di movimento irrealistici. Sebbene gli approcci HOI 3D possano generare movimenti dinamicamente plausibili, la loro dipendenza da dati 3D di alta qualità acquisiti in ambienti di laboratorio controllati ne limita fortemente la generalizzazione a scenari reali. Per superare queste limitazioni, introduciamo SyncMV4D, il primo modello che genera congiuntamente video HOI multi-view sincronizzati e movimenti 4D, unificando prior visivi, dinamica del movimento e geometria multi-view. Il nostro framework presenta due innovazioni fondamentali: (1) un modello di diffusione congiunta multi-view (MJD) che co-genera video HOI e movimenti intermedi, e (2) un allineatore a punti a diffusione (DPA) che affina il movimento intermedio grezzo in tracce di punti metrici 4D allineate globalmente. Per accoppiare strettamente l'aspetto 2D con la dinamica 4D, stabiliamo un ciclo chiuso e mutualmente migliorativo. Durante il processo di denoising della diffusione, il video generato condiziona il raffinamento del movimento 4D, mentre le tracce di punti 4D allineate vengono riproiettate per guidare la generazione congiunta allo step successivo. Sperimentalmente, il nostro metodo dimostra prestazioni superiori alle alternative state-of-the-art in realismo visivo, plausibilità del movimento e coerenza multi-view.
La fedeltà esplicativa, che misura l'accuratezza con cui una spiegazione riflette il ragionamento effettivo di un modello, rimane un'area gravemente sottostudiata nei sistemi di raccomandazione. Introduciamo SPINRec (Stochastic Path Integration for Neural Recommender Explanations), un approccio agnostico al modello che adatta le tecniche di integrazione del percorso alla natura sparsa e implicita dei dati di raccomandazione. Per superare i limiti dei metodi precedenti, SPINRec impiega un campionamento stocastico dei baseline: invece di integrare a partire da un baseline fisso o irrealistico, campiona molteplici profili utente plausibili dalla distribuzione empirica dei dati e seleziona il percorso di attribuzione più fedele. Questo progetto cattura l'influenza sia delle interazioni osservate che di quelle non osservate, producendo spiegazioni più stabili e personalizzate. Conduciamo la valutazione di fedeltà più completa ad oggi, coinvolgendo tre modelli (MF, VAE, NCF), tre dataset (ML1M, Yahoo! Music, Pinterest) e una serie di metriche controfattuali, incluse curve di perturbazione basate su AUC e diagnostiche a lunghezza fissa. SPINRec supera costantemente tutti i baseline, stabilendo un nuovo punto di riferimento per l'esplicabilità fedele nella raccomandazione. Il codice e gli strumenti di valutazione sono pubblicamente disponibili all'indirizzo https://github.com/DeltaLabTLV/SPINRec.
Presentiamo un metodo per estrarre neuroni monosemantici, definiti come dimensioni latenti che si allineano con concetti coerenti e interpretabili, dagli embedding di utenti e item nei sistemi di raccomandazione. Il nostro approccio utilizza un Autoencoder Sparso (SAE) per rivelare la struttura semantica all'interno di rappresentazioni pre-addestrate. A differenza del lavoro sui modelli linguistici, la monosemanticità nella raccomandazione deve preservare le interazioni tra i distinti embedding di utenti e item. Per raggiungere questo obiettivo, introduciamo una funzione di costo *prediction aware* che propaga l'errore all'indietro attraverso un raccomandatore congelato e allinea la struttura latente appresa con le previsioni di affinità utente-item del modello. I neuroni risultanti catturano proprietà come genere, popolarità e tendenze temporali, e supportano operazioni di controllo *post hoc* inclusi filtraggio mirato e promozione di contenuti senza modificare il modello base. Il nostro metodo generalizza su diversi modelli di raccomandazione e dataset, fornendo uno strumento pratico per una personalizzazione interpretabile e controllabile. Codice e risorse per la valutazione sono disponibili su https://github.com/DeltaLabTLV/Monosemanticity4Rec.
La rilevazione di oggetti mimetizzati è un compito emergente e impegnativo nel campo della visione artificiale, che richiede l'identificazione e la segmentazione di oggetti che si fondono perfettamente con il loro ambiente a causa dell'elevata somiglianza in termini di colore, texture e dimensioni. Questo compito è ulteriormente complicato da condizioni di scarsa illuminazione, occlusione parziale, dimensioni ridotte degli oggetti, pattern di sfondo intricati e presenza di oggetti multipli. Sebbene siano stati proposti molti metodi sofisticati per questo compito, gli approcci attuali faticano ancora a rilevare con precisione gli oggetti mimetizzati in scenari complessi, specialmente con oggetti piccoli e multipli, indicando margini di miglioramento. Proponiamo una Rete Ricorsiva Multi-Scala che estrae caratteristiche multi-scala attraverso un backbone Pyramid Vision Transformer e le combina tramite apposite Unità di Integrazione Scala Basate su Attenzione, consentendo una fusione selettiva delle caratteristiche. Per una rilevazione più precisa degli oggetti, il nostro decoder affina ricorsivamente le caratteristiche incorporando Unità di Fusione Multi-Granularità. È stata sviluppata una nuova strategia di decoding a feedback ricorsivo per migliorare la comprensione del contesto globale, aiutando il modello a superare le sfide di questo compito. Sfruttando congiuntamente l'apprendimento multi-scala e l'ottimizzazione ricorsiva delle caratteristiche, il nostro metodo proposto consegue miglioramenti prestazionali, rilevando con successo oggetti mimetizzati piccoli e multipli. Il nostro modello raggiunge risultati state-of-the-art su due dataset di benchmark per la rilevazione di oggetti mimetizzati e si classifica secondo sui restanti due. I nostri codici, i pesi del modello e i risultati sono disponibili su https://github.com/linaagh98/MSRNet.