HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

34 papers found

MinerU-Diffusion: Ripensare l'OCR dei documenti come rendering inverso tramite decodifica diffusion
MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

Mar 23

ByHejun Dong, Junbo Niu, Bin Wang, Weijun Zeng, Wentao Zhang, Conghui He

110

L'OCR (riconoscimento ottico dei caratteri) si è evoluto dalla trascrizione a livello di riga all'analisi strutturata di documenti, richiedendo ai modelli di ricostruire sequenze di lunga durata contenenti layout, tabelle e formule. Nonostante i recenti progressi nei modelli visione-linguaggio, la maggior parte dei sistemi esistenti si basa su decodifica autoregressiva, che introduce latenza sequenziale e amplifica la propagazione degli errori nei documenti lunghi. In questo lavoro, riaffrontiamo l'OCR documentale da una prospettiva di inverse rendering, sostenendo che la generazione causale da sinistra a destra sia un artefatto della serializzazione piuttosto che una proprietà intrinseca del compito. Motivati da questa intuizione, proponiamo MinerU-Diffusion, un framework unificato basato sulla diffusione che sostituisce la decodifica sequenziale autoregressiva con la denoising parallela per diffusione sotto condizionamento visivo. MinerU-Diffusion utilizza un decoder di diffusione basato su blocchi e una strategia di apprendimento per curriculum guidata dall'incertezza per consentire un addestramento stabile e un'inferenza efficiente su sequenze lunghe. Esperimenti estensivi dimostrano che MinerU-Diffusion migliora costantemente la robustezza, raggiungendo fino a 3,2 volte una decodifica più rapida rispetto ai baseline autoregressivi. Le valutazioni sul benchmark proposto Semantic Shuffle confermano ulteriormente la sua ridotta dipendenza da prior linguistiche e una più forte capacità di OCR visivo.

WildWorld: Un ampio dataset per la modellazione dinamica del mondo con azioni e stato esplicito verso ARPG generativi
WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

Mar 24

ByZhen Li, Zian Meng, Shuwei Shi, Wenshuo Peng, Yuwei Wu, Bo Zheng, Chuanhao Li, Kaipeng Zhang

La teoria dei sistemi dinamici e l'apprendimento per rinforzo interpretano l'evoluzione del mondo come dinamiche di stati latenti guidate da azioni, con osservazioni visive che forniscono informazioni parziali sullo stato. I recenti modelli video del mondo tentano di apprendere queste dinamiche condizionate dalle azioni a partire dai dati. Tuttavia, i dataset esistenti raramente soddisfano questo requisito: tipicamente mancano di spazi d'azione diversificati e semanticamente significativi, e le azioni sono legate direttamente alle osservazioni visive anziché essere mediate da stati sottostanti. Di conseguenza, le azioni sono spesso intrecciate con cambiamenti a livello di pixel, rendendo difficile per i modelli apprendere dinamiche strutturate del mondo e mantenere un'evoluzione coerente su orizzonti temporali lunghi. In questo articolo, proponiamo WildWorld, un dataset su larga scala per la modellazione del mondo condizionata da azioni, con annotazioni esplicite degli stati, raccolto automaticamente da un gioco di ruolo d'azione AAA fotorealistico (Monster Hunter: Wilds). WildWorld contiene oltre 108 milioni di frame e presenta più di 450 azioni, inclusi movimenti, attacchi e lancio di abilità, insieme ad annotazioni sincronizzate per frame di scheletri dei personaggi, stati del mondo, pose della telecamera e mappe di profondità. Deriviamo inoltre WildBench per valutare i modelli tramite Action Following e State Alignment. Esperimenti estensivi rivelano sfide persistenti nella modellazione di azioni semanticamente ricche e nel mantenimento della coerenza degli stati su lunghi orizzonti, evidenziando la necessità di una generazione video consapevole dello stato. La pagina del progetto è https://shandaai.github.io/wildworld-project/.

SpecEyes: Accelerazione di LLM Agenti Multimodali tramite Percezione e Pianificazione Speculativa
SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

Mar 24

ByHaoyu Huang, Jinfa Huang, Zhongwei Wan, Xiawu Zheng, Rongrong Ji, Jiebo Luo

I modelli linguistici multimodali agentici (MLLM) (ad esempio, OpenAI o3 e Gemini Agentic Vision) raggiungono capacità di ragionamento notevoli attraverso l'invocazione iterativa di strumenti visivi. Tuttavia, i cicli concatenati di percezione, ragionamento e chiamata a strumenti introducono un sovraccarico sequenziale significativo. Questo sovraccarico, definito profondità agentica, comporta una latenza proibitiva e limita seriamente la concorrenza a livello di sistema. A tal fine, proponiamo SpecEyes, un framework di accelerazione speculativa a livello agentico che supera questo collo di bottiglia sequenziale. La nostra intuizione chiave è che un MLLM leggero, privo di strumenti, possa fungere da pianificatore speculativo per prevedere la traiettoria di esecuzione, consentendo una terminazione anticipata delle costose catene di strumenti senza sacrificare l'accuratezza. Per regolare questa pianificazione speculativa, introduciamo un meccanismo di gate cognitivo basato sulla separabilità delle risposte, che quantifica la fiducia del modello per l'auto-verifica senza richiedere etichette oracle. Inoltre, progettiamo un imbuto parallelo eterogeneo che sfrutta la concorrenza senza stato del modello piccolo per mascherare l'esecuzione seriale con stato del modello grande, massimizzando il throughput del sistema. Esperimenti estensivi su V* Bench, HR-Bench e POPE dimostrano che SpecEyes ottiene un'accelerazione di 1.1-3.35x rispetto al baseline agentico preservando o persino migliorando l'accuratezza (fino a +6.7%), aumentando così il throughput di servizio sotto carichi di lavoro concorrenti.

Da Modelli Statici a Grafi Dinamici di Runtime: Una Rassegna sull'Ottimizzazione dei Flussi di Lavoro per Agenti LLM
From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM Agents

Mar 23

ByLing Yue, Kushal Raj Bhandari, Ching-Yun Ko, Dhaval Patel, Shuxin Lin, Nianjun Zhou, Jianxi Gao, Pin-Yu Chen, Shaowu Pan

I sistemi basati su grandi modelli linguistici (LLM) stanno diventando sempre più popolari per risolvere compiti attraverso la costruzione di workflow eseguibili che intercalano chiamate agli LLM, recupero di informazioni, uso di strumenti, esecuzione di codice, aggiornamenti della memoria e verifica. Questa rassegna esamina i metodi recenti per progettare e ottimizzare tali workflow, che trattiamo come grafi computazionali agentivi (ACG). Organizziamo la letteratura in base a quando viene determinata la struttura del workflow, dove per struttura si intende quali componenti o agenti sono presenti, come dipendono l'uno dall'altro e come le informazioni fluiscono tra di essi. Questa lente distingue i metodi statici, che fissano un'impalcatura di workflow riutilizzabile prima del dispiegamento, dai metodi dinamici, che selezionano, generano o revisionano il workflow per una specifica esecuzione prima o durante la sua realizzazione. Organizziamo ulteriormente il lavoro precedente lungo tre dimensioni: quando viene determinata la struttura, quale parte del workflow viene ottimizzata e quali segnali di valutazione guidano l'ottimizzazione (ad esempio, metriche del compito, segnali di verifica, preferenze o feedback derivati dalle tracce). Distinguiamo anche modelli di workflow riutilizzabili, grafi realizzati specifici per una esecuzione e tracce di esecuzione, separando le scelte progettuali riutilizzabili dalle strutture effettivamente dispiegate in una determinata esecuzione e dal comportamento runtime realizzato. Infine, delineiamo una prospettiva di valutazione consapevole della struttura che affianca alle metriche del compito finale proprietà a livello di grafo, costo di esecuzione, robustezza e variazione strutturale tra i diversi input. Il nostro obiettivo è fornire un vocabolario chiaro, un framework unificato per posizionare nuovi metodi, una visione più comparabile della letteratura esistente e uno standard di valutazione più riproducibile per i lavori futuri sull'ottimizzazione dei workflow per agenti LLM.

PEARL: Modello Personalizzato per la Comprensione di Video in Streaming
PEARL: Personalized Streaming Video Understanding Model

Mar 20

ByYuanhong Zheng, Ruichuan An, Xiaopeng Lin, Yuxing Liu, Sihan Yang, Huanyu Zhang, Haodong Li, Qintong Zhang, Renrui Zhang, Guopeng Li, Yifan Zhang, Yuheng Li, Wentao Zhang

La cognizione umana di nuovi concetti è intrinsecamente un processo in streaming: riconosciamo continuamente nuovi oggetti o identità e aggiorniamo i nostri ricordi nel tempo. Tuttavia, gli attuali metodi di personalizzazione multimodale sono largamente limitati a immagini statiche o video offline. Ciò disconnette l'input visivo continuo dal feedback istantaneo del mondo reale, limitando la loro capacità di fornire risposte personalizzate in tempo reale e interattive, essenziali per i futuri assistenti IA. Per colmare questa lacuna, proponiamo e definiamo formalmente per primi il nuovo compito di Comprensione Personalizzata di Video in Streaming (PSVU). Per facilitare la ricerca in questa nuova direzione, introduciamo PEARL-Bench, il primo benchmark completo progettato specificamente per valutare questa impegnativa impostazione. Esso valuta la capacità di un modello di rispondere a concetti personalizzati in timestamp precisi secondo due modalità: (1) a livello di fotogramma, concentrandosi su una persona o un oggetto specifico in fotogrammi discreti, e (2) una nuova modalità a livello di video, che si concentra su azioni personalizzate che si svolgono attraverso fotogrammi continui. PEARL-Bench comprende 132 video unici e 2.173 annotazioni granulari con timestamp precisi. La diversità dei concetti e la qualità delle annotazioni sono rigorosamente garantite attraverso una pipeline combinata di generazione automatica e verifica umana. Per affrontare questa nuova e impegnativa impostazione, proponiamo ulteriormente PEARL, una strategia plug-and-play, senza addestramento, che funge da solida baseline. Valutazioni estese su 8 modelli offline e online dimostrano che PEARL raggiunge prestazioni all'avanguardia. Notevolmente, apporta miglioramenti PSVU consistenti quando applicato a 3 diverse architetture, dimostrandosi una strategia altamente efficace e robusta. Speriamo che questo lavoro avanzi la personalizzazione dei modelli visione-linguaggio (VLM) e ispiri ulteriori ricerche su assistenti IA personalizzati in streaming. Il codice è disponibile all'indirizzo https://github.com/Yuanhong-Zheng/PEARL.

DA-Flow: Stima del Flusso Ottico Consapevole della Degradazione con Modelli di Diffusione
DA-Flow: Degradation-Aware Optical Flow Estimation with Diffusion Models

Mar 24

ByJaewon Min, Jaeeun Lee, Yeji Choi, Paul Hyunbin Cho, Jin Hyeon Kim, Tae-Young Lee, Jongsik Ahn, Hwayeong Lee, Seonghyun Park, Seungryong Kim

I modelli di flusso ottico addestrati su dati di alta qualità spesso si degradano severamente quando confrontati con corruzioni del mondo reale come sfocatura, rumore e artefatti di compressione. Per superare questa limitazione, formuliamo il Flusso Ottico Consapevole del Degrado (Degradation-Aware Optical Flow), un nuovo compito che mira a una stima accurata della corrispondenza densa da video corrotti del mondo reale. La nostra intuizione chiave è che le rappresentazioni intermedie dei modelli di diffusione per il restauro d'immagine sono intrinsecamente consapevoli della corruzione ma mancano di consapevolezza temporale. Per affrontare questa limitazione, eleviamo il modello per prestare attenzione attraverso frame adiacenti tramite attenzione spaziotemporale completa, e dimostriamo empiricamente che le caratteristiche risultanti mostrano capacità di corrispondenza zero-shot. Sulla base di questa scoperta, presentiamo DA-Flow, un'architettura ibrida che fonde queste caratteristiche di diffusione con caratteristiche convoluzionali all'interno di un framework di raffinamento iterativo. DA-Flow supera sostanzialmente i metodi di flusso ottico esistenti in condizioni di degrado severo su molteplici benchmark.

SIMART: Scomposizione di Mesh Monolitiche in Risorse Articolate Pronte per la Simulazione tramite MLLM
SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM

Mar 24

ByChuanrui Zhang, Minghan Qin, Yuang Wang, Baifeng Xie, Hang Li, Ziwei Wang

Gli asset 3D articolati di alta qualità sono indispensabili per l'IA incarnata e la simulazione fisica, ma la generazione 3D si concentra ancora su mesh statiche, lasciando un vuoto per oggetti interattivi "pronti per la simulazione". La maggior parte dei metodi recenti per la creazione di oggetti articolati si basa su pipeline multi-stage che accumulano errori attraverso moduli disaccoppiati. In alternativa, i modelli linguistici multimodali (MLLM) unificati offrono un percorso single-stage per la comprensione congiunta degli asset statici e la generazione di asset pronti per la simulazione. Tuttavia, la tokenizzazione 3D basata su voxel densi produce lunghe sequenze di token 3D e un elevato sovraccarico di memoria, limitando la scalabilità a oggetti articolati complessi. Per affrontare questo problema, proponiamo SIMART, un framework MLLM unificato che esegue congiuntamente la scomposizione a livello di parte e la previsione cinematica. Introducendo un VQ-VAE 3D sparso, SIMART riduce il numero di token del 70% rispetto ai token di voxel densi, consentendo assemblaggi multi-parte ad alta fedeltà. SIMART raggiunge prestazioni all'avanguardia su PartNet-Mobility e su dataset AIGC in contesti reali, e abilita la simulazione robotica basata sulla fisica.

UniGRPO: Ottimizzazione Unificata delle Politiche per la Generazione Visiva Guidata dal Ragionamento
UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

Mar 24

ByJie Liu, Zilyu Ye, Linxiao Yuan, Shenhan Zhu, Yu Gao, Jie Wu, Kunchang Li, Xionghui Wang, Xiaonan Nie, Weilin Huang, Wanli Ouyang

I modelli unificati in grado di generazione intervallata sono emersi come un paradigma promettente, con la comunità che converge sempre più sulla modellazione autoregressiva per il testo e sul *flow matching* per la generazione di immagini. Per far progredire questa direzione, proponiamo un framework unificato di apprendimento per rinforzo progettato per la generazione intervallata. Convalidiamo il nostro approccio sulla sua unità fondamentale: un singolo ciclo di generazione di immagini guidata dal ragionamento, in cui il modello prima espande il prompt dell'utente attraverso il ragionamento, seguito dalla sintesi dell'immagine. Formulando questo processo di generazione multimodale come un Processo Decisionale di Markov con ricompense terminali sparse, introduciamo UniGRPO per ottimizzare congiuntamente le politiche di generazione del testo e dell'immagine utilizzando GRPO. Adottando una metodologia minimalista per evitare un eccesso di progettazione, sfruttiamo protocolli di addestramento consolidati per entrambe le modalità integrando perfettamente GRPO standard per il ragionamento e FlowGRPO per la sintesi visiva. Per garantire la scalabilità alla generazione intervallata multi-ciclo, introduciamo due modifiche critiche al FlowGRPO originale: (1) eliminare la *classifier-free guidance* per mantenere rollout lineari e non ramificati, essenziale per scalare a scenari complessi che coinvolgono interazioni multi-turno e generazione multi-condizione (ad esempio, l'editing); e (2) sostituire la penalità KL latente standard con una penalità MSE direttamente sui campi di velocità, fornendo un segnale di regolarizzazione più robusto e diretto per mitigare efficacemente il *reward hacking*. I nostri esperimenti dimostrano che questo protocollo di addestramento unificato migliora significativamente la qualità della generazione delle immagini attraverso il ragionamento, fornendo una baseline robusta e scalabile per la futura fase di *post-training* di modelli completamente intervallati.

RealMaster: Trasformare Scene Renderizzate in Video Fotorealistici
RealMaster: Lifting Rendered Scenes into Photorealistic Video

Mar 24

ByDana Cohen-Bar, Ido Sobol, Raphael Bensadoun, Shelly Sheynin, Oran Gafni, Or Patashnik, Daniel Cohen-Or, Amit Zohar

I modelli all'avanguardia per la generazione video producono un fotorealismo notevole, ma mancano del controllo preciso necessario per allineare il contenuto generato a requisiti scenici specifici. Inoltre, senza una geometria esplicita sottostante, questi modelli non possono garantire una consistenza 3D. Al contrario, i motori 3D offrono un controllo granulare su ogni elemento della scena e forniscono per progettazione una consistenza 3D nativa, eppure il loro output rimane spesso intrappolato nella "valle perturbante". Colmare questo divario sim-to-real richiede sia una precisione strutturale, dove l'output deve preservare esattamente la geometria e le dinamiche dell'input, sia una trasformazione semantica globale, dove materiali, illuminazione e texture devono essere trasformati in modo olistico per raggiungere il fotorealismo. Presentiamo RealMaster, un metodo che sfrutta i modelli di diffusione video per elevare un video renderizzato a video fotorealistico mantenendo il pieno allineamento con l'output del motore 3D. Per addestrare questo modello, generiamo un dataset accoppiato tramite una strategia di propagazione basata su ancore, dove il primo e l'ultimo fotogramma sono potenziati per il realismo e propagati attraverso i fotogrammi intermedi utilizzando suggerimenti di condizionamento geometrico. Addestriamo quindi un IC-LoRA su questi video accoppiati per distillare gli output di alta qualità della pipeline in un modello che generalizza oltre i vincoli della pipeline stessa, gestendo oggetti e personaggi che compaiono a metà sequenza e abilitando l'inferenza senza richiedere fotogrammi di ancoraggio. Valutato su sequenze complesse di GTA-V, RealMaster supera significativamente i baseline esistenti per l'editing video, migliorando il fotorealismo mentre preserva la geometria, le dinamiche e l'identità specificate dal controllo 3D originale.

2Xplat: Due esperti valgono più di un generalista
2Xplat: Two Experts Are Better Than One Generalist

Mar 22

ByHwasik Jeong, Seungryong Lee, Gyeongjin Kang, Seungkwon Yang, Xiangyu Sun, Seungtae Nam, Eunbyung Park

Il Gaussian Splatting 3D (3DGS) feed-forward senza pose ha aperto una nuova frontiera per la modellazione 3D rapida, consentendo la generazione di rappresentazioni gaussiane di alta qualità da immagini multi-vista non calibrate in un singolo passaggio in avanti. L'approccio dominante in questo ambito adotta architetture monolitiche unificate, spesso basate su modelli fondazionali 3D incentrati sulla geometria, per stimare congiuntamente le pose della camera e sintetizzare le rappresentazioni 3DGS all'interno di una singola rete. Sebbene architetturalmente semplificati, tali design "tutto-in-uno" possono essere subottimali per la generazione di 3DGS ad alta fedeltà, poiché intrecciano il ragionamento geometrico e la modellazione dell'aspetto all'interno di una rappresentazione condivisa. In questo lavoro, introduciamo 2Xplat, un framework 3DGS feed-forward senza pose basato su un design a due esperti che separa esplicitamente la stima geometrica dalla generazione gaussiana. Un esperto di geometria dedicato predice inizialmente le pose della camera, che vengono poi esplicitamente passate a un potente esperto dell'aspetto che sintetizza i Gaussian 3D. Nonostante la sua semplicità concettuale, largamente inesplorata nei lavori precedenti, l'approccio proposto si rivela altamente efficace. In meno di 5.000 iterazioni di addestramento, la pipeline proposta a due esperti supera sostanzialmente i precedenti approcci 3DGS feed-forward senza pose e raggiunge prestazioni pari a quelle dei metodi all'avanguardia che utilizzano pose note. Questi risultati sfidano il paradigma unificato prevalente e suggeriscono i potenziali vantaggi dei principi di design modulare per compiti complessi di stima geometrica 3D e sintesi dell'aspetto.

Ripensare l'Ottimizzazione della Politica a Livello di Token per il Ragionamento a Catena Multimodale
Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

Mar 24

ByYunheng Li, Hangyi Kuang, Hengrui Zhang, Jiangxia Cao, Zhaojie Liu, Qibin Hou, Ming-Ming Cheng

Il ragionamento multimodale a catena del pensiero (CoT) richiede ai grandi modelli visione-linguaggio di costruire traiettorie di ragionamento che intercalano l'ancoraggio percettivo con inferenze a più passaggi. Tuttavia, i metodi esistenti di Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) ottimizzano tipicamente il ragionamento a una granularità grossolana, trattando il CoT in modo uniforme senza distinguere i loro diversi gradi di ancoraggio visivo. In questo lavoro, conduciamo un'analisi a livello di token delle traiettorie di ragionamento multimodale e dimostriamo che il ragionamento di successo è caratterizzato da dinamiche strutturate dei token che riflettono sia l'ancoraggio percettivo che l'inferenza esplorativa. Basandoci su questa analisi, proponiamo l'Ottimizzazione della Politica Percettione-Esplorazione (PEPO), che deriva un prior percettivo dalla similarità degli stati nascosti e lo integra con l'entropia dei token attraverso un meccanismo di gating regolare per produrre vantaggi a livello di token. PEPO si integra perfettamente con i framework RLVR esistenti come GRPO e DAPO, non richiedendo né supervisione aggiuntiva né rami ausiliari. Esperimenti estesi su diversi benchmark multimodali dimostrano miglioramenti consistenti e robusti rispetto a forti baseline di RL, spaziando dal ragionamento geometrico, all'ancoraggio visivo, alla risoluzione di puzzle visivi e alla classificazione few-shot, mantenendo al contempo dinamiche di addestramento stabili. Codice: https://github.com/xzxxntxdy/PEPO

Prima di Attendere, Attenzione: Comprensione Video Efficiente e Scalabile Tramite Osservazione Autoregressiva
Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

Mar 12

ByBaifeng Shi, Stephanie Fu, Long Lian, Hanrong Ye, David Eigen, Aaron Reite, Boyi Li, Jan Kautz, Song Han, David M. Chan, Pavlo Molchanov, Trevor Darrell, Hongxu Yin

I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno fatto progredire la comprensione video generica, ma incontrano difficoltà con video lunghi e ad alta risoluzione: elaborano ogni pixel in modo uniforme nei loro vision transformer (ViT) o negli LLM, nonostante la significativa ridondanza spazio-temporale. Introduciamo AutoGaze, un modulo leggero che rimuove le patch ridondanti prima che vengano elaborate da un ViT o da un MLLM. Addestrato con la previsione del token successivo e il reinforcement learning, AutoGaze seleziona in modo autoregressivo un insieme minimo di patch multi-scala in grado di ricostruire il video entro una soglia di errore specificata dall'utente, eliminando la ridondanza preservando al contempo le informazioni. Empiricamente, AutoGaze riduce i token visivi di 4-100 volte e accelera i ViT e gli MLLM fino a 19 volte, consentendo di scalare gli MLLM per video a risoluzione 4K da 1.000 fotogrammi e ottenendo risultati superiori sui benchmark video (ad esempio, 67,0% su VideoMME). Inoltre, introduciamo HLVid: il primo benchmark di domande e risposte (QA) per video lunghi e ad alta risoluzione, con video della durata di 5 minuti a risoluzione 4K, dove un MLLM scalato con AutoGaze migliora del 10,1% rispetto al baseline e supera del 4,5% il precedente MLLM migliore. Pagina del progetto: https://autogaze.github.io/.

VP-VLA: Prompt Visivo come Interfaccia per Modelli Visione-Linguaggio-Azione
VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models

Mar 23

ByZixuan Wang, Yuxin Chen, Yuqi Liu, Jinhui Ye, Pengguang Chen, Changsheng Lu, Shu Liu, Jiaya Jia

I modelli Vision-Language-Action (VLA) mappano tipicamente le osservazioni visive e le istruzioni linguistiche direttamente sui segnali di controllo robotico. Questa mappatura "a scatola nera" costringe un singolo passaggio in avanti a gestire simultaneamente l'interpretazione delle istruzioni, il grounding spaziale e il controllo di basso livello, portando spesso a una scarsa precisione spaziale e a una robustezza limitata in scenari fuori distribuzione. Per affrontare queste limitazioni, proponiamo VP-VLA, un framework a doppio sistema che disaccoppia il ragionamento di alto livello dall'esecuzione di basso livello tramite un'interfaccia strutturata di prompt visivo. Nello specifico, un "Sistema 2 Pianificatore" scompone le istruzioni complesse in sotto-compiti e identifica gli oggetti target rilevanti e le posizioni obiettivo. Questi ancoraggi spaziali vengono poi sovrapposti direttamente alle osservazioni visive come prompt visivi strutturati, come mirini e riquadri di delimitazione. Guidato da questi prompt e potenziato da un nuovo obiettivo ausiliario di grounding visivo durante l'addestramento, un "Sistema 1 Controllore" genera in modo affidabile movimenti di esecuzione di basso livello precisi. Esperimenti sul benchmark Robocasa-GR1-Tabletop e sulla simulazione SimplerEnv dimostrano che VP-VLA migliora i tassi di successo del 5% e dell'8,3%, superando baseline competitive come QwenOFT e GR00T-N1.6.

PensaJEPA: Potenziare i Modelli del Mondo Latenti con un Grande Modello di Ragionamento Visivo-Linguistico
ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model

Mar 23

ByHaichao Zhang, Yijiang Li, Shwai He, Tushar Nagarajan, Mingfei Chen, Jianglin Lu, Ang Li, Yun Fu

I recenti progressi nei modelli latenti del mondo (ad esempio, V-JEPA) hanno dimostrato capacità promettenti nel prevedere stati futuri del mondo a partire da osservazioni video. Tuttavia, la previsione densa basata su una breve finestra di osservazione limita il contesto temporale e può portare i predittori a concentrarsi su estrapolazioni locali e di basso livello, rendendo difficile la cattura di semantiche a lungo termine e riducendo l'utilità per compiti a valle. I modelli visione-linguaggio (VLM), al contrario, forniscono un forte ancoraggio semantico e conoscenza generale ragionando su frame campionati uniformemente, ma non sono ideali come predittori densi autonomi a causa del campionamento sparso dettato da esigenze computazionali, di un collo di bottiglia nell'output linguistico che comprime stati di interazione granulari in rappresentazioni orientate al testo, e di un disallineamento nel regime di dati quando adattati a piccoli dataset condizionati all'azione. Proponiamo un framework di modellazione latente del mondo in stile JEPA guidato da VLM che combina la modellazione densa della dinamica dei frame con una guida semantica a lungo termine attraverso un percorso temporale duale: un ramo JEPA denso per cogliere indizi di movimento e interazione fine, e un ramo "pensante" VLM campionato uniformemente con un passo temporale maggiore per una guida ricca di conoscenza. Per trasferire efficacemente i segnali di ragionamento progressivo del VLM, introduciamo un modulo di estrazione della rappresentazione piramidale gerarchica che aggrega le rappresentazioni multi-livello del VLM in caratteristiche di guida compatibili con la previsione latente. Esperimenti sulla previsione di traiettorie di manipolazione manuale mostrano che il nostro metodo supera sia una baseline basata solo su VLM che una baseline basata su predittore JEPA, e produce comportamenti di rollout a lungo termine più robusti.

AgentSLR: Automatizzazione delle Revisioni Sistematiche della Letteratura in Epidemiologia con l'IA Agente
AgentSLR: Automating Systematic Literature Reviews in Epidemiology with Agentic AI

Mar 20

ByShreyansh Padarha, Ryan Othniel Kearns, Tristan Naidoo, Lingyi Yang, Łukasz Borchmann, Piotr BŁaszczyk, Christian Morgenstern, Ruth McCabe, Sangeeta Bhatia, Philip H. Torr, Jakob Foerster, Scott A. Hale, Thomas Rawson, Anne Cori, Elizaveta Semenova, Adam Mahdi

Le revisioni sistematiche della letteratura sono essenziali per sintetizzare le evidenze scientifiche, ma risultano costose, difficili da scalare e ad alta intensità temporale, creando colli di bottiglia per le politiche basate su evidenze. Studiamo se i grandi modelli linguistici possano automatizzare l'intero flusso di lavoro della revisione sistematica, dal recupero degli articoli, allo screening, all'estrazione dei dati fino alla sintesi del report. Applicata a revisioni epidemiologiche di nove patogeni prioritari designati dall'OMS e validata rispetto a dati di riferimento curati da esperti, la nostra pipeline agenziale open-source (AgentSLR) raggiunge prestazioni paragonabili a quelle dei ricercatori umani, riducendo il tempo di revisione da circa 7 settimane a 20 ore (un'accelerazione di 58 volte). Il nostro confronto di cinque modelli all'avanguardia rivela che le prestazioni nelle revisioni sistematiche sono determinate meno dalle dimensioni del modello o dal costo inferenziale che dalle capacità distintive di ciascun modello. Attraverso una validazione con umano nel ciclo, identifichiamo le principali modalità di fallimento. I nostri risultati dimostrano che l'intelligenza artificiale agenziale può accelerare sostanzialmente la sintesi delle evidenze scientifiche in domini specializzati.

CanViT: Verso Modelli Fondamentali per la Visione Attiva
CanViT: Toward Active-Vision Foundation Models

Mar 23

ByYohaï-Eliel Berreby, Sabrina Du, Audrey Durand, B. Suresh Krishna

La visione artificiale attiva promette una percezione efficiente e biologicamente plausibile attraverso scorci sequenziali e localizzati, ma manca di architetture scalabili per scopi generali e pipeline di pre-addestramento. Di conseguenza, i Modelli Fondamentali per la Visione Attiva (AVFM) sono rimasti inesplorati. Introduciamo CanViT, il primo AVFM indipendente dal compito e dalla politica di esplorazione. CanViT utilizza uno schema di codifica posizionale RoPE relativo alla scena per collegare un'architettura Vision Transformer retinotopica a uno spazio latente di lavoro spaziotopico a livello di scena, il "canvas". L'interazione efficiente con questa memoria di lavoro ad alta capacità è supportata da Canvas Attention, un nuovo meccanismo di cross-attention asimmetrico. Separiamo il "pensiero" (a livello del backbone) dalla "memoria" (a livello del canvas), eliminando il self-attention e i livelli fully-connected lato canvas per ottenere un'inferenza sequenziale a bassa latenza e la scalabilità a scene di grandi dimensioni. Proponiamo uno schema di pre-addestramento senza etichette per la visione attiva, la distillazione latente densa da passivo ad attivo, indipendente dalla politica: ricostruire embedding DINOv3 a livello di scena da sequenze di scorci a bassa risoluzione con posizioni, livelli di zoom e lunghezze randomizzate. Pre-addestriamo CanViT-B partendo da un'inizializzazione casuale su 13,2 milioni di scene di ImageNet-21k – un ordine di grandezza in più rispetto ai modelli attivi precedenti – e 1 miliardo di scorci casuali, in 166 ore su un singolo H100. Su ADE20K per la segmentazione, un CanViT-B congelato raggiunge il 38,5% di mIoU con un singolo scorcio a bassa risoluzione, superando il 27,6% del miglior modello attivo con 19,5x meno FLOPs di inferenza e senza fine-tuning, nonché il suo insegnante DINOv3 con FLOPs o input equivalenti. Con scorci aggiuntivi, CanViT-B raggiunge il 45,9% di mIoU su ADE20K. Su ImageNet-1k per la classificazione, CanViT-B raggiunge l'81,2% di accuratezza top-1 con probe dell'insegnante congelati. CanViT generalizza a sequenze più lunghe, scene più grandi e nuove politiche. Il nostro lavoro colma il divario tra visione passiva e attiva nella segmentazione semantica e dimostra il potenziale degli AVFM come nuovo asse di ricerca.

Divisioni eque stravolgono la classifica: CHANRG rivella una generalizzazione limitata nella predizione della struttura secondaria dell'RNA
Fair splits flip the leaderboard: CHANRG reveals limited generalization in RNA secondary-structure prediction

Mar 20

ByZhiyuan Chen, Zhenfeng Deng, Pan Deng, Yue Liao, Xiu Su, Peng Ye, Xihui Liu

La previsione accurata della struttura secondaria dell'RNA è alla base dell'annotazione del trascrittoma, dell'analisi meccanicistica degli RNA non codificanti e della progettazione di terapie a base di RNA. I recenti progressi ottenuti con il deep learning e i modelli fondazionali per l'RNA sono di difficile interpretazione poiché gli attuali benchmark potrebbero sovrastimare la generalizzazione tra le diverse famiglie di RNA. Presentiamo CHANRG (Comprehensive Hierarchical Annotation of Non-coding RNA Groups), un benchmark di 170.083 RNA strutturalmente non ridondanti, selezionati da oltre 10 milioni di sequenze in Rfam 15.0 mediante deduplicazione basata sulla struttura, progettazione di split consapevole del genoma e valutazione strutturale multiscala. Su 29 predittori testati, i metodi basati su modelli fondazionali hanno ottenuto la massima accuratezza sui dati di test (*held-out*), ma hanno perso la maggior parte di questo vantaggio al di fuori della distribuzione di addestramento, mentre i decoder strutturati e i predittori neurali diretti sono rimasti notevolmente più robusti. Questo divario è persistito dopo aver controllato per la lunghezza della sequenza e ha riflesso sia una perdita di copertura strutturale che un cablaggio incorretto di ordine superiore. Insieme, CHANGRG e uno stack di valutazione privo di *padding* e consapevole della simmetria forniscono un framework più rigoroso e invariante al batch per lo sviluppo di predittori di struttura dell'RNA con una robustezza fuori distribuzione dimostrabile.

MultiBind: un benchmark per l'associazione errata di attributi nella generazione multi-soggetto
MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject Generation

Mar 23

ByWenqing Tian, Hanyi Mao, Zhaocheng Liu, Lihua Zhang, Qiang Liu, Jian Wu, Liang Wang

La generazione di immagini guidata da soggetti è sempre più chiamata a supportare un controllo granulare su più entità all'interno di una singola immagine. Nei flussi di lavoro multi-riferimento, gli utenti possono fornire diverse immagini di soggetti, un riferimento per lo sfondo e prompt lunghi ed indicizzati per entità per controllare più persone in una singola scena. In questo contesto, una modalità di errore chiave è il *misbinding* intersoggetto degli attributi: gli attributi vengono preservati, modificati o trasferiti al soggetto sbagliato. I benchmark e le metriche esistenti enfatizzano principalmente la fedeltà olistica o l'auto-similarità per soggetto, rendendo difficile diagnosticare tali errori. Introduciamo MultiBind, un benchmark costruito a partire da fotografie reali di più persone. Ogni istanza fornisce ritagli dei soggetti ordinati per *slot* con maschere e bounding box, riferimenti canonici dei soggetti, un riferimento di sfondo inpainted e un prompt denso indicizzato per entità derivato da annotazioni strutturate. Proponiamo inoltre un protocollo di valutazione della confusione dimensionale che associa i soggetti generati agli *slot* di ground-truth e misura la similarità tra slot utilizzando specialisti per l'identità del volto, l'aspetto, la posa e l'espressione. Sottraendo le corrispondenti matrici di similarità di ground-truth, il nostro metodo separa l'auto-degradazione dalla vera interferenza intersoggetto ed espone pattern di errore interpretabili come *drift*, *swap*, *dominance* e *blending*. Esperimenti su generatori multi-riferimento moderni mostrano che MultiBind rivela errori di associazione che le metriche di ricostruzione convenzionali non colgono.

VTAM: Modelli Video-Tatto-Azione per Interazioni Fisiche Complesse Oltre i VLA
VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs

Mar 24

ByHaoran Yuan, Weigang Yi, Zhenyu Zhang, Wendi Chen, Yuchen Mo, Jiashi Yin, Xinzhuo Li, Xiangyu Zeng, Chuan Wen, Cewu Lu, Katherine Driggs-Campbell, Ismini Lourentzou

I modelli video-azione (Video-Action Models, VAM) sono emersi come un quadro promettente per l'intelligenza incarnata, apprendendo le dinamiche implicite del mondo da flussi video grezzi per produrre previsioni d'azione temporalmente coerenti. Sebbene tali modelli dimostrino prestazioni elevate in compiti a lungo orizzonte attraverso il ragionamento visivo, rimangono limitati in scenari ad alto contatto in cui gli stati critici di interazione sono solo parzialmente osservabili dalla sola visione. In particolare, la modulazione fine della forza e le transizioni di contatto non sono codificate in modo affidabile nei token visivi, portando a comportamenti instabili o imprecisi. Per colmare questa lacuna, introduciamo il Modello Video-Tattile-Azione (Video-Tactile Action Model, VTAM), un quadro di modellazione del mondo multimodale che incorpora la percezione tattile come segnale di ancoraggio complementare. VTAM potenzia un video transformer preaddestrato con flussi tattili attraverso un fine-tuning di trasferimento di modalità leggero, consentendo un apprendimento efficiente di rappresentazioni cross-modali senza dati accoppiati tattile-linguaggio o preaddestramento tattile indipendente. Per stabilizzare la fusione multimodale, introduciamo una loss di regolarizzazione tattile che impone un'attenzione cross-modale bilanciata, prevenendo la dominanza latente visiva nel modello d'azione. VTAM dimostra prestazioni superiori nella manipolazione ad alto contatto, mantenendo un tasso di successo robusto del 90 percento in media. In scenari impegnativi come la presa e posizionamento di patatine che richiedono un'elevata consapevolezza della forza, VTAM supera la baseline di π 0.5 dell'80 percento. I nostri risultati dimostrano che l'integrazione del feedback tattile è essenziale per correggere gli errori di stima visiva nei modelli d'azione del mondo, fornendo un approccio scalabile a modelli fondazionali incarnati fisicamente ancorati.

Scarso ma Cruciale: Un'Analisi a Livello di Token degli Spostamenti Distribuzionali nel Fine-Tuning RLVR per LLM
Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

Mar 23

ByHaoming Meng, Kexin Huang, Shaohang Wei, Chiyu Ma, Shuo Yang, Xue Wang, Guoyin Wang, Bolin Ding, Jingren Zhou

L'apprendimento per rinforzo con ricompense verificabili (RLVR) ha migliorato significativamente il ragionamento nei grandi modelli linguistici (LLM), sebbene i meccanismi a livello di token alla base di questi miglioramenti rimangano poco chiari. Presentiamo uno studio empirico sistematico degli effetti distribuzionali dell'RLVR organizzato attorno a tre analisi principali: (1) la caratterizzazione a livello di token degli spostamenti distribuzionali tra i modelli base e quelli RL, (2) l'impatto degli spostamenti distribuzionali a livello di token sulla performance di ragionamento a livello di sequenza attraverso interventi di campionamento incrociato, e (3) la meccanica granulare di questi spostamenti a livello di token. Scopriamo che la messa a punto con RL induce cambiamenti altamente sparsi e mirati, con solo una piccola frazione delle distribuzioni di token che mostra una divergenza significativa tra le politiche base e quelle RL. Caratterizziamo ulteriormente la struttura e l'evoluzione di questi spostamenti attraverso analisi dell'entropia dei token, della concentrazione posizionale e della riallocazione della massa di probabilità. Per valutare l'importanza funzionale di questi cambiamenti sparsi, conduciamo esperimenti di campionamento incrociato che scambiano selettivamente le scelte di token tra i modelli base e RL con budget di intervento variabili. Dimostriamo che l'inserimento di solo una piccola frazione di token campionati da RL nelle generazioni base recupera progressivamente i guadagni di performance dell'RL, mentre l'iniezione di un numero similmente piccolo di scelte di token base in sequenze altrimenti generate da RL fa collassare la performance ai livelli base, isolando un piccolo insieme di decisioni a livello di token direttamente responsabili dei guadagni di performance dell'RLVR. Infine, esploriamo varianti del segnale di vantaggio ponderate per la divergenza come intervento diagnostico, riscontrando che possono produrre miglioramenti rispetto ai baseline. Nel complesso, i nostri risultati fanno luce sui cambiamenti distribuzionali indotti dall'RLVR e forniscono una lente granulare, a livello di token, per comprendere la messa a punto con RLVR come un processo di raffinamento mirato.

TrajLoom: Generazione Densa di Traiettorie Future da Video
TrajLoom: Dense Future Trajectory Generation from Video

Mar 23

ByZewei Zhang, Jia Jun Cheng Xian, Kaiwen Liu, Ming Liang, Hang Chu, Jun Chen, Renjie Liao

La previsione del movimento futuro è cruciale per la comprensione video e la generazione di video controllabile. Le traiettorie dense di punti sono una rappresentazione del movimento compatta ed espressiva, ma modellarne l'evoluzione futura a partire da un video osservato rimane una sfida. Proponiamo un framework che predice le traiettorie future e la visibilità a partire dalle traiettorie passate e dal contesto video. Il nostro metodo ha tre componenti: (1) la Codifica a Offset con Griglia e Ancora, che riduce il bias dipendente dalla posizione rappresentando ogni punto come uno scostamento dalla sua ancora al centro del pixel; (2) TrajLoom-VAE, che apprende uno spazio latente spaziotemporale compatto per le traiettorie dense mediante ricostruzione mascherata e un regolarizzatore di consistenza spaziotemporale; e (3) TrajLoom-Flow, che genera le traiettorie future nello spazio latente tramite flow matching, con segnali di confine e affinamento K-step on-policy per un campionamento stabile. Introduciamo inoltre TrajLoomBench, un benchmark unificato che spazia su video reali e sintetici con una configurazione standardizzata allineata ai benchmark di generazione video. Rispetto ai metodi allo stato dell'arte, il nostro approccio estende l'orizzonte di previsione da 24 a 81 fotogrammi, migliorando al contempo il realismo e la stabilità del movimento attraverso diversi dataset. Le traiettorie predette supportano direttamente la generazione e l'editing video a valle. Codice, checkpoint del modello e dataset sono disponibili su https://trajloom.github.io/.

L'astrazione come induttore efficiente in memoria per l'apprendimento continuo
Abstraction as a Memory-Efficient Inductive Bias for Continual Learning

Mar 17

ByElnaz Rahmati, Nona Ghazizadeh, Zhivar Sourati, Nina Rouhani, Morteza Dehghani

Il mondo reale è non stazionario e infinitamente complesso, richiedendo ad agenti intelligenti di apprendere continuamente senza il costo proibitivo del riaddestramento da zero. Sebbene l'apprendimento continuo online offra un framework per questo scenario, l'acquisizione di nuove informazioni interferisce spesso con le conoscenze precedentemente acquisite, causando oblio e degradazione della generalizzazione. Per affrontare questo problema, proponiamo l'Addestramento Aumentato con Astrazione (AAT), una modifica a livello di funzione di perdita che incoraggia i modelli a catturare la struttura relazionale latente condivisa tra gli esempi. Ottimizzando congiuntamente su istanze concrete e loro rappresentazioni astratte, l'AAT introduce un bias induttivo efficiente in memoria che stabilizza l'apprendimento in flussi di dati rigorosamente online, eliminando la necessità di un buffer di replay. Per catturare la natura multiforme dell'astrazione, introduciamo e valutiamo l'AAT su due benchmark: un dataset relazionale controllato dove l'astrazione è realizzata tramite mascheramento di entità, e un dataset narrativo dove l'astrazione è espressa attraverso proverbi condivisi. I nostri risultati mostrano che l'AAT raggiunge prestazioni comparabili o superiori a baseline robuste di experience replay (ER), nonostante richieda zero memoria aggiuntiva e solo modifiche minime all'obiettivo di addestramento. Questo lavoro evidenzia l'astrazione strutturale come una valida alternativa a ER, priva di requisiti di memoria.

VISion On Request: Efficienza potenziata di VLLM con interazioni visione-linguaggio sparse e dinamicamente selezionate
VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions

Mar 24

ByAdrian Bulat, Alberto Baldrati, Ioannis Maniadis Metaxas, Yassine Ouali, Georgios Tzimiropoulos

Gli approcci esistenti per migliorare l'efficienza dei Large Vision-Language Models (LVLM) si basano prevalentemente sul concetto di riduzione dei token visivi. Questa strategia, tuttavia, crea un collo di bottiglia informativo che compromette le prestazioni, specialmente in compiti complessi che richiedono una comprensione e un ragionamento di tipo fine-granularità. In questo lavoro, sfidiamo questo paradigma introducendo VISion On Request (VISOR), un metodo che riduce il costo computazionale inferenziale senza scartare informazioni visive. Invece di comprimere l'immagine, VISOR migliora l'efficienza sparsificando l'interazione tra i token immagine e testo. Nello specifico, il modello linguistico processa l'intero set di token visivi ad alta risoluzione attraverso un piccolo numero di livelli di attenzione posizionati strategicamente: il contesto visivo generale è fornito da un efficiente cross-attention tra testo e immagine, mentre alcuni livelli di self-attention, posizionati strategicamente e selezionati dinamicamente, affinano le rappresentazioni visive stesse, abilitando un ragionamento complesso e ad alta risoluzione quando necessario. Basandoci su questo principio, addestriamo prima una singola rete universale su una gamma di budget computazionali variando il numero di livelli di self-attention, per poi introdurre un meccanismo di policy leggero che alloca dinamicamente il calcolo visivo in base alla complessità di ciascun campione. Esperimenti estensivi dimostrano che VISOR riduce drasticamente il costo computazionale, ottenendo risultati pari o superiori allo stato dell'arte su un'ampia suite di benchmark, ed eccellendo in compiti complessi che richiedono una comprensione visiva dettagliata.

Basta una sola vista! Addestramento monoculare per la generazione di nuove viste in ambienti non controllati
One View Is Enough! Monocular Training for In-the-Wild Novel View Generation

Mar 24

ByAdrien Ramanana Rahary, Nicolas Dufour, Patrick Perez, David Picard

La sintesi di nuove viste da immagini monoculari ha a lungo richiesto coppie di immagini multi-vista per la supervisione, limitando scala e diversità dei dati di addestramento. Sosteniamo che non sia necessario: una vista è sufficiente. Presentiamo OVIE, addestrato interamente su immagini internet non accoppiate. Sfruttiamo un estimatore di profondità monoculare come impalcatura geometrica durante l'addestramento: solleviamo un'immagine sorgente in 3D, applichiamo una trasformazione di camera campionata e proiettiamo per ottenere una pseudo-vista target. Per gestire le disocclusioni, introduciamo una formulazione di addestramento mascherata che limita le perdite geometriche, percettive e tessiturali alle regioni valide, consentendo l'addestramento su 30 milioni di immagini non curate. Al momento dell'inferenza, OVIE è privo di geometria, non richiedendo né estimatori di profondità né rappresentazioni 3D. Addestrato esclusivamente su immagini in-the-wild, OVIE supera i metodi precedenti in uno scenario zero-shot, risultando 600 volte più veloce del secondo miglior baseline. Codice e modelli sono disponibili pubblicamente su https://github.com/AdrienRR/ovie.

Ego2Web: un benchmark per agenti web basato su video egocentrici
Ego2Web: A Web Agent Benchmark Grounded in Egocentric Videos

Mar 23

ByShoubin Yu, Lei Shu, Antoine Yang, Yao Fu, Srinivas Sunkara, Maria Wang, Jindong Chen, Mohit Bansal, Boqing Gong

Gli agenti di intelligenza artificiale multimodale stanno automatizzando sempre più flussi di lavoro complessi del mondo reale che coinvolgono l'esecuzione di attività online. Tuttavia, gli attuali benchmark per agenti web presentano una limitazione critica: si concentrano interamente sull'interazione e percezione basata sul web, mancando di un ancoraggio all'ambiente fisico reale dell'utente. Questa limitazione impedisce la valutazione in scenari cruciali, come quando un agente deve utilizzare la percezione visiva egocentrica (ad esempio, tramite occhiali per la realtà aumentata) per riconoscere un oggetto nell'ambiente dell'utente e poi completare un'attività correlata online. Per colmare questa lacuna, introduciamo Ego2Web, il primo benchmark progettato per collegare la percezione video egocentrica e l'esecuzione di agenti web. Ego2Web abbina registrazioni video in prima persona del mondo reale a compiti web che richiedono comprensione visiva, pianificazione di attività web e interazione in un ambiente online per il completamento con successo. Utilizziamo una pipeline di generazione dati automatica combinata con verifica e perfezionamento umano per curare coppie video-compito ben costruite e di alta qualità tra diversi tipi di attività web, inclusi e-commerce, recupero di contenuti multimediali, ricerca di informazioni, ecc. Per facilitare una valutazione accurata e scalabile per il nostro benchmark, sviluppiamo anche un nuovo metodo di valutazione automatica LLM-as-a-Judge, Ego2WebJudge, che raggiunge circa l'84% di accordo con il giudizio umano, sostanzialmente superiore ai metodi di valutazione esistenti. Esperimenti con vari agenti SoTA sul nostro Ego2Web mostrano che le loro prestazioni sono deboli, con un margine di miglioramento sostanziale in tutte le categorie di compiti. Conduciamo anche uno studio di ablazione completo sulla progettazione dei compiti, evidenziando la necessità di una comprensione video accurata nel compito proposto e i limiti degli agenti attuali. Speriamo che Ego2Web possa essere una nuova risorsa cruciale per sviluppare assistenti IA veramente capaci che possano vedere, comprendere e agire in modo seamless tra i mondi fisico e digitale.

Allineamento Composizionale Guidato dall'Incertezza con Rappresentatività Semantica Parte-Intero nei Modelli Iperbolici Visione-Linguaggio
Uncertainty-guided Compositional Alignment with Part-to-Whole Semantic Representativeness in Hyperbolic Vision-Language Models

Mar 23

ByHayeon Kim, Ji Ha Jang, Junghun James Kim, Se Young Chun

Sebbene i Modelli Visione-Linguaggio (VLM) abbiano ottenuto prestazioni notevoli, i loro incorporamenti euclidei rimangono limitati nella capacità di catturare relazioni gerarchiche come strutture parte-tutto o genitore-figlio, e spesso incontrano difficoltà in scenari compositivi multi-oggetto. I VLM iperbolici mitigano questo problema preservando meglio le strutture gerarchiche e modellando le relazioni parte-tutto (ad esempio, la scena intera e le sue immagini costituenti) attraverso il concetto di implicazione (entailment). Tuttavia, gli approcci esistenti non modellano il fatto che ogni parte abbia un diverso livello di rappresentatività semantica rispetto all'insieme. Proponiamo UNCHA (UNcertainty-guided Compositional Hyperbolic Alignment) per potenziare i VLM iperbolici. UNCHA modella la rappresentatività semantica parte-tutto mediante incertezza iperbolica, assegnando un'incertezza inferiore alle parti più rappresentative e un'incertezza maggiore a quelle meno rappresentative per la scena complessiva. Questa rappresentatività viene poi incorporata nella funzione obiettivo contrastiva con pesi guidati dall'incertezza. Infine, l'incertezza viene ulteriormente calibrata con una loss di entailment regolarizzata da un termine basato sull'entropia. Grazie alle loss proposte, UNCHA apprende incorporamenti iperbolici con un ordinamento parte-tutto più accurato, catturando la struttura compositiva sottostante in un'immagine e migliorando la sua comprensione di scene complesse multi-oggetto. UNCHA raggiunge prestazioni all'avanguardia nei benchmark di classificazione zero-shot, retrieval e classificazione multi-label. Il nostro codice e i nostri modelli sono disponibili all'indirizzo: https://github.com/jeeit17/UNCHA.git.

ABot-PhysWorld: Modello Fondamentale Interattivo del Mondo per la Manipolazione Robotica con Allineamento Fisico
ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment

Mar 24

ByYuzhi Chen, Ronghan Chen, Dongjie Huo, Yandan Yang, Dekang Qi, Haoyun Liu, Tong Lin, Shuang Zeng, Junjin Xiao, Xinyuan Chang, Feng Xiong, Xing Wei, Zhiheng Ma, Mu Xu

I modelli mondiali basati su video offrono un paradigma potente per la simulazione e la pianificazione embodied, tuttavia i modelli all'avanguardia spesso generano manipolazioni fisicamente implausibili - come la penetrazione di oggetti e il moto anti-gravitazionale - a causa dell'addestramento su dati visivi generici e di obiettivi basati sulla verosimiglianza che ignorano le leggi fisiche. Presentiamo ABot-PhysWorld, un modello Diffusion Transformer da 14B che genera video visivamente realistici, fisicamente plausibili e controllabili tramite azioni. Sviluppato su un dataset curato di tre milioni di clip di manipolazione con annotazioni fisicamente consapevoli, utilizza un nuovo framework di post-addestramento basato su DPO con discriminatori disaccoppiati per sopprimere i comportamenti non fisici preservando la qualità visiva. Un blocco di contesto parallelo consente un'iniezione precisa di azioni spaziali per il controllo cross-embodiment. Per valutare meglio la generalizzazione, introduciamo EZSbench, il primo benchmark embodied zero-shot indipendente dall'addestramento che combina combinazioni non viste di robot-compito-scena reali e sintetiche. Impiega un protocollo disaccoppiato per valutare separatamente il realismo fisico e l'allineamento all'azione. ABot-PhysWorld raggiunge nuove prestazioni all'avanguardia su PBench ed EZSbench, superando Veo 3.1 e Sora v2 Pro in plausibilità fisica e coerenza della traiettoria. Rilasceremo EZSbench per promuovere una valutazione standardizzata nella generazione di video embodied.

Ragionamento o Retorica? Un'Analisi Empirica delle Spiegazioni del Ragionamento Morale nei Modelli Linguistici su Larga Scala
Reasoning or Rhetoric? An Empirical Analysis of Moral Reasoning Explanations in Large Language Models

Mar 23

ByAryan Kasat, Smriti Singh, Aman Chadha, Vinija Jain

I modelli linguistici di grandi dimensioni ragionano moralmente, o semplicemente danno l'impressione di farlo? Indaghiamo se le risposte degli LLM ai dilemmi morali mostrano una progressione evolutiva genuina attraverso gli stadi dello sviluppo morale di Kohlberg, o se invece l'addestramento di allineamento produca output simili a ragionamenti che superficialmente assomigliano a giudizi morali maturi, ma privi del percorso evolutivo sottostante. Utilizzando una pipeline di valutazione LLM-giudice convalidata su tre modelli giudice, classifichiamo oltre 600 risposte di 13 LLM che coprono un'ampia gamma di architetture, scale parametriche e regimi di addestramento, relative a sei dilemmi morali classici, e conduciamo dieci analisi complementari per caratterizzare la natura e la coerenza interna degli schemi risultanti. I nostri risultati rivelano un'inversione sorprendente: le risposte corrispondono in modo schiacciante a ragionamenti post-convenzionali (Stadi 5-6) indipendentemente dalle dimensioni del modello, dall'architettura o dalla strategia di prompt, l'esatto inverso delle norme evolutive umane, dove domina lo Stadio 4. Ancora più significativamente, un sottoinsieme di modelli mostra un disaccoppiamento morale: un'incongruenza sistematica tra la giustificazione morale dichiarata e la scelta d'azione, una forma di incoerenza logica che persiste indipendentemente dalla scala e dalla strategia di prompt e rappresenta un fallimento diretto della coerenza ragionativa, indipendente dalla sofisticazione retorica. La scala del modello ha un effetto statisticamente significativo ma praticamente piccolo; il tipo di addestramento non ha un effetto principale indipendente significativo; e i modelli mostrano una coerenza cross-dilemma quasi robotica, producendo risposte logicamente indistinguibili attraverso problemi morali semanticamente distinti. Proponiamo che questi schemi costituiscano evidenza di un ventriloquismo morale: l'acquisizione, tramite l'addestramento di allineamento, delle convenzioni retoriche del ragionamento morale maturo, senza il percorso evolutivo sottostante che tali convenzioni dovrebbero rappresentare.

Regolamentazione degli Agenti di Intelligenza Artificiale
Regulating AI Agents

Mar 24

ByKathrin Gardhouse, Amin Oueslati, Noam Kolt

Gli agenti di intelligenza artificiale – sistemi in grado di intraprendere autonomamente azioni per perseguire obiettivi complessi con una supervisione umana limitata – sono entrati nel mainstream. Questi sistemi sono ora ampiamente utilizzati per produrre software, condurre attività commerciali e automatizzare le attività personali quotidiane. Sebbene gli agenti IA coinvolgano molteplici ambiti giuridici, dal diritto dell’agenzia e dei contratti alla responsabilità civile e al diritto del lavoro, pongono questioni particolarmente urgenti per la regolamentazione dell’IA di maggiore rilevanza globale: l’Artificial Intelligence Act dell’Unione Europea. Promulgato prima dello sviluppo e dell’uso diffuso degli agenti IA, l’AI Act dell’UE affronta ostacoli significativi nel confrontarsi con le sfide di governance poste da questa tecnologia trasformativa, come i fallimenti operativi nell’esecuzione autonoma dei compiti, il rischio di uso improprio degli agenti da parte di attori malevoli e l’accesso diseguale alle opportunità economiche offerte dagli agenti IA. Analizziamo sistematicamente la risposta dell’AI Act dell’UE a queste sfide, focalizzandoci sia sulle disposizioni sostanziali del regolamento sia, crucialmente, sui quadri istituzionali che mirano a supportarne l’implementazione. La nostra analisi dell’allocazione delle responsabilità di monitoraggio e enforcement nell’Act, della sua dipendenza dall’autoregolamentazione del settore e del livello di risorse governative dedicate illustra come un quadro normativo progettato per sistemi di IA convenzionali possa rivelarsi inadeguato per gli agenti IA. Nel complesso, i nostri risultati suggeriscono che i decisori politici nell’UE e altrove dovranno cambiare rotta, e presto, se intendono governare efficacemente la prossima generazione di tecnologia IA.

Memoria del Rischio di Sessione (SRM): Autorizzazione Temporale per Cancelli di Sicurezza a Pre-Esecuzione Deterministica
Session Risk Memory (SRM): Temporal Authorization for Deterministic Pre-Execution Safety Gates

Mar 22

ByFlorin Adrian Chitan

I gate di sicurezza deterministici a pre-esecuzione valutano se le singole azioni di un agente sono compatibili con i ruoli loro assegnati. Sebbene efficaci per l'autorizzazione per singola azione, questi sistemi sono strutturalmente ciechi agli attacchi distribuiti che scompongono un'intenzione dannosa in più passi individualmente conformi. Questo articolo introduce la Memoria del Rischio di Sessione (SRM), un modulo deterministico leggero che estende i gate di esecuzione senza stato con l'autorizzazione a livello di traiettoria. SRM mantiene un centroide semantico compatto che rappresenta il profilo comportamentale evolutivo di una sessione agente e accumula un segnale di rischio attraverso una media mobile esponenziale sugli output del gate sottratti al valore baseline. Opera sulla stessa rappresentazione vettoriale semantica del gate sottostante, non richiedendo componenti modellistici aggiuntivi, training o inferenza probabilistica. Valutiamo SRM su un benchmark multi-turn di 80 sessioni contenenti scenari di esfiltrazione lenta, escalation dei privilegi graduale e deriva della conformità. I risultati mostrano che ILION+SRM raggiunge un F1 = 1.0000 con tasso di falsi positivi dello 0%, rispetto a ILION senza stato che ha F1 = 0.9756 con FPR del 5%, mantenendo un tasso di rilevamento del 100% per entrambi i sistemi. Fondamentalmente, SRM elimina tutti i falsi positivi con un overhead per turno inferiore a 250 microsecondi. Il framework introduce una distinzione concettuale tra coerenza autorizzativa spaziale (valutata per azione) e coerenza autorizzativa temporale (valutata sulla traiettoria), fornendo una base principiata per la sicurezza a livello di sessione nei sistemi agentivi.

STEM Agent: un'architettura auto-adattiva, abilitata agli strumenti ed estensibile per sistemi di agenti AI multi-protocollo
STEM Agent: A Self-Adapting, Tool-Enabled, Extensible Architecture for Multi-Protocol AI Agent Systems

Mar 22

ByAlfred Shen, Aaron Shen

I framework per agenti IA attuali adottano precocemente un singolo protocollo di interazione, una strategia fissa di integrazione degli strumenti e modelli utente statici, limitando il loro impiego attraverso paradigmi interattivi diversificati. Per affrontare questi vincoli, introduciamo STEM Agent (Self-adapting, Tool-enabled, Extensible, Multi-agent), un'architettura modulare ispirata alla pluripotenza biologica in cui un nucleo agente indifferenziato si specializza in gestori di protocollo, associazioni di strumenti (tool bindings) e sottosistemi di memoria che si compongono in un sistema di IA completamente funzionante. Il framework unifica cinque protocolli di interoperabilità (A2A, AG-UI, A2UI, UCP e AP2) dietro un unico gateway, introduce un Profiler del Chiamante (Caller Profiler) che apprende continuamente le preferenze dell'utente su oltre venti dimensioni comportamentali, esternalizza tutte le capacità di dominio attraverso il Model Context Protocol (MCP) e implementa un sistema di acquisizione di abilità ispirato alla biologia in cui schemi di interazione ricorrenti si cristallizzano in abilità dell'agente riutilizzabili attraverso un ciclo di vita di maturazione analogo alla differenziazione cellulare. A complemento di queste capacità, il sistema di memoria incorpora meccanismi di consolidamento, inclusi l'episodic pruning (potatura episodica), la semantic deduplication (deduplicazione semantica) e l'estrazione di pattern, progettati per una crescita sub-lineare sotto interazione prolungata. Una suite completa di 413 test convalida il comportamento dei gestori di protocollo e l'integrazione dei componenti attraverso tutti e cinque i livelli architetturali, completandosi in meno di tre secondi.

SHAMISA: Modellazione Sagomata delle Associazioni Strutturali Implicite per la Valutazione della Qualità dell'Immagine Autosupervisionata Senza Riferimento
SHAMISA: SHAped Modeling of Implicit Structural Associations for Self-supervised No-Reference Image Quality Assessment

Mar 14

ByMahdi Naseri, Zhou Wang

La valutazione della qualità dell'immagine senza riferimento (NR-IQA) mira a stimare la qualità percettiva senza avere accesso a un'immagine di riferimento di qualità pristina. L'apprendimento di un modello NR-IQA affronta un collo di bottiglia fondamentale: la necessità di un gran numero di etichette percettive umane, costose da ottenere. Proponiamo SHAMISA, un framework auto-supervisionato non contrastivo che apprende da immagini distorte non etichettate sfruttando una supervisione relazionale esplicitamente strutturata. A differenza dei metodi precedenti che impongono vincoli di similarità rigidi e binari, SHAMISA introduce associazioni strutturali implicite, definite come relazioni morbide e controllabili che sono sia consapevoli della distorsione che sensibili al contenuto, dedotte da metadati sintetici e dalla struttura intrinseca delle feature. Un'innovazione chiave è il nostro motore di distorsione composizionale, che genera una famiglia non numerabile di degradazioni a partire da spazi di parametri continui, raggruppati in modo che solo un fattore di distorsione vari alla volta. Ciò consente un controllo fine della similarità rappresentativa durante l'addestramento: le immagini con pattern di distorsione condivisi vengono avvicinate nello spazio di embedding, mentre le variazioni di gravità producono spostamenti strutturati e prevedibili. Integriamo queste intuizioni tramite grafi relazionali a doppia sorgente che codificano sia i profili di degradazione noti che le affinità strutturali emergenti per guidare il processo di apprendimento durante tutto l'addestramento. Un encoder convoluzionale viene addestrato sotto questa supervisione e poi congelato per l'inferenza, con la previsione della qualità eseguita da un regressore lineare sulle sue feature. Esperimenti estesi su benchmark NR-IQA sintetici, autentici e cross-dataset dimostrano che SHAMISA raggiunge prestazioni complessive solide con una generalizzazione e robustezza cross-dataset migliorate, il tutto senza annotazioni umane della qualità o loss contrastive.

Ricostruzione Guidata da Curriculum degli Slot: Affrontare la Sovraframmentazione degli Oggetti nell'Apprendimento Video Centrato sugli Oggetti
Reconstruction-Guided Slot Curriculum: Addressing Object Over-Fragmentation in Video Object-Centric Learning

Mar 24

ByWonJun Moon, Hyun Seok Seong, Jae-Pil Heo

L'apprendimento incentrato sugli oggetti video mira a scomporre i video grezzi in un piccolo insieme di slot di oggetti, ma i modelli esistenti basati sull'attenzione ai slot soffrono spesso di una grave sovraframmentazione. Ciò accade perché il modello è implicitamente incoraggiato a occupare tutti i slot per minimizzare l'obiettivo di ricostruzione, rappresentando così un singolo oggetto con più slot ridondanti. Affrontiamo questa limitazione con un curriculum di slot guidato dalla ricostruzione (SlotCurri). L'addestramento inizia con pochi slot granulari e progressivamente assegna nuovi slot dove l'errore di ricostruzione rimane elevato, espandendo così la capacità solo dove necessario e prevenendo la frammentazione fin dall'inizio. Tuttavia, durante l'espansione dei slot, sotto-parti significative possono emergere solo se la semantica a livello granulare è già ben separata; tuttavia, con un budget iniziale di slot ridotto e un obiettivo MSE (Errore Quadratico Medio), i confini semantici rimangono sfocati. Pertanto, integriamo l'MSE con una loss che preserva il contrasto locale e le informazioni dei bordi per incoraggiare ogni slot a definire meglio i propri confini semantici. Infine, proponiamo un'inferenza ciclica che propaga i slot in avanti e poi all'indietro attraverso la sequenza di frame, producendo rappresentazioni di oggetti temporalmente coerenti anche nei frame iniziali. Nel complesso, SlotCurri affronta la sovraframmentazione degli oggetti allocando la capacità rappresentativa dove la ricostruzione fallisce, ulteriormente migliorata da segnali strutturali e inferenza ciclica. Incrementi significativi di FG-ARI di +6.8 su YouTube-VIS e +8.3 su MOVi-C convalidano l'efficacia di SlotCurri. Il nostro codice è disponibile su github.com/wjun0830/SlotCurri.

Gli agenti di intelligenza artificiale possono rispondere alle vostre domande sui dati? Un benchmark per gli agenti di dati
Can AI Agents Answer Your Data Questions? A Benchmark for Data Agents

Mar 21

ByRuiying Ma, Shreya Shankar, Ruiqi Chen, Yiming Lin, Sepanta Zeighami, Rajoshi Ghosh, Abhinav Gupta, Anushrut Gupta, Tanmai Gopal, Aditya G. Parameswaran

Gli utenti all'interno delle aziende si affidano sempre più ad agenti di IA per interrogare i propri dati tramite linguaggio naturale. Tuttavia, costruire agenti di dati affidabili rimane difficile perché i dati del mondo reale sono spesso frammentati tra molteplici sistemi di database eterogenei, con riferimenti inconsistenti e informazioni sepolte in testo non strutturato. I benchmark esistenti affrontano solo parti isolate di questo problema – ad esempio, tradurre domande in linguaggio naturale in query SQL, rispondere a domande su piccole tabelle fornite nel contesto – ma non valutano l'intera pipeline di integrazione, trasformazione e analisi dei dati attraverso più sistemi di database. Per colmare questa lacuna, presentiamo il Data Agent Benchmark (DAB), basato su uno studio formativo sui carichi di lavoro degli agenti di dati aziendali in sei settori industriali. Il DAB comprende 54 query su 12 dataset, 9 domini e 4 sistemi di gestione di database. Sul DAB, il miglior modello di frontiera (Gemini-3-Pro) raggiunge solo una precisione pass@1 del 38%. Mettiamo a confronto cinque LLM di frontiera, analizziamo le loro modalità di fallimento e distilliamo considerazioni per lo sviluppo futuro degli agenti di dati. Il nostro benchmark e il codice degli esperimenti sono pubblicati su github.com/ucbepic/DataAgentBench.