HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

33 papers found

Ragionamento Efficiente con un Pensiero Bilanciato
Efficient Reasoning with Balanced Thinking

Mar 12

ByYulin Li, Tengyao Tu, Li Ding, Junjie Wang, Huiling Zhen, Yixin Chen, Yong Li, Zhuotao Tian

127

I Large Reasoning Model (LRM) hanno dimostrato notevoli capacità di ragionamento, ma spesso soffrono di *overthinking*, ovvero impiegano passaggi computazionali ridondanti per problemi semplici, o di *underthinking*, non riuscendo ad esplorare percorsi di ragionamento sufficienti nonostante le capacità intrinseche. Questi problemi portano a inefficienze e potenziali imprecisioni, limitando lo schieramento pratico in contesti con risorse limitate. I metodi esistenti per mitigare l'*overthinking*, come sopprimere parole chiave riflessive o regolare la lunghezza del ragionamento, possono indurre involontariamente l'*underthinking*, compromettendo l'accuratezza. Pertanto, proponiamo ReBalance, un framework *training-free* che realizza un ragionamento efficiente con un pensiero bilanciato. ReBalance utilizza la confidenza come indicatore continuo della dinamica del ragionamento, identificando l'*overthinking* tramite un'elevata varianza della confidenza e l'*underthinking* tramite una sovraconfidenza costante. Aggregando gli stati nascosti da un dataset di piccole dimensioni in prototipi di modalità di ragionamento, calcoliamo un vettore di direzionamento per guidare le traiettorie di ragionamento dei LRM. Una funzione di controllo dinamico modula l'intensità e la direzione di questo vettore basandosi sulla confidenza in tempo reale, eliminando la ridondanza durante l'*overthinking* e promuovendo l'esplorazione durante l'*underthinking*. Esperimenti estensivi condotti su quattro modelli che vanno da 0,5B a 32B parametri, e su nove benchmark in compiti di ragionamento matematico, question answering generale e codifica, dimostrano che ReBalance riduce efficacemente la ridondanza in uscita migliorando al contempo l'accuratezza, offrendo una strategia generale, *training-free* e *plug-and-play* per uno schieramento efficiente e robusto dei LRM. Il codice è disponibile all'indirizzo https://github.com/yu-lin-li/ReBalance.

MetaClaw: Solo Dialogo — Un Agente che Apprende in Modello Meta e Si Evolve in Ambiente Reale
MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

Mar 17

ByPeng Xia, Jianwen Chen, Xinyu Yang, Haoqin Tu, Jiaqi Liu, Kaiwen Xiong, Siwei Han, Shi Qiu, Haonian Ji, Yuyin Zhou, Zeyu Zheng, Cihang Xie, Huaxiu Yao

110

Gli agenti basati su grandi modelli linguistici (LLM) sono sempre più utilizzati per compiti complessi, eppure gli agenti distribuiti spesso rimangono statici, non riuscendo ad adattarsi all'evolversi delle esigenze degli utenti. Ciò crea una tensione tra la necessità di un servizio continuo e l'esigenza di aggiornare le capacità per adeguarsi alle mutevoli distribuzioni dei compiti. Su piattaforme come OpenClaw, che gestiscono carichi di lavoro diversificati su oltre 20 canali, i metodi esistenti memorizzano traiettorie grezze senza distillare conoscenza, mantengono librerie di abilità statiche o richiedono tempi di inattività disruptivi per il riaddestramento. Presentiamo MetaClaw, un framework di meta-apprendimento continuo che evolve congiuntamente una politica LLM di base e una libreria di abilità comportamentali riutilizzabili. MetaClaw impiega due meccanismi complementari. L'adattamento rapido guidato dalle abilità analizza le traiettorie di fallimento tramite un evolutore LLM per sintetizzare nuove abilità, consentendo un miglioramento immediato con zero tempi di inattività. L'ottimizzazione opportunistic della politica esegue aggiornamenti basati su gradiente tramite fine-tuning cloud LoRA e Apprendimento per Rinforzo con un Modello di Ricompensa di Processo (RL-PRM). Questo viene attivato durante le finestre di inattività dell'utente dall'Opportunistic Meta-Learning Scheduler (OMLS), che monitora l'inattività del sistema e i dati del calendario. Questi meccanismi si rafforzano reciprocamente: una politica raffinata genera traiettorie migliori per la sintesi delle abilità, mentre abilità più ricche forniscono dati di qualità superiore per l'ottimizzazione della politica. Per prevenire la contaminazione dei dati, un meccanismo di versioning separa i dati di supporto e di query. Basato su un'architettura proxy-based, MetaClaw scala per LLM di dimensioni production senza GPU locali. Esperimenti su MetaClaw-Bench e AutoResearchClaw mostrano che l'adattamento guidato dalle abilità migliora l'accuratezza fino al 32% in termini relativi. La pipeline completa migliora l'accuratezza di Kimi-K2.5 dal 21,4% al 40,6% e aumenta la robustezza composita del 18,3%. Il codice è disponibile all'indirizzo https://github.com/aiming-lab/MetaClaw.

Video-CoE: Rafforzare la Previsione di Eventi Video tramite Catena di Eventi
Video-CoE: Reinforcing Video Event Prediction via Chain of Events

Mar 16

ByQile Su, Jing Tang, Rui Chen, Lei Sun, Xiangxiang Chu

Nonostante i progressi nell'applicazione dei MLLM per varie attività video, la previsione di eventi video (VEP) rimane relativamente poco esplorata. La VEP richiede che il modello esegua una modellizzazione temporale granulare dei video e stabilisca relazioni logiche tra i video e gli eventi futuri, operazioni con cui i MLLM attuali continuano a lottare. In questo lavoro, presentiamo prima una valutazione completa dei principali MLLM attuali sul compito di VEP, rivelando le ragioni alla base delle loro previsioni inaccurate, tra cui la mancanza di capacità di ragionamento logico per la previsione di eventi futuri e un utilizzo insufficiente delle informazioni visive. Per affrontare queste sfide, proponiamo il paradigma Catena di Eventi (CoE), che costruisce catene di eventi temporali per imporre implicitamente al MLLM di concentrarsi sul contenuto visivo e sulle connessioni logiche tra i video e gli eventi futuri, incentivando la capacità di ragionamento del modello con molteplici protocolli di addestramento. I risultati sperimentali su benchmark pubblici dimostrano che il nostro metodo supera sia i principali MLLM open-source che quelli commerciali, stabilendo un nuovo stato dell'arte nel compito di VEP. I codici e i modelli saranno rilasciati a breve.

MosaicMem: Memoria Spaziale Ibrida per Modelli Video Mondiali Controllabili
MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

Mar 17

ByWei Yu, Runjia Qian, Yumeng Li, Liquan Wang, Songheng Yin, Sri Siddarth Chakaravarthy P, Dennis Anthony, Yang Ye, Yidi Li, Weiwei Wan, Animesh Garg

I modelli di diffusione video stanno evolvendo oltre la semplice generazione di clip brevi e plausibili verso simulatori di mondi che devono mantenere la coerenza durante il movimento della telecamera, le rivisitazioni e gli interventi. Tuttavia, la memoria spaziale rimane un collo di bottiglia fondamentale: le strutture 3D esplicite possono migliorare la coerenza basata sulla riproiezione, ma faticano a rappresentare oggetti in movimento, mentre la memoria implicita spesso produce un movimento della telecamera impreciso anche con pose corrette. Proponiamo Mosaic Memory (MosaicMem), una memoria spaziale ibrida che eleva le patch in 3D per una localizzazione affidabile e un recupero mirato, sfruttando al contempo il conditioning nativo del modello per preservare una generazione fedele al prompt. MosaicMem compone patch allineate spazialmente nella vista interrogata tramite un'interfaccia patch-and-compose, preservando ciò che dovrebbe persistere e consentendo al modello di inpaintare ciò che dovrebbe evolversi. Grazie al conditioning della telecamera PRoPE e a due nuovi metodi di allineamento della memoria, gli esperimenti mostrano un'aderenza alla pose superiore rispetto alla memoria implicita e una modellazione dinamica più robusta rispetto ai baseline espliciti. MosaicMem consente inoltre navigazione a livello di minuti, editing della scena basato sulla memoria e rollout autoregressivo.

L'allineamento rende i modelli linguistici normativi, non descrittivi.
Alignment Makes Language Models Normative, Not Descriptive

Mar 17

ByEilam Shapira, Moshe Tennenholtz, Roi Reichart

L'allineamento post-addestramento ottimizza i modelli linguistici per allinearli ai segnali di preferenza umana, ma questo obiettivo non equivale a modellare il comportamento umano osservato. Confrontiamo 120 coppie di modelli base-allineati su oltre 10.000 decisioni umane reali in giochi strategici multi-round - trattative, persuasione, negoziazione e giochi di matrice ripetuti. In questi contesti, i modelli base superano le loro controparti allineate nella previsione delle scelte umane con un rapporto di quasi 10:1, in modo robusto tra famiglie di modelli, formulazioni dei prompt e configurazioni di gioco. Questo schema si inverte, tuttavia, in contesti in cui il comportamento umano ha maggiori probabilità di seguire previsioni normative: i modelli allineati dominano nei giochi didattici one-shot in tutti e 12 i tipi testati e nelle scelte lottery non strategiche - e persino all'interno dei giochi multi-round stessi, al primo round, prima che si sviluppi una storia di interazione. Questo schema di condizione limite suggerisce che l'allineamento induce un bias normativo: migliora la previsione quando il comportamento umano è relativamente ben catturato da soluzioni normative, ma peggiora la previsione in contesti strategici multi-round, dove il comportamento è plasmato da dinamiche descrittive come reciprocità, ritorsione e adattamento dipendente dalla storia. Questi risultati rivelano un compromesso fondamentale tra l'ottimizzazione dei modelli per l'uso umano e il loro utilizzo come proxy per il comportamento umano.

Apprendimento per Rinforzo Complementare
Complementary Reinforcement Learning

Mar 18

ByDilxat Muhtar, Jiashun Liu, Wei Gao, Weixun Wang, Shaopan Xiong, Ju Huang, Siran Yang, Wenbo Su, Jiamang Wang, Ling Pan, Bo Zheng

L’apprendimento per rinforzo (RL) è emerso come un potente paradigma per addestrare agenti basati su LLM, ma rimane limitato da una bassa efficienza campionaria, derivante non solo da feedback sugli esiti sporadici, ma anche dall’incapacità dell’agente di sfruttare l’esperienza pregressa attraverso diversi episodi. Sebbene l’arricchimento degli agenti con esperienze storiche offra una promettente soluzione, gli approcci esistenti soffrono di una critica debolezza: l’esperienza distillata dalla storia viene memorizzata staticamente o non riesce a co-evolvere con l’attore in miglioramento, causando un progressivo disallineamento tra l’esperienza e le capacità evolutive dell’attore che ne riduce l’utilità durante l’addestramento. Ispirati dai sistemi di apprendimento complementari nelle neuroscienze, presentiamo il Complementary RL per realizzare una co-evoluzione senza interruzioni di un estrattore di esperienza e di un attore politico all’interno del ciclo di ottimizzazione RL. Nello specifico, l’attore viene ottimizzato tramite ricompense sporadiche basate sugli esiti, mentre l’estrattore di esperienza viene ottimizzato in base al fatto che le esperienze distillate contribuiscano dimostrabilmente al successo dell’attore, evolvendo così la sua strategia di gestione dell’esperienza in sincronia con le crescenti capacità dell’attore. Empiricamente, il Complementary RL supera i baseline di RL agentivo basati sugli esiti che non apprendono dall’esperienza, ottenendo un miglioramento delle prestazioni del 10% in scenari a singolo compito e mostrando una robusta scalabilità in ambienti multi-compito. Questi risultati stabiliscono il Complementary RL come un paradigma per un apprendimento agentivo efficiente guidato dall’esperienza.

Quando l'IA naviga nella nebbia della guerra.
When AI Navigates the Fog of War

Mar 17

ByMing Li, Xirui Li, Tianyi Zhou

L'IA può ragionare su una guerra prima che la sua traiettoria diventi storicamente evidente? Analizzare questa capacità è difficile perché la previsione geopolitica retrospettiva è fortemente confusa dalla contaminazione dei dati di addestramento. Affrontiamo questa sfida attraverso uno studio di caso temporalmente ancorato sulle fasi iniziali del conflitto mediorientale del 2026, che si è sviluppato dopo la data di cutoff di addestramento degli attuali modelli all'avanguardia. Costruiamo 11 nodi temporali critici, 42 domande verificabili specifiche per nodo e 5 domande esplorative generali, che richiedono ai modelli di ragionare utilizzando esclusivamente informazioni che sarebbero state pubblicamente disponibili in ciascun momento. Questo progetto mitiga sostanzialmente i problemi di contaminazione dei dati di addestramento, creando un contesto ideale per studiare come i modelli analizzano una crisi in evoluzione sotto la "nebbia della guerra" e fornisce, a nostra conoscenza, la prima analisi temporalmente ancorata del ragionamento degli LLM in un conflitto geopolitico in corso. La nostra analisi rivela tre risultati principali. In primo luogo, gli attuali modelli linguistici di grandi dimensioni all'avanguardia mostrano spesso un sorprendente grado di realismo strategico, ragionando al di là della retorica superficiale verso incentivi strutturali più profondi. In secondo luogo, questa capacità è disomogenea tra i domini: i modelli sono più affidabili in contesti strutturati a livello economico e logistico che in ambienti multi-attore politicamente ambigui. Infine, le narrazioni dei modelli si evolvono nel tempo, passando dalle prime aspettative di un rapido contenimento verso spiegazioni più sistemiche di consolidamento regionale e di de-escalation logorante. Poiché il conflitto è ancora in corso al momento della stesura, questo lavoro può servire come istantanea archivistica del ragionamento dei modelli durante una crisi geopolitica in sviluppo, consentendo studi futuri senza il bias del senno di poi tipico dell'analisi retrospettiva.

GigaWorld-Policy: Un Modello Mondo-Azione Efficiente e Centrato sull'Azione
GigaWorld-Policy: An Efficient Action-Centered World--Action Model

Mar 18

ByAngen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Hengtao Li, Jie Li, Jindi Lv, Jingyu Liu, Min Cao, Peng Li, Qiuping Deng, Wenjun Mei, Xiaofeng Wang, Xinze Chen, Xinyu Zhou, Yang Wang, Yifan Chang, Yifan Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu

I modelli World-Action (WAM) inizializzati da backbone pre-addestrate per la generazione video hanno dimostrato un potenziale notevole per l'apprendimento di politiche robotiche. Tuttavia, gli approcci esistenti affrontano due colli di bottiglia critici che ne ostacolano le prestazioni e l'implementazione. In primo luogo, il ragionamento congiunto sulle dinamiche visive future e sulle azioni corrispondenti comporta un sovraccarico computazionale sostanziale durante l'inferenza. In secondo luogo, la modellazione congiunta spesso intreccia le rappresentazioni visive e di movimento, rendendo l'accuratezza della previsione del movimento fortemente dipendente dalla qualità delle previsioni video future. Per affrontare questi problemi, introduciamo GigaWorld-Policy, un WAM centrato sull'azione che apprende le dinamiche pixel-azione 2D consentendo al contempo una decodifica efficiente delle azioni, con generazione video opzionale. Nello specifico, formuliamo l'addestramento della politica in due componenti accoppiate: il modello prevede sequenze di azioni future condizionate dall'osservazione corrente e, simultaneamente, genera video futuri condizionati dalle azioni previste e dalla stessa osservazione. La politica è supervisionata sia dalla previsione delle azioni che dalla generazione video, fornendo segnali di apprendimento più ricchi e incoraggiando azioni fisicamente plausibili attraverso vincoli di dinamica visiva. Con un design causale che impedisce ai token video futuri di influenzare i token azione, la generazione esplicita di video futuri è opzionale in fase di inferenza, consentendo una previsione delle azioni più rapida durante l'implementazione. Per supportare questo paradigma, abbiamo curato un dataset robotico su larga scala e diversificato per pre-addestrare un modello di generazione video centrato sull'azione, che viene poi adattato come backbone per l'apprendimento di politiche robotiche. I risultati sperimentali su piattaforme robotiche del mondo reale mostrano che GigaWorld-Policy è eseguito 9 volte più velocemente del principale baseline WAM, Motus, migliorando al contempo i tassi di successo del compito del 7%. Inoltre, rispetto a pi-0.5, GigaWorld-Policy migliora le prestazioni del 95% su RoboTwin 2.0.

LoST: Livello di Tokenizzazione Semantica per Forme 3D
LoST: Level of Semantics Tokenization for 3D Shapes

Mar 18

ByNiladri Shekhar Dutt, Zifan Shi, Paul Guerrero, Chun-Hao Paul Huang, Duygu Ceylan, Niloy J. Mitra, Xuelin Chen

La tokenizzazione è una tecnica fondamentale nella modellazione generativa di varie modalità. In particolare, svolge un ruolo critico nei modelli autoregressivi (AR), recentemente emersi come un'opzione convincente per la generazione 3D. Tuttavia, la tokenizzazione ottimale delle forme 3D rimane una questione aperta. I metodi allo stato dell'arte si basano principalmente su gerarchie geometriche di livello di dettaglio (LoD), originariamente progettate per il rendering e la compressione. Queste gerarchie spaziali sono spesso inefficienti in termini di token e mancano di coerenza semantica per la modellazione AR. Proponiamo la Tokenizzazione a Livello di Semantica (LoST), che ordina i token in base alla rilevanza semantica, in modo che i prefissi iniziali decodifichino in forme complete e plausibili dotate di semantiche principali, mentre i token successivi perfezionano i dettagli geometrici e semantici specifici dell'istanza. Per addestrare LoST, introduciamo l'Allineamento della Struttura Relazionale delle Distanze Intermedie (RIDA), una nuova loss di allineamento semantico 3D che allinea la struttura relazionale dello spazio latente della forma 3D con quella dello spazio delle feature semantiche di DINO. Gli esperimenti mostrano che LoST raggiunge una ricostruzione allo stato dell'arte, superando di ampio margine i precedenti tokenizzatori di forme 3D basati su LoD sia nelle metriche di ricostruzione geometrica che semantica. Inoltre, LoST consente una generazione AR 3D efficiente e di alta qualità e abilita task downstream come il retrieval semantico, utilizzando solo lo 0,1%-10% dei token richiesti dai precedenti modelli AR.

Guardare Prima di Agire: Migliorare le Rappresentazioni delle Fondazioni Visive per i Modelli Visione-Linguaggio-Azione
Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

Mar 16

ByYulin Luo, Hao Chen, Zhuangzhe Wu, Bowen Sui, Jiaming Liu, Chenyang Gu, Zhuoyang Liu, Qiuxuan Feng, Jiale Yu, Shuo Gu, Peng Jia, Pheng-Ann Heng, Shanghang Zhang

I modelli Vision-Language-Action (VLA) sono recentemente emersi come un paradigma promettente per la manipolazione robotica, in cui la previsione affidabile delle azioni dipende criticamente dall'interpretazione accurata e dall'integrazione di osservazioni visive condizionate da istruzioni linguistiche. Sebbene lavori recenti abbiano cercato di potenziare le capacità visive dei modelli VLA, la maggior parte degli approcci tratta il backbone LLM come una scatola nera, fornendo una comprensione limitata di come le informazioni visive vengano radicate nella generazione delle azioni. Pertanto, eseguiamo un'analisi sistematica di molteplici modelli VLA attraverso diversi paradigmi di generazione delle azioni e osserviamo che la sensibilità ai token visivi diminuisce progressivamente negli strati più profondi durante la generazione delle azioni. Motivati da questa osservazione, proponiamo DeepVision-VLA, costruito su un framework Vision-Language Mixture-of-Transformers (VL-MoT). Questo framework abilita un'attenzione condivisa tra il modello foundation visivo e il backbone VLA, iniettando feature visive multi-livello dall'esperto visivo negli strati più profondi del backbone VLA per potenziare le rappresentazioni visive per una manipolazione precisa e complessa. Inoltre, introduciamo l'Action-Guided Visual Pruning (AGVP), che sfrutta l'attenzione degli strati superficiali per potare i token visivi irrilevanti preservando quelli rilevanti per il compito, rinforzando gli indizi visivi critici per la manipolazione con un sovraccarico computazionale minimo. DeepVision-VLA supera i precedenti metodi state-of-the-art del 9.0% e del 7.5% rispettivamente su compiti simulati e del mondo reale, fornendo nuove intuizioni per la progettazione di modelli VLA potenziati visivamente.

BenchPreS: Un Benchmark per la Selettività delle Preferenze Personalizzate con Consapevolezza Contestuale nei LLM con Memoria Persistente
BenchPreS: A Benchmark for Context-Aware Personalized Preference Selectivity of Persistent-Memory LLMs

Mar 17

BySangyeon Yoon, Sunkyoung Kim, Hyesoo Hong, Wonje Jeung, Yongil Kim, Wooseok Seo, Heuiyeen Yeen, Albert No

I modelli linguistici di grandi dimensioni (LLM) memorizzano sempre più le preferenze degli utenti in una memoria persistente per supportare la personalizzazione tra le interazioni. Tuttavia, in contesti di comunicazione con terze parti governati da norme sociali e istituzionali, alcune preferenze dell'utente potrebbero essere inappropriate da applicare. Introduciamo BenchPreS, che valuta se le preferenze dell'utente basate sulla memoria siano applicate opportunamente o soppresse nei diversi contesti comunicativi. Utilizzando due metriche complementari, il Tasso di Applicazione Inappropriata (MR) e il Tasso di Applicazione Appropriata (AAR), scopriamo che anche i LLM più all'avanguardia faticano ad applicare le preferenze in modo sensibile al contesto. I modelli con un'aderenza più forte alle preferenze mostrano tassi più elevati di applicazione eccessiva, e né le capacità di ragionamento né le difese basate su prompt risolvono completamente questo problema. Questi risultati suggeriscono che gli LLM attuali trattano le preferenze personalizzate come regole globalmente vincolanti piuttosto che come segnali normativi dipendenti dal contesto.

Guadagni Temporali, Costi Spaziali: Un Riesame del Fine-Tuning Video nei Modelli Linguistici Multimodali di Grande Dimensione
Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models

Mar 18

ByLinghao Zhang, Jungang Li, Yonghua Hei, Sicheng Tao, Song Dai, Yibo Yan, Zihao Dongfang, Weiting Liu, Chenxi Qin, Hanqian Li, Xin Zou, Jiahao Zhang, Shuhang Xun, Haiyun Jiang, Xuming Hu

I modelli linguistici multimodali di grandi dimensioni (MLLM) vengono tipicamente addestrati in più fasi, con l'ottimizzazione supervisionata basata su video (Video-SFT) che rappresenta un passaggio chiave per migliorare la comprensione visiva. Tuttavia, il suo effetto sull'evoluzione granulare delle capacità visive, in particolare l'equilibrio tra comprensione spaziale e temporale, rimane poco compreso. In questo articolo, studiamo sistematicamente come il Video-SFT rimodelli le capacità visive negli MLLM. Attraverso diverse architetture, scale parametriche e impostazioni di campionamento dei fotogrammi, osserviamo uno schema coerente: il Video-SFT migliora affidabilmente le prestazioni sui video, ma spesso produce guadagni limitati o addirittura un degrado sui benchmark di immagini statiche. Dimostriamo inoltre che questo compromesso è strettamente legato al budget temporale: aumentare il numero di fotogrammi campionati generalmente migliora le prestazioni video, ma non migliora in modo affidabile le prestazioni su immagini statiche. Sulla base di questa scoperta, studiamo una strategia Ibrida a Fotogrammi consapevole delle istruzioni che assegna adattivamente il numero di fotogrammi e mitiga parzialmente il compromesso immagine-video. I nostri risultati indicano che il Video-SFT non è una soluzione gratuita per gli MLLM, e la preservazione della comprensione spaziale rimane una sfida centrale nell'addestramento congiunto su immagini e video.

ESPIRE: Un Benchmark Diagnostico per il Ragionamento Spaziale Incorporato nei Modelli Visione-Linguaggio
ESPIRE: A Diagnostic Benchmark for Embodied Spatial Reasoning of Vision-Language Models

Mar 13

ByYanpeng Zhao, Wentao Ding, Hongtao Li, Baoxiong Jia, Zilong Zheng

Una tendenza recente nei modelli visione-linguaggio (VLM) è quella di potenziare la loro cognizione spaziale per domini embodied. Nonostante i progressi, le valutazioni esistenti sono state limitate sia nel paradigma che nella copertura, ostacolando uno sviluppo rapido e iterativo dei modelli. Per affrontare queste limitazioni, proponiamo ESPIRE, un benchmark diagnostico per il ragionamento spaziale embodied. ESPIRE offre un mondo simulato che ancora fisicamente i VLM e li valuta su compiti robotici incentrati sul ragionamento spaziale, riducendo così il divario tra valutazione e impiego nel mondo reale. Per adattare i VLM ai compiti robotici, scomponiamo ogni attività in localizzazione ed esecuzione, e inquadriamo entrambe come problemi generativi, in netto contrasto con le valutazioni discriminative predominanti (ad esempio, tramite question-answering visivo) che si basano su distrattori e tralasciano l'esecuzione. Questa scomposizione consente inoltre un'analisi granulare che va oltre il ragionamento spaziale passivo verso il ragionamento finalizzato all'azione. Progettiamo ESPIRE in modo sistematico sia a livello di istruzione che a livello di ambiente, garantendo un'ampia copertura di scenari di ragionamento spaziale. Utilizziamo ESPIRE per diagnosticare una serie di VLM all'avanguardia e forniamo un'analisi approfondita dei loro comportamenti di ragionamento spaziale.

V-JEPA 2.1: Sbloccare le caratteristiche dense nell'apprendimento auto-supervisionato sui video
V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning

Mar 15

ByLorenzo Mur-Labadia, Matthew Muckley, Amir Bar, Mido Assran, Koustuv Sinha, Mike Rabbat, Yann LeCun, Nicolas Ballas, Adrien Bardes

Presentiamo V-JEPA 2.1, una famiglia di modelli auto-supervisionati che apprendono rappresentazioni visive dense e di alta qualità sia per immagini che per video, mantenendo al contempo una solida comprensione globale della scena. L'approccio combina quattro componenti chiave. In primo luogo, una funzione di perdita predittiva densa utilizza un obiettivo basato sul mascheramento, in cui sia i token visibili che quelli mascherati contribuiscono al segnale di addestramento, incoraggiando un ancoraggio spaziale e temporale esplicito. In secondo luogo, l'auto-supervisione profonda applica l'obiettivo auto-supervisionato in modo gerarchico su più livelli intermedi dell'encoder per migliorare la qualità della rappresentazione. In terzo luogo, tokenizzatori multimodali consentono un addestramento unificato su immagini e video. Infine, il modello beneficia di un efficace scaling sia della capacità del modello che dei dati di addestramento. Insieme, queste scelte progettuali producono rappresentazioni che sono spazialmente strutturate, semanticamente coerenti e temporalmente consistenti. Empiricamente, V-JEPA 2.1 raggiunge prestazioni all'avanguardia su diverse benchmark impegnative, inclusi 7.71 mAP su Ego4D per l'anticipazione a breve termine di interazioni con oggetti e 40.8 Recall@5 su EPIC-KITCHENS per l'anticipazione di azioni di alto livello, oltre a un miglioramento di 20 punti nel tasso di successo della presa per robot reali rispetto a V-JEPA-2 AC. Il modello dimostra anche forti prestazioni nella navigazione robotica (5.687 ATE su TartanDrive), nella stima della profondità (0.307 RMSE su NYUv2 con una sonda lineare) e nel riconoscimento globale (77.7 su Something-Something-V2). Questi risultati mostrano che V-JEPA 2.1 avanza significativamente lo stato dell'arte nella comprensione visiva densa e nella modellazione del mondo.

Modello Mondiale Stereo: Generazione di Video Stereo Guidata da Telecamera
Stereo World Model: Camera-Guided Stereo Video Generation

Mar 18

ByYang-Tian Sun, Zehuan Huang, Yifan Niu, Lin Ma, Yan-Pei Cao, Yuewen Ma, Xiaojuan Qi

Presentiamo StereoWorld, un modello del mondo stereo condizionato da telecamera che apprende congiuntamente l'aspetto visivo e la geometria binoculare per la generazione end-to-end di video stereo. A differenza degli approcci monoculari RGB o RGBD, StereoWorld opera esclusivamente nella modalità RGB, fondando simultaneamente la geometria direttamente dalla disparità. Per ottenere in modo efficiente una generazione stereo coerente, il nostro approccio introduce due elementi chiave: (1) un RoPE unificato nel frame della telecamera che arricchisce i token latenti con una codifica posizionale rotazionale consapevole della telecamera, abilitando un condizionamento relativo, coerente rispetto alla vista e al tempo, preservando al contempo i pre-training di video tramite un'inizializzazione stabile dell'attenzione; e (2) una scomposizione dell'attenzione stereo-aware che scompone l'attenzione 4D completa in un'attenzione 3D intra-vista più un'attenzione orizzontale per riga, sfruttando il priore epipolare per catturare corrispondenze allineate alla disparità con un calcolo sostanzialmente inferiore. Sui benchmark, StereoWorld migliora la coerenza stereo, l'accuratezza della disparità e la fedeltà del movimento della telecamera rispetto a robuste pipeline "monoculare-e-poi-converti", raggiungendo una generazione più di 3 volte più veloce con un ulteriore guadagno del 5% nella coerenza del punto di vista. Oltre i benchmark, StereoWorld abilita il rendering binoculare VR end-to-end senza stima della profondità o inpaint-ing, migliora l'apprendimento di policy embodied attraverso l'ancoraggio metrico della profondità ed è compatibile con la distillazione di video lunghi per una sintesi stereo interattiva estesa.

AdaMem: Memoria Adattiva Centrata sull'Utente per Agenti di Dialogo a Lungo Orizzonte
AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents

Mar 17

ByShannan Yan, Jingchen Ni, Leqi Zheng, Jiajun Zhang, Peixi Wu, Dacheng Yin, Jing Lyu, Chun Yuan, Fengyun Rao

I modelli linguistici di grandi dimensioni (LLM) agenti si affidano sempre più a memorie esterne per supportare interazioni a lungo termine, assistenza personalizzata e ragionamenti multi-step. Tuttavia, i sistemi di memoria esistenti affrontano ancora tre sfide fondamentali: spesso fanno troppo affidamento sulla similarità semantica, che può tralasciare evidenze cruciali per una comprensione centrata sull'utente; memorizzano frequentemente esperienze correlate come frammenti isolati, indebolendo la coerenza temporale e causale; e tipicamente utilizzano granularità di memoria statiche che non si adattano bene alle esigenze di diverse domande. Proponiamo AdaMem, un framework di memoria adattivo e centrato sull'utente per agenti di dialogo a lungo termine. AdaMem organizza la cronologia del dialogo in memorie di lavoro, episodiche, di persona e a grafo, consentendo al sistema di preservare il contesto recente, esperienze a lungo termine strutturate, tratti utente stabili e connessioni consapevoli delle relazioni all'interno di un framework unificato. Al momento dell'inferenza, AdaMem risolve prima il partecipante target, poi costruisce un percorso di retrieval condizionato alla domanda che combina il retrieval semantico con un'espansione del grafo relation-aware solo quando necessario, e infine produce la risposta attraverso una pipeline specializzata per ruolo per la sintesi delle evidenze e la generazione della risposta. Valutiamo AdaMem sui benchmark LoCoMo e PERSONAMEM per il ragionamento a lungo termine e la modellazione dell'utente. I risultati sperimentali mostrano che AdaMem raggiunge prestazioni state-of-the-art su entrambi i benchmark. Il codice verrà rilasciato al momento dell'accettazione.

Apprendimento di Politiche Robotiche Conservative in Modalità Offline tramite Ripesatura delle Transizioni Posteriori
Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting

Mar 17

ByWanpeng Zhang, Hao Luo, Sipeng Zheng, Yicheng Feng, Haiweng Xu, Ziheng Xi, Chaoyi Xu, Haoqi Yuan, Zongqing Lu

L'adattamento offline post-addestramento modifica una politica robotica preaddestrata su un dataset target mediante regressione supervisionata sulle azioni registrate. In pratica, i dataset robotici sono eterogenei: mescolano embodiment, configurazioni di telecamere e dimostrazioni di qualità variabile, pertanto molte traiettorie riflettono comportamenti di recupero, abilità inconsistenti dell'operatore o supervisione scarsamente informativa. L'addestramento posteriore uniforme attribuisce uguale credito a tutti i campioni e può quindi mediare su dati conflittuali o a bassa attribuzione. Proponiamo il Posterior-Transition Reweighting (PTR), un metodo post-addestramento conservativo e privo di ricompensa che determina quanto ciascun campione di addestramento debba influenzare l'aggiornamento supervisionato. Per ogni campione, PTR codifica la conseguenza post-azione osservata come target latente, la inserisce in un pool candidato di target non corrispondenti e utilizza un valutatore di transizione separato per stimare una posteriori di identificazione softmax sugli indici target. Il rapporto posteriori-uniforme definisce il punteggio PTR, che viene convertito in un peso ritagliato e miscelato e applicato all'obiettivo azione originale tramite regressione ponderata auto-normalizzata. Questa costruzione non richiede una verosimiglianza della politica trattabile ed è compatibile sia con teste d'azione di diffusione che di flow-matching. Invece di fidarsi uniformemente di tutte le supervisioni registrate, PTR riassegna il credito in base a quanto attribuibile sia la conseguenza post-azione di ciascun campione sotto la rappresentazione corrente, migliorando l'adattamento offline conservativo a dati robotici eterogenei.

Esplorazione Efficiente su Larga Scala
Efficient Exploration at Scale

Mar 18

BySeyed Mohammad Asghari, Chris Chute, Vikranth Dwaracherla, Xiuyuan Lu, Mehdi Jafarnia, Victor Minden, Zheng Wen, Benjamin Van Roy

Sviluppiamo un algoritmo di apprendimento online che migliora drasticamente l'efficienza nell'utilizzo dei dati per l'apprendimento per rinforzo da feedback umano (RLHF). Il nostro algoritmo aggiorna incrementalmente i modelli di ricompensa e linguistico man mano che vengono ricevuti i dati di scelta. Il modello di ricompensa viene adattato ai dati di scelta, mentre il modello linguistico viene aggiornato da una variante di REINFORCE, con segnali di rinforzo forniti dal modello di ricompensa. Diversi elementi consentono i guadagni di efficienza: un piccolo incentivo positivo aggiunto a ogni segnale di rinforzo, una rete neurale epistemica che modella l'incertezza della ricompensa e un'esplorazione guidata dall'informazione. Utilizzando modelli linguistici di grandi dimensioni (LLM) Gemma, il nostro algoritmo eguaglia le prestazioni dell'RLHF offline addestrato su 200.000 etichette utilizzando meno di 20.000 etichette, rappresentando un miglioramento di oltre 10 volte nell'efficienza dei dati. Estrapolando dai nostri risultati, prevediamo che il nostro algoritmo addestrato su 1 milione di etichette possa eguagliare l'RLHF offline addestrato su 1 miliardo di etichette, il che rappresenta un miglioramento di 1.000 volte. A nostra conoscenza, questi sono i primi risultati a dimostrare che miglioramenti così significativi sono possibili.

Valutazione Unificata dei Token Spazio-Temporali per VLM Video Efficienti
Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

Mar 18

ByJianrui Zhang, Yue Yang, Rohun Tripathi, Winson Han, Ranjay Krishna, Christopher Clark, Yong Jae Lee, Sangho Lee

La potatura dei token è essenziale per migliorare l'efficienza computazionale dei modelli visione-linguaggio (VLM), specialmente per attività basate su video dove la ridondanza temporale è prevalente. Gli approcci precedenti tipicamente potano i token (1) all'interno del vision transformer (ViT) esclusivamente per task di percezione unimodale come la riconoscimento di azioni e la segmentazione di oggetti, senza adattarsi ai task visione-linguaggio downstream; oppure (2) solo all'interno dell'LLM lasciando intatto l'output del ViT, spesso richiedendo meccanismi complessi di selezione dei token condizionati dal testo. In questo articolo, introduciamo Spatio-Temporal Token Scoring (STTS), un modulo semplice e leggero che pota i token visivi sia nel ViT che nell'LLM senza condizionamento testuale o fusione di token, ed è pienamente compatibile con l'addestramento end-to-end. Imparando a valutare temporalmente tramite una loss ausiliaria e spazialmente tramite i gradienti downstream dell'LLM, coadiuvato dal nostro efficiente algoritmo di impacchettamento, STTS pota il 50% dei token visivi nell'intera architettura, determinando un miglioramento del 62% nell'efficienza durante sia l'addestramento che l'inferenza, con un calo di prestazioni medio solo dello 0,7% su 13 task di video QA (brevi e lunghi). I guadagni di efficienza aumentano con un maggior numero di frame campionati per video. L'applicazione dello scaling al test-time per il video QA su video lunghi produce ulteriori guadagni prestazionali dello 0,5-1% rispetto al baseline. Nel complesso, STTS rappresenta una tecnica nuova, semplice ma efficace per una potatura unificata dei token visivi su tutta l'architettura.

Instradamento a Soglia Esperta per la Modellazione Linguistica Autoregressiva con Allocazione Dinamica del Calcolo e Bilanciamento del Carico
Expert Threshold Routing for Autoregressive Language Modeling with Dynamic Computation Allocation and Load Balancing

Mar 12

ByHanchi Sun, Yixin Liu, Yonghui Wu, Lichao Sun

Il Token-choice Mixture-of-Experts (TC-MoE) instrada ogni token a un numero fisso di esperti, limitando l'allocazione dinamica del calcolo e richiedendo perdite ausiliarie per mantenere il bilanciamento del carico. Proponiamo l'instradamento Expert Threshold (ET), in cui ogni esperto mantiene una soglia a media mobile esponenziale (EMA) stimata dalla distribuzione globale dei token. Sia in addestramento che in inferenza, ogni token viene instradato indipendentemente a un esperto se il suo punteggio supera la soglia dell'esperto, consentendo un'allocazione dinamica del calcolo e raggiungendo il bilanciamento del carico senza perdite ausiliarie. Questo meccanismo completamente causale elimina la dipendenza da altri token nel batch, rendendolo particolarmente adatto per il modeling linguistico autoregressivo. In esperimenti di pre-addestramento su scala fino a 2,4 miliardi di parametri su FineWeb-Edu, ET raggiunge una perdita di entropia incrociata inferiore di 0,067 rispetto a TC-MoE, equivalente a raggiungere la stessa performance con 1,6 volte meno token.

RAMP: Quantizzazione a Precisione Mista Adattiva per Rinforzo per Inferenza Efficiente di LLM su Dispositivo
RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Mar 18

ByArpit Singh Gautam, Saurabh Jha

La quantizzazione post-addestramento è essenziale per il deployment di grandi modelli linguistici (LLM) su hardware con risorse limitate, tuttavia i metodi allo stato dell'arte impongono larghezze di bit uniformi su tutti i livelli, producendo compromessi precisione-efficienza subottimali. Presentiamo RAMP (Reinforcement Adaptive Mixed Precision), un framework Soft Actor-Critic off-policy che apprende assegnazioni di bit per singolo livello per minimizzare la perplexity sotto un budget globale di bit. La policy si basa su un embedding a 11 dimensioni di statistiche delle attivazioni, proprietà dei pesi e descrittori strutturali, consentendo il trasferimento zero-shot tra famiglie e scale di modelli. Per abilitare una quantizzazione stabile sotto i 4 bit, introduciamo Scale Folding, una tecnica di precondizionamento che migra i valori anomali delle attivazioni nei pesi tramite scalatura per canale e compensazione dei livelli di normalizzazione. Una ricompensa prioritaria per la qualità, con penalità asimmetriche e "scogli" di budget, guida una rapida convergenza. Su Llama 2 7B, RAMP raggiunge una perplexity di 5,54 a 3,68 GB (3,65 bit effettivi), superando l'AWQ uniforme a 4 bit (5,60 a 3,90 GB) e GPTQ del 6% in dimensione e dall'1% al 3% in qualità. In modo cruciale, una policy addestrata solo su Llama 2 7B si generalizza in zero-shot a Llama 2 13B e Mistral 7B, spesso superando l'addestramento specifico per target, supportando l'ipotesi che la sensibilità alla quantizzazione sia principalmente architetturale. La pipeline HALO esporta le allocazioni in formato GGUF per l'inferenza senza kernel su CPU, GPU e dispositivi edge, mantenendo il 99,5% delle prestazioni di ragionamento di senso comune in FP16.

LaDe: Generazione e Scomposizione Unificata di Media Grafici Multi-Livello
LaDe: Unified Multi-Layered Graphic Media Generation and Decomposition

Mar 18

ByVlad-Constantin Lungu-Stan, Ionut Mironica, Mariana-Iuliana Georgescu

La generazione di livelli di design multimediale consente la creazione di documenti di design completamente modificabili e stratificati, come poster, volantini e loghi, utilizzando esclusivamente prompt in linguaggio naturale. I metodi esistenti limitano l'output a un numero fisso di livelli o richiedono che ogni livello contenga solo regioni spazialmente continue, facendo sì che il numero di livelli aumenti linearmente con la complessità del design. Proponiamo LaDe (Layered Media Design), un framework di diffusione latente che genera un numero flessibile di livelli semanticamente significativi. LaDe combina tre componenti: un espansore di prompt basato su LLM che trasforma l'intento breve dell'utente in descrizioni strutturate per livello che guidano la generazione, un Transformer a Diffusione Latente con un meccanismo di codifica posizionale RoPE 4D che genera congiuntamente il design multimediale completo e i suoi livelli costitutivi RGBA, e un VAE RGBA che decodifica ogni livello con pieno supporto del canale alfa. Condizionando il training su campioni di livelli, il nostro framework unificato supporta tre compiti: generazione di immagini da testo, generazione di design multimediali stratificati da testo e scomposizione di design multimediali. Confrontiamo LaDe con Qwen-Image-Layered sui compiti di generazione da testo a livelli e da immagine a livelli sul set di test Crello. LaDe supera Qwen-Image-Layered nella generazione da testo a livelli migliorando l'allineamento testo-livello, come validato da due valutatori VLM-as-a-judge (GPT-4o mini e Qwen3-VL).

Addestramento Efficiente Senza Allenamento per la Predizione Multi-Token tramite Analisi dello Spazio di Embedding
Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing

Mar 18

ByRaghavv Goel, Mukul Gagrani, Mingu Lee, Chris Lott

I modelli linguistici di grandi dimensioni (LLM) mostrano capacità latenti di previsione multi-token (MTP, Multi-Token Prediction) nonostante siano addestrati esclusivamente per la generazione del token successivo. Proponiamo un approccio MTP semplice e senza necessità di addestramento che analizza un LLM utilizzando token mascherati generati al volo estratti dal suo spazio di embedding, consentendo la previsione parallela di token futuri senza modificare i pesi del modello o fare affidamento su modelli draft ausiliari. Il nostro metodo costruisce un albero di token speculativo campionando i candidati top-K dai logit dei token mascherati e applica una strategia di potatura leggera per mantenere le continuazioni ad alta probabilità. Durante la decodifica, le previsioni candidate vengono verificate in parallelo, ottenendo una generazione senza perdite riducendo sostanzialmente il numero di chiamate al modello e migliorando il throughput di token. Su diversi benchmark, il nostro MTP basato su probing supera costantemente i baseline esistenti senza addestramento, aumentando la lunghezza di accettazione di circa il 12% su LLaMA3 e dell'8-12% su Qwen3, e raggiungendo guadagni di throughput fino al 15-19%. Infine, forniamo intuizioni teoriche ed evidenze empiriche che mostrano come gli strati decoder allineino naturalmente le rappresentazioni dei token mascherati con gli stati del token successivo, abilitando una previsione multi-passo accurata senza riaddestramento o modelli ausiliari.

ACE-LoRA: Miglioramento Contestuale con Attenzione Grafica per l'Adattamento Efficiente in Parametri di Modelli Visione-Linguaggio Medici
ACE-LoRA: Graph-Attentive Context Enhancement for Parameter-Efficient Adaptation of Medical Vision-Language Models

Mar 17

ByM. Arda Aydın, Melih B. Yilmaz, Aykut Koç, Tolga Çukur

Il successo dei modelli visione-linguaggio (VLM) simili a CLIP sulle immagini naturali ha ispirato controparti mediche, tuttavia gli approcci esistenti ricadono in gran parte in due estremi: modelli specialistici addestrati su dati a dominio singolo, che catturano dettagli specifici del dominio ma generalizzano scarsamente, e VLM medici generalisti addestrati su dati multi-dominio, che preservano una semantica ampia ma diluiscono gli indizi diagnostici fine-granulari. Colmare questo compromesso specializzazione-generalizzazione rimane complesso. Per affrontare questo problema, proponiamo ACE-LoRA, un framework di adattamento efficiente in parametri per VLM medici generalisti che mantiene una robusta generalizzazione zero-shot. ACE-LoRA integra moduli di Adattamento a Basso Rango (LoRA) in encoder immagine-testo congelati e introduce un modulo di Rete Neurale a Ipergrafo per l'Arricchimento Contestuale basato sull'Attenzione (ACE-HGNN) che cattura interazioni contestuali di ordine superiore oltre la similarità a coppie, arricchendo le rappresentazioni globali con indizi diagnostici localizzati e affrontando una limitazione chiave dei precedenti metodi di Fine-Tuning Efficiente in Parametri (PEFT) che trascurano i dettagli fine-granulari. Per migliorare ulteriormente l'allineamento cross-modale, formuliamo una perdita InfoNCE guidata da etichette per sopprimere efficacemente i falsi negativi tra coppie immagine-testo semanticamente correlate. Nonostante l'aggiunta di soli 0.95 milioni di parametri addestrabili, ACE-LoRA supera costantemente i VLM medici e i baseline PEFT allo stato dell'arte in benchmark zero-shot di classificazione, segmentazione e rilevamento che abbracciano molteplici domini. Il nostro codice è disponibile all'indirizzo https://github.com/icon-lab/ACE-LoRA.

Da Principiante a Professionista: Padronanza Efficiente delle Competenze tramite Fine-Tuning RL con Contrazione della Distribuzione
From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning

Mar 10

ByZhanyi Sun, Shuran Song

Introduciamo Distribution Contractive Reinforcement Learning (DICE-RL), un framework che utilizza il reinforcement learning (RL) come operatore di "contrazione di distribuzione" per affinare politiche generative preaddestrate per robot. DICE-RL trasforma un prior comportamentale preaddestrato in una politica "pro" ad alte prestazioni amplificando i comportamenti ad alto successo tramite feedback online. Pre-addestriamo una politica basata su diffusione o flusso per un'ampia copertura comportamentale, per poi affinarla con un framework RL residuo off-policy, stabile ed efficiente nel campionamento, che combina una regolarizzazione comportamentale selettiva con una selezione delle azioni guidata dal valore. Esperimenti e analisi approfonditi dimostrano che DICE-RL migliora affidabilmente le prestazioni con forte stabilità ed efficienza di campionamento. Consente la padronanza di complesse abilità di manipolazione a lungo orizzonte direttamente da input pixel ad alta dimensionalità, sia in simulazione che su un robot reale. Sito web del progetto: https://zhanyisun.github.io/dice.rl.2026/.

VideoAtlas: Navigare nei Video di Lunga Durata con Calcolo Logaritmico
VideoAtlas: Navigating Long-Form Video in Logarithmic Compute

Mar 18

ByMohamed Eltahir, Ali Habibullah, Yazan Alshoibi, Lama Ayash, Tanveer Hussain, Naeemullah Khan

L'estensione dei modelli linguistici al video introduce due sfide: la rappresentazione, dove i metodi esistenti si basano su approssimazioni con perdita di informazioni, e il contesto lungo, dove le pipeline basate su descrizioni o agenti comprimono il video in testo, perdendo fedeltà visiva. Per superare ciò, introduciamo VideoAtlas, un ambiente indipendente dal compito che rappresenta il video come una griglia gerarchica, simultaneamente senza perdita di informazioni, navigabile, scalabile, libero da descrizioni e pre-elaborazione. Una panoramica del video è disponibile a colpo d'occhio, e qualsiasi regione può essere ingrandita ricorsivamente, utilizzando la stessa rappresentazione visiva in modo uniforme per il video, le indagini intermedie e la memoria dell'agente, eliminando end-to-end la conversione lossy in testo. Questa struttura gerarchica garantisce che la profondità di accesso cresca solo in modo logaritmico con la lunghezza del video. Per il contesto lungo, i Modelli Linguistici Ricorsivi (RLM) hanno recentemente offerto una soluzione potente per il testo lungo, ma estenderli al dominio visivo richiede un ambiente strutturato in cui recursare, che VideoAtlas fornisce. VideoAtlas modellato come Processo Decisionale di Markov sblocca Video-RLM: un'architettura Master-Worker parallela in cui un Master coordina l'esplorazione globale mentre i Worker perforano concorrentemente nelle regioni assegnate per accumulare evidenza visiva senza perdite. Dimostriamo tre risultati chiave: (1) crescita logaritmica del calcolo con la durata del video, ulteriormente amplificata da un tasso di hit della cache multimodale del 30-60% derivante dal riutilizzo strutturale della griglia. (2) budgeting dell'ambiente, dove delimitare la profondità massima di esplorazione fornisce un iperparametro principio per bilanciare calcolo e accuratezza. (3) allocazione emergente e adattiva del calcolo che scala con la granularità della domanda. Scalando da benchmark di 1 ora a 10 ore, Video-RLM rimane il metodo più robusto alla durata con degradazione minima dell'accuratezza, dimostrando che la navigazione in un ambiente strutturato è un paradigma valido e scalabile per la comprensione video.

FINER: I MLLM Allucinano con Query Negative a Grana Fine
FINER: MLLMs Hallucinate under Fine-grained Negative Queries

Mar 18

ByRui Xiao, Sanghwan Kim, Yongqin Xian, Zeynep Akata, Stephan Alaniz

I modelli linguistici multimodali di grandi dimensioni (MLLM) presentano difficoltà con le allucinazioni, in particolare con query a grana fine, una sfida sottorappresentata dai benchmark esistenti che si concentrano su domande grossolane relative all'immagine. Introduciamo FIne-grained NEgative queRies (FINER), insieme a due benchmark: FINER-CompreCap e FINER-DOCCI. Utilizzando FINER, analizziamo le allucinazioni in quattro contesti: domande su oggetti multipli, attributi multipli, relazioni multiple e domande "cosa". I nostri benchmark rivelano che gli MLLM allucinano quando disallineamenti a grana fine co-occorrono con elementi genuinamente presenti nell'immagine. Per affrontare questo problema, proponiamo FINER-Tuning, sfruttando l'Optimizzazione della Preferenza Diretta (DPO) su dati ispirati a FINER. Il fine-tuning di quattro MLLM all'avanguardia con FINER-Tuning produce guadagni fino al 24,2% (InternVL3.5-14B) sulle allucinazioni dai nostri benchmark, migliorando simultaneamente le prestazioni su otto suite di allucinazione esistenti e potenziando le capacità multimodali generali su sei benchmark. Codice, benchmark e modelli sono disponibili all'indirizzo https://explainableml.github.io/finer-project/.

HeBA: Adattatori a Collo di Bottiglia Eterogenei per Modelli Visivo-Linguistici Robusti
HeBA: Heterogeneous Bottleneck Adapters for Robust Vision-Language Models

Mar 17

ByMd Jahidul Islam

L'adattamento di modelli visione-linguaggio (VLM) su larga scala come CLIP a compiti downstream soffre spesso di un approccio architetturale "universale", in cui i token visivi e testuali vengono processati in modo uniforme da adattatori ampi e generici. Sosteniamo che questa omogeneità ignori la natura strutturale distinta delle modalità: la località spaziale nelle immagini rispetto alla densità semantica nel testo. Per affrontare ciò, proponiamo HeBA (Heterogeneous Bottleneck Adapter), un framework architetturale unificato che introduce *inductive bias* strutturali specifici per modalità. HeBA si discosta dai progetti convenzionali attraverso tre innovazioni architetturali chiave: (1) *Eterogeneità*: elabora i token visivi tramite convoluzioni depthwise-separabili 2D per preservare le correlazioni spaziali, mentre elabora distintamente i token testuali tramite proiezioni lineari dense per catturare le relazioni semantiche; (2) *Regolarizzazione del Collo di Bottiglia*: a differenza degli adattatori standard a espansione, HeBA impiega un collo di bottiglia di compressione (D -> D/4) che forza esplicitamente il modello ad apprendere feature compatte e robuste e agisce come regolarizzatore strutturale; e (3) *Inizializzazione Attiva del Gradiente*: Contestiamo il paradigma restrittivo dell'inizializzazione zero, utilizzando una strategia di inizializzazione Kaiming che garantisce un flusso di gradiente iniziale sufficiente per accelerare la convergenza senza compromettere la conoscenza pre-addestrata del backbone congelato. Esperimenti estesi dimostrano che il design architetturalmente specializzato di HeBA raggiunge una stabilità e un'accuratezza superiori, stabilendo un nuovo stato dell'arte su 11 benchmark few-shot. Il codice è disponibile all'indirizzo https://github.com/Jahid12012021/VLM-HeBA.

Scienziato dell'IA tramite Scalabilità di Compiti Sintetici
AI Scientist via Synthetic Task Scaling

Mar 17

ByZiyang Cai, Harkirat Behl

Con l'avvento degli agenti di IA, la scoperta scientifica automatica è diventata un obiettivo perseguibile. Molti lavori recenti propongono sistemi agentivi in grado di condurre ricerca sul machine learning, ma non offrono un metodo strutturato per addestrare tali agenti, e gli attuali LLM spesso generano idee apparentemente plausibili ma inefficaci. Per progredire nell'addestramento di agenti che imparano attraverso l'esperienza, forniamo una nuova pipeline per la generazione di ambienti sintetici specifica per agenti di machine learning. La nostra pipeline sintetizza automaticamente sfide di machine learning compatibili con il framework SWE-agent, coprendo campionamento di argomenti, proposta di dataset e generazione di codice. I task sintetici risultanti sono 1) ancorati a dataset reali di machine learning, poiché i dataset proposti vengono verificati tramite l'API di Huggingface, e 2) verificati per una qualità superiore attraverso un ciclo di auto-debugging. Per validare l'efficacia dei nostri task sintetici, affrontiamo MLGym, un benchmark per compiti di machine learning. Dai task sintetici, campioniamo traiettorie da un modello insegnante (GPT-5), per poi utilizzare tali traiettorie per addestrare un modello studente (Qwen3-4B e Qwen3-8B). I modelli studenti addestrati con i nostri task sintetici raggiungono prestazioni migliorate su MLGym, incrementando la metrica AUP del 9% per Qwen3-4B e del 12% per Qwen3-8B.

AdapterTune: Adattatori a Basso Rango con Inizializzazione Zero per Vision Transformer Congelati
AdapterTune: Zero-Initialized Low-Rank Adapters for Frozen Vision Transformers

Mar 16

BySalim Khazem

Il transfer learning con backbone congelata tramite Vision Transformers affronta due problemi poco considerati: l'instabilità ottimizzativa quando gli adapter vengono inseriti in modo ingenuo in un estrattore di feature fisso e l'assenza di linee guida principiate per impostare la capacità degli adapter. Introduciamo AdapterTune, che potenzia ogni blocco transformer con un collo di bottiglia residuo a basso rango la cui proiezione ascendente è inizializzata a zero, garantendo che la rete adattata parta esattamente dalla funzione pre-addestrata ed elimini la deriva delle rappresentazioni nelle epoche iniziali. Sul lato analitico, formalizziamo il rango dell'adapter come un budget di capacità per approssimare gli spostamenti del task downstream nello spazio delle feature. La conseguente scomposizione dell'eccesso di rischio prevede guadagni di accuratezza monotoni ma decrescenti all'aumentare del rango, un comportamento "a gomito" che conferiamo attraverso sweep controllati. Valutiamo su 9 dataset e 3 scale di backbone con report multi-seed completo. Su una suite di transfer di 5 dataset principali, AdapterTune migliora l'accuratezza top-1 rispetto al transfer solo testa di +14,9 punti in media, addestrando solo lo 0,92% dei parametri richiesti dal fine-tuning completo, e supera il fine-tuning completo in 10 su 15 coppie dataset-backbone. Nell'intero benchmark, AdapterTune migliora rispetto al transfer solo testa in ogni coppia dataset-backbone testata. Le ablazioni su rango, posizionamento e inizializzazione isolano ogni scelta progettuale. Il codice è disponibile all'indirizzo: https://github.com/salimkhazem/adaptertune

Ricostruzione Coerente di Umani e Scena da Video Multi-Persona Multi-Vista in un Unico Passaggio
Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass

Mar 13

BySangmin Kim, Minhyuk Hwang, Geonho Cha, Dongyoon Wee, Jaesik Park

I recenti progressi nei modelli di base 3D hanno suscitato un crescente interesse nella ricostruzione di esseri umani e dei loro ambienti circostanti. Tuttavia, la maggior parte degli approcci esistenti si concentra su input monoculari, e la loro estensione a contesti multi-vista richiede moduli aggiuntivi o dati preprocessati. A tal fine, presentiamo CHROMM, un framework unificato che stima congiuntamente le telecamere, le nuvole di punti della scena e le mesh umane a partire da video multi-persona e multi-vista, senza fare affidamento su moduli esterni o preprocessing. Integriamo forti prior geometriche e umane da Pi3X e Multi-HMR in un'unica architettura di rete neurale addestrabile e introduciamo un modulo di regolazione della scala per risolvere la discrepanza di scala tra gli esseri umani e la scena. Introduciamo inoltre una strategia di fusione multi-vista per aggregare le stime per singola vista in un'unica rappresentazione al momento del test. Infine, proponiamo un metodo di associazione multi-persona basato sulla geometria, che è più robusto degli approcci basati sull'aspetto. Gli esperimenti su EMDB, RICH, EgoHumans ed EgoExo4D mostrano che CHROMM raggiunge prestazioni competitive nella stima della motricità umana globale e della posa multi-vista, operando con una velocità oltre 8 volte superiore rispetto ai precedenti approcci multi-vista basati sull'ottimizzazione. Pagina del progetto: https://nstar1125.github.io/chromm.

PRISM: Svelare la Ritenzione e l'Interazione durante l'Addestramento Intermedio
PRISM: Demystifying Retention and Interaction in Mid-Training

Mar 17

ByBharat Runwal, Ashish Agrawal, Anurag Roy, Rameswar Panda

Presentiamo PRISM, uno studio empirico completo sulle scelte progettuali a metà addestramento per i grandi modelli linguistici. Attraverso esperimenti controllati su sette modelli base che coprono quattro famiglie (Granite, LLaMA, Mistral, Nemotron-H), due tipi di architettura (Transformer denso e ibrido attention-Mamba) e scale da 3 a 24 miliardi di parametri, dimostriamo che un addestramento intermedio su circa 27 miliardi di token di alta qualità produce guadagni consistenti di +15 a +40 punti in matematica, +5 a +12 punti in codice e +6 a +13 punti su benchmark scientifici, preservando al contempo le prestazioni generali. La pipeline completa PRISM verso RL migliora la media macro su sei benchmark di ragionamento da meno di 12 a 29-42 (un miglioramento di 3-4 volte), mentre l'RL applicato direttamente alla maggior parte dei modelli base rimane sostanzialmente meno efficace, con punteggi AIME prossimi allo zero. La composizione dei dati è più cruciale durante l'addestramento intermedio, non durante l'RL: l'inclusione di dati scientifici durante l'addestramento intermedio sblocca guadagni di +17 a +28 punti su GPQA-Diamond durante l'RL, mentre modificare il mix di RL produce differenze inferiori a 2 punti. Meccanicamente, l'addestramento intermedio ristruttura densamente oltre il 90% dei pesi del modello, mentre l'RL apporta rifiniture sparse e anticipate a circa il 5% dei parametri. L'analisi delle rappresentazioni (CKA) conferma che l'RL preserva consistentemente la geometria rappresentativa dell'addestramento intermedio (CKA superiore a 0,998) attraverso le architetture. Crucialmente, l'RL applica modifiche identiche ai pesi indipendentemente dal punto di partenza, ma ha successo solo sui modelli con addestramento intermedio, coerentemente con l'ipotesi che tale addestramento posizioni il modello in una configurazione da cui l'RL può migliorare efficacemente le prestazioni. I nostri risultati dimostrano che un addestramento intermedio consapevole della ritenzione è altamente efficace per un potenziamento affidabile del ragionamento e forniscono indicazioni pratiche per progettare pipeline di addestramento intermedio robuste.

Fanar-Sadiq: Un'Architettura Multi-Agente per Domande e Risposte Islamiche Fondate
Fanar-Sadiq: A Multi-Agent Architecture for Grounded Islamic QA

Mar 9

ByUmmar Abbas, Mourad Ouzzani, Mohamed Y. Eltabakh, Omar Sinan, Gagan Bhatia, Hamdy Mubarak, Majd Hawasly, Mohammed Qusay Hashim, Kareem Darwish, Firoj Alam

I modelli linguistici di grandi dimensioni (LLM) possono rispondere con fluidità a interrogativi di conoscenza religiosa, ma spesso producono allucinazioni e attribuiscono erroneamente le fonti, un problema particolarmente rilevante in contesti islamici dove gli utenti si aspettano un ancoraggio a testi canonici (Corano e Hadīth) e a sfumature giurisprudenziali (fiqh). La generazione aumentata tramite recupero delle informazioni (RAG) riduce alcune di queste limitazioni basando la generazione su evidenze esterne. Tuttavia, una singola pipeline di tipo "recupera e poi genera" è limitata nel gestire la diversità delle domande islamiche. Gli utenti possono richiedere citazioni scritturali verbatim, consigli in stile fatwa con riferimenti bibliografici o calcoli vincolati da regole, come quelli per lo zakat e l'eredità, che richiedono il rigoroso rispetto di invarianti aritmetiche e giuridiche. In questo lavoro, presentiamo un assistente islamico bilingue (arabo/inglese) multi-agente, chiamato Fanar-Sadiq, che è un componente centrale della piattaforma Fanar AI. Fanar-Sadiq instrada le domande di pertinenza islamica verso moduli specializzati all'interno di un'architettura agentica che utilizza strumenti. Il sistema supporta l'instradamento consapevole dell'intento, risposte di fiqh basate sul recupero delle informazioni con normalizzazione deterministica delle citazioni e tracce di verifica, ricerca esatta dei versetti con validazione delle citazioni, e calcolatori deterministici per lo zakat e l'eredità sunniti con diramazioni sensibili al madhhab. Valutiamo il sistema end-to-end completo su benchmark pubblici di domande e risposte islamiche e ne dimostriamo l'efficacia e l'efficienza. Il nostro sistema è attualmente accessibile pubblicamente e gratuitamente tramite API e un'applicazione Web, ed è stato utilizzato circa 1,9 milioni di volte in meno di un anno.