HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

21 papers found

SLA2: Attenzione Sparsa-Lineare con Instradamento Apprendibile e QAT
SLA2: Sparse-Linear Attention with Learnable Routing and QAT

Feb 13

ByJintao Zhang, Haoxu Wang, Kai Jiang, Kaiwen Zheng, Youhe Jiang, Ion Stoica, Jianfei Chen, Jun Zhu, Joseph E. Gonzalez

L'Attenzione Sparsa-Lineare (SLA) combina l'attenzione sparsa e lineare per accelerare i modelli di diffusione e ha dimostrato prestazioni solide nella generazione video. Tuttavia, (i) la SLA si basa su una divisione euristica che assegna i calcoli al ramo sparso o lineare in base all'ampiezza dei pesi di attenzione, il che può essere subottimale. Inoltre, (ii) dopo aver analizzato formalmente l'errore di attenzione nella SLA, identifichiamo una discrepanza tra la SLA e una scomposizione diretta in attenzione sparsa e lineare. Proponiamo SLA2, che introduce (I) un router apprendibile che seleziona dinamicamente se ogni calcolo di attenzione debba utilizzare l'attenzione sparsa o lineare, (II) una formulazione di attenzione sparsa-lineare più fedele e diretta che utilizza un rapporto apprendibile per combinare i rami di attenzione sparsa e lineare, e (III) un design di attenzione sparsa + a basso bit, dove l'attenzione a basso bit viene introdotta tramite fine-tuning quantizzazione-consapevole per ridurre l'errore di quantizzazione. Gli esperimenti mostrano che, su modelli di diffusione video, SLA2 può raggiungere il 97% di sparsità dell'attenzione e fornire una velocizzazione dell'attenzione di 18.6x preservando la qualità della generazione.

AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines

Feb 15

ByYifan Wu, Yiran Peng, Yiyu Chen, Jianhao Ruan, Zijie Zhuang, Cheng Yang, Jiayi Zhang, Man Chen, Yenchi Tseng, Zhaoyang Yu, Liang Chen, Yuyao Zhai, Bang Liu, Chenglin Wu, Yuyu Luo

The performance of autonomous Web GUI agents heavily relies on the quality and quantity of their training data. However, a fundamental bottleneck persists: collecting interaction trajectories from real-world websites is expensive and difficult to verify. The underlying state transitions are hidden, leading to reliance on inconsistent and costly external verifiers to evaluate step-level correctness. To address this, we propose AutoWebWorld, a novel framework for synthesizing controllable and verifiable web environments by modeling them as Finite State Machines (FSMs) and use coding agents to translate FSMs into interactive websites. Unlike real websites, where state transitions are implicit, AutoWebWorld explicitly defines all states, actions, and transition rules. This enables programmatic verification: action correctness is checked against predefined rules, and task success is confirmed by reaching a goal state in the FSM graph. AutoWebWorld enables a fully automated search-and-verify pipeline, generating over 11,663 verified trajectories from 29 diverse web environments at only $0.04 per trajectory. Training on this synthetic data significantly boosts real-world performance. Our 7B Web GUI agent outperforms all baselines within 15 steps on WebVoyager. Furthermore, we observe a clear scaling law: as the synthetic data volume increases, performance on WebVoyager and Online-Mind2Web consistently improves.

RynnBrain: Modelli Fondazionali Aperti ed Incorporati
RynnBrain: Open Embodied Foundation Models

Feb 13

ByRonghao Dang, Jiayan Guo, Bohan Hou, Sicong Leng, Kehan Li, Xin Li, Jiangpin Liu, Yunxuan Mao, Zhikai Wang, Yuqian Yuan, Minghao Zhu, Xiao Lin, Yang Bai, Qian Jiang, Yaxi Zhao, Minghua Zeng, Junlong Gao, Yuming Jiang, Jun Cen, Siteng Huang, Liuyi Wang, Wenqiao Zhang, Chengju Liu, Jianfei Yang, Shijian Lu, Deli Zhao

Nonostante i rapidi progressi nei modelli fondazionali multimodali, la comunità dell'intelligenza incarnata manca ancora di un modello fondazionale unificato e fisicamente ancorato che integri percezione, ragionamento e pianificazione all'interno delle dinamiche spazio-temporali del mondo reale. Presentiamo RynnBrain, un modello fondazionale spazio-temporale open-source per l'intelligenza incarnata. RynnBrain potenzia quattro capacità fondamentali in un quadro unificato: comprensione egocentrica completa, localizzazione spazio-temporale diversificata, ragionamento fisicamente fondato e pianificazione consapevole della fisica. La famiglia RynnBrain comprende tre dimensioni di modelli fondazionali (2B, 8B e 30B-A3B MoE) e quattro varianti post-addestrate ottimizzate per task incarnati a valle (ovvero, RynnBrain-Nav, RynnBrain-Plan e RynnBrain-VLA) o per compiti complessi di ragionamento spaziale (ovvero, RynnBrain-CoP). Sulla base di valutazioni estensive su 20 benchmark per l'intelligenza incarnata e 8 benchmark generali per la comprensione visiva, i nostri modelli fondazionali RynnBrain superano ampiamente i modelli fondazionali incarnati esistenti con un margine significativo. La suite di modelli post-addestrati conferma ulteriormente due potenzialità chiave del modello fondazionale RynnBrain: (i) abilitare ragionamento e pianificazione fisicamente fondati, e (ii) fungere da solida backbone pre-addestrata che può essere efficientemente adattata a svariati task incarnati.

CADEvolve: Creazione di CAD realistici tramite evoluzione di programmi
CADEvolve: Creating Realistic CAD via Program Evolution

Feb 18

ByMaksim Elistratov, Marina Barannikov, Gregory Ivanov, Valentin Khrulkov, Anton Konushin, Andrey Kuznetsov, Dmitrii Zhemchuzhnikov

La progettazione assistita da computer (CAD) fornisce una modellazione rapida e modificabile per l'ingegneria e la produzione. I recenti progressi nell'IA rendono ora fattibile la piena automazione per varie attività CAD. Tuttavia, il progresso è limitato dai dati: i corpora pubblici contengono per lo più sequenze di schizzo-estrusione, mancano di operazioni complesse, composizione multi-operazione e intento progettuale, ostacolando così un fine-tuning efficace. I tentativi di aggirare questo problema con modelli linguistici visivi (VLM) congelati spesso producono programmi semplici o non validi a causa della limitata comprensione 3D nei modelli foundation attuali. Presentiamo CADEvolve, una pipeline e un dataset basati sull'evoluzione che partono da primitive semplici e, attraverso modifiche e validazioni guidate da VLM, fanno crescere incrementalmente i programmi CAD verso una complessità di livello industriale. Il risultato sono 8k parti complesse espresse come generatori parametrici eseguibili in CadQuery. Dopo una post-elaborazione e un'arricchimento multi-fase, otteniamo un dataset unificato di 1.3 milioni di script abbinati a geometrie renderizzate che esercitano l'intero set di operazioni di CadQuery. Un VLM sottoposto a fine-tuning su CADEvolve ottiene risultati all'avanguardia nel compito Image2CAD attraverso i benchmark DeepCAD, Fusion 360 e MCB.

Apprendimento del controllo dell'end-effector umanoide per la loco-manipolazione visiva a vocabolario aperto
Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

Feb 18

ByRunpei Dong, Ziyan Li, Xialin He, Saurabh Gupta

La loco-manipolazione visiva di oggetti arbitrari in ambienti non controllati con robot umanoidi richiede un controllo accurato dell'end-effector (EE) e una comprensione generalizzabile della scena tramite input visivi (ad esempio, immagini RGB-D). Gli approcci esistenti si basano sull'apprendimento per imitazione nel mondo reale e mostrano una generalizzazione limitata a causa della difficoltà nella raccolta di dataset di addestramento su larga scala. Questo articolo presenta un nuovo paradigma, HERO, per la loco-manipolazione di oggetti con robot umanoidi che combina la forte capacità di generalizzazione e la comprensione open-vocabulary di grandi modelli visivi con le prestazioni di controllo robuste derivanti dall'addestramento in simulazione. Raggiungiamo questo obiettivo progettando una politica di tracking dell'EE accurata e consapevole dei residui. Questa politica di tracking dell'EE combina la robotica classica con l'apprendimento automatico. Utilizza a) la cinematica inversa per convertire i target residui dell'end-effector in traiettorie di riferimento, b) un modello diretto neurale appreso per una cinematica diretta accurata, c) una regolazione degli obiettivi e d) una ripianificazione. Insieme, queste innovazioni ci aiutano a ridurre l'errore di tracking dell'end-effector di 3,2 volte. Utilizziamo questo tracker accurato dell'end-effector per costruire un sistema modulare per la loco-manipolazione, in cui impieghiamo grandi modelli visivi open-vocabulary per una forte generalizzazione visiva. Il nostro sistema è in grado di operare in vari ambienti del mondo reale, dagli uffici alle caffetterie, dove il robot riesce a manipolare in modo affidabile vari oggetti di uso quotidiano (ad esempio, tazze, mele, giocattoli) su superfici con altezze comprese tra 43 cm e 92 cm. Test sistematici modulari ed end-to-end in simulazione e nel mondo reale dimostrano l'efficacia della nostra proposta progettuale. Riteniamo che i progressi presentati in questo articolo possano aprire nuove strade per addestrare robot umanoidi a interagire con oggetti quotidiani.

Cooperazione multi-agente tramite inferenza contestuale del co-giocatore
Multi-agent cooperation through in-context co-player inference

Feb 18

ByMarissa A. Weis, Maciej Wołczyk, Rajai Nasser, Rif A. Saurous, Blaise Agüera y Arcas, João Sacramento, Alexander Meulemans

Il raggiungimento della cooperazione tra agenti autointeressati rimane una sfida fondamentale nell'apprendimento per rinforzo multi-agente. Ricerche recenti hanno dimostrato che una cooperazione reciproca può essere indotta tra agenti "consapevoli dell'apprendimento" che tengono conto e modellano le dinamiche di apprendimento dei loro co-partecipanti. Tuttavia, gli approcci esistenti si basano tipicamente su assunzioni predefinite, spesso inconsistenti, riguardanti le regole di apprendimento dei co-partecipanti, oppure impongono una rigida separazione tra "apprendisti ingenui" che si aggiornano su scale temporali veloci e "meta-apprendisti" che osservano questi aggiornamenti. Qui dimostriamo che le capacità di apprendimento contestuale dei modelli sequenziali permettono la consapevolezza dell'apprendimento del co-partecipante senza richiedere assunzioni predefinite o una separazione esplicita delle scale temporali. Mostriamo che l'addestramento di agenti basati su modelli sequenziali contro una distribuzione diversificata di co-partecipanti induce naturalmente strategie di miglior risposta contestuale, funzionando efficacemente come algoritmi di apprendimento sulla scala temporale veloce intra-episodio. Rileviamo che il meccanismo cooperativo identificato in lavori precedenti - in cui la vulnerabilità all'estorsione guida una modellazione reciproca - emerge naturalmente in questo contesto: l'adattamento contestuale rende gli agenti vulnerabili all'estorsione, e la conseguente pressione reciproca a modellare le dinamiche di apprendimento contestuale dell'avversario si risolve nell'apprendimento di comportamenti cooperativi. I nostri risultati suggeriscono che l'apprendimento per rinforzo decentralizzato standard sui modelli sequenziali, combinato con la diversità dei co-partecipanti, fornisce un percorso scalabile per l'apprendimento di comportamenti cooperativi.

MAEB: Benchmark Massiccio per l'Embedding Audio
MAEB: Massive Audio Embedding Benchmark

Feb 17

ByAdnan El Assadi, Isaac Chung, Chenghao Xiao, Roman Solomatin, Animesh Jha, Rahul Chand, Silky Singh, Kaitlyn Wang, Ali Sartaz Khan, Marc Moussa Nasser, Sufen Fong, Pengfei He, Alan Xiao, Ayush Sunil Munot, Aditya Shrivastava, Artem Gazizov, Niklas Muennighoff, Kenneth Enevoldsen

Introduciamo il Massive Audio Embedding Benchmark (MAEB), un benchmark su larga scala che copre 30 task nell'ambito di parlato, musica, suoni ambientali e ragionamento audio-testo cross-modale in oltre 100 lingue. Valutiamo oltre 50 modelli e riscontriamo che nessun singolo modello domina in tutti i task: i modelli contrastivi audio-testo eccellono nella classificazione dei suoni ambientali (ad es. ESC50) ma ottengono punteggi quasi casuali sui task di parlato multilingue (ad es. SIB-FLEURS), mentre i modelli pre-addestrati sul parlato mostrano il pattern opposto. Il clustering rimane impegnativo per tutti i modelli, con risultati solo modesti anche per il modello dalle prestazioni migliori. Osserviamo che i modelli che eccellono nella comprensione acustica spesso performano male sui task linguistici, e viceversa. Dimostriamo inoltre che le prestazioni degli encoder audio su MAEB correlano fortemente con le loro prestazioni quando utilizzati in modelli linguistici di grandi dimensioni per l'audio. MAEB è derivato da MAEB+, una raccolta di 98 task. MAEB è progettato per mantenere la diversità dei task riducendo al contempo i costi di valutazione, e si integra nell'ecosistema MTEB per una valutazione unificata tra le modalità testo, immagine e audio. Rilasciamo MAEB e tutti i 98 task insieme al codice e a una leaderboard all'indirizzo https://github.com/embeddings-benchmark/mteb.

Scaffali Vuoti o Chiavi Smarrite? Il Richiamo è il Collo di Bottiglia per la Fattualità Parametrica
Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality

Feb 15

ByNitay Calderon, Eyal Ben-David, Zorik Gekhman, Eran Ofek, Gal Yona

Le valutazioni standard di fattualità degli LLM trattano tutti gli errori allo stesso modo, oscurando se i fallimenti derivino da conoscenze mancanti (scaffali vuoti) o da accesso limitato a fatti codificati (chiavi smarrite). Proponiamo un framework comportamentale che analizza la conoscenza fattuale a livello di fatti piuttosto che di domande, caratterizzando ogni fatto in base alla sua codifica e alla sua accessibilità: non richiamabile, richiamabile direttamente, o richiamabile solo con calcolo al momento dell'inferenza (ragionamento). Per supportare questa profilazione, introduciamo WikiProfile, un nuovo benchmark costruito tramite una pipeline automatizzata con un LLM promptato ancorato alla ricerca web. Analizzando 4 milioni di risposte da 13 LLM, riscontriamo che la codifica è quasi saturata nei modelli all'avanguardia sul nostro benchmark, con GPT-5 e Gemini-3 che codificano il 95-98% dei fatti. Tuttavia, il richiamo rimane un collo di bottiglia principale: molti errori precedentemente attribuiti a conoscenze mancanti derivano invece da fallimenti nell'accesso a tali conoscenze. Questi fallimenti sono sistematici e colpiscono in modo sproporzionato i fatti di coda lunga e le domande inverse. Infine, dimostriamo che il ragionamento migliora il richiamo e può recuperare una frazione sostanziale dei fallimenti, indicando che i futuri progressi potrebbero dipendere meno dal scaling e più da metodi che migliorano come i modelli utilizzano ciò che già codificano.

Verso una Scienza dell'Affidabilità degli Agenti di IA
Towards a Science of AI Agent Reliability

Feb 18

ByStephan Rabanser, Sayash Kapoor, Peter Kirgis, Kangheng Liu, Saiteja Utpala, Arvind Narayanan

Gli agenti IA vengono sempre più impiegati per eseguire compiti importanti. Sebbene i punteggi di accuratezza in aumento sui benchmark standard suggeriscano progressi rapidi, molti agenti continuano a fallire nella pratica. Questa discrepanza evidenzia una limitazione fondamentale delle valutazioni attuali: comprimere il comportamento dell'agente in una singola metrica di successo oscura difetti operativi critici. In particolare, ignora se gli agenti si comportano in modo coerente tra diverse esecuzioni, resistono a perturbazioni, falliscono in modo prevedibile o hanno una gravità dell'errore limitata. Basandoci sull'ingegneria dei sistemi safety-critical, forniamo un profilo di prestazione olistico proponendo dodici metriche concrete che scompongono l'affidabilità dell'agente lungo quattro dimensioni chiave: coerenza, robustezza, prevedibilità e sicurezza. Valutando 14 modelli agenti attraverso due benchmark complementari, scopriamo che i recenti guadagni nelle capacità hanno prodotto solo piccoli miglioramenti nell'affidabilità. Mettendo in luce queste limitazioni persistenti, le nostre metriche integrano le valutazioni tradizionali offrendo al contempo strumenti per ragionare su come gli agenti funzionano, si degradano e falliscono.

I modelli di azione mondiale sono politiche zero-shot.
World Action Models are Zero-shot Policies

Feb 17

BySeonghyeon Ye, Yunhao Ge, Kaiyuan Zheng, Shenyuan Gao, Sihyun Yu, George Kurian, Suneel Indupuru, You Liang Tan, Chuning Zhu, Jiannan Xiang, Ayaan Malik, Kyungmin Lee, William Liang, Nadun Ranawaka, Jiasheng Gu, Yinzhen Xu, Guanzhi Wang, Fengyuan Hu, Avnish Narayan, Johan Bjorck, Jing Wang, Gwanghyun Kim, Dantong Niu, Ruijie Zheng, Yuqi Xie, Jimmy Wu, Qi Wang, Ryan Julian, Danfei Xu, Yilun Du, Yevgen Chebotar, Scott Reed, Jan Kautz, Yuke Zhu, Linxi "Jim" Fan, Joel Jang

I modelli Vision-Language-Action (VLA) all'avanguardia eccellono nella generalizzazione semantica ma faticano a generalizzare verso movimenti fisici non visti in ambienti nuovi. Introduciamo DreamZero, un World Action Model (WAM) costruito su un'architettura base di diffusione video pre-addestrata. A differenza dei VLA, i WAM apprendono le dinamiche fisiche prevedendo gli stati futuri del mondo e le azioni, utilizzando il video come rappresentazione densa di come il mondo evolve. Modellando congiuntamente video e azioni, DreamZero apprende efficacemente abilità diverse da dati robotici eterogenei senza fare affidamento su dimostrazioni ripetitive. Ciò si traduce in un miglioramento di oltre 2 volte nella generalizzazione verso nuovi compiti e ambienti rispetto ai VLA all'avanguardia in esperimenti con robot reali. Fondamentalmente, grazie a ottimizzazioni del modello e del sistema, permettiamo a un modello autoregressivo di diffusione video da 14B di eseguire un controllo in closed-loop in tempo reale a 7Hz. Infine, dimostriamo due forme di trasferimento cross-embodiment: dimostrazioni basate solo su video provenienti da altri robot o esseri umani producono un miglioramento relativo di oltre il 42% sulle prestazioni in compiti non visti con soli 10-20 minuti di dati. Ancora più sorprendentemente, DreamZero permette un adattamento dell'embodiment few-shot, trasferendosi a un nuovo embodiment con soli 30 minuti di dati di gioco pur mantenendo la generalizzazione zero-shot.

Pesi Rapidi Rinforzati con Predizione della Sequenza Successiva
Reinforced Fast Weights with Next-Sequence Prediction

Feb 18

ByHee Seung Hwang, Xindi Wu, Sanghyuk Chun, Olga Russakovsky

Le architetture a pesi rapidi offrono un'alternativa promettente ai transformer basati su meccanismi di attenzione per la modellazione di contesti lunghi, mantenendo un overhead di memoria costante indipendentemente dalla lunghezza del contesto. Tuttavia, il loro potenziale è limitato dal paradigma di addestramento per predizione del token successivo (NTP). L'NTP ottimizza le predizioni di singoli token e ignora la coerenza semantica attraverso più token che seguono un prefisso. Di conseguenza, i modelli a pesi rapidi, che aggiornano dinamicamente i loro parametri per memorizzare informazioni contestuali, apprendono rappresentazioni subottimali che non riescono a catturare dipendenze a lungo raggio. Introduciamo REFINE (Reinforced Fast weIghts with Next sEquence prediction), un framework di apprendimento per rinforzo che addestra modelli a pesi rapidi con l'obiettivo di predizione della sequenza successiva (NSP). REFINE seleziona posizioni di token informative basandosi sull'entropia di predizione, genera rollout multi-token, assegna ricompense auto-supervisionate a livello di sequenza e ottimizza il modello con l'ottimizzazione delle politiche relative di gruppo (GRPO). REFINE è applicabile durante l'intero ciclo di vita dell'addestramento di modelli linguistici pre-addestrati: a metà addestramento, post-addestramento e durante l'addestramento al momento del test. I nostri esperimenti su LaCT-760M e DeltaNet-1.3B dimostrano che REFINE supera costantemente la messa a punto supervisionata con NTP in compiti di recupero "ago in un pagliaio", question answering su contesti lunghi e vari compiti in LongBench. REFINE fornisce un framework efficace e versatile per migliorare la modellazione di contesti lunghi nelle architetture a pesi rapidi.

SAM 3D Body: Ricostruzione Robusta del Mesh Corporeo Umano Completo
SAM 3D Body: Robust Full-Body Human Mesh Recovery

Feb 17

ByXitong Yang, Devansh Kukreja, Don Pinkus, Anushka Sagar, Taosha Fan, Jinhyung Park, Soyong Shin, Jinkun Cao, Jiawei Liu, Nicolas Ugrinovic, Matt Feiszli, Jitendra Malik, Piotr Dollar, Kris Kitani

Presentiamo SAM 3D Body (3DB), un modello "promptable" per la ricostruzione 3D del mesh corporeo umano completo a partire da una singola immagine (HMR), che dimostra prestazioni all'avanguardia, con una forte generalizzazione e un'accuratezza consistente in diverse condizioni del mondo reale. 3DB stima la postura del corpo, dei piedi e delle mani. È il primo modello a utilizzare una nuova rappresentazione parametrica del mesh, Momentum Human Rig (MHR), che disaccoppia la struttura scheletrica dalla forma della superficie. 3DB impiega un'architettura encoder-decoder e supporta prompt ausiliari, inclusi keypoint 2D e maschere, consentendo un'inferenza guidata dall'utente simile alla famiglia di modelli SAM. Deriviamo annotazioni di alta qualità da una pipeline di annotazione multi-stadio che utilizza varie combinazioni di annotazione manuale di keypoint, ottimizzazione differenziabile, geometria multi-vista e rilevamento di keypoint densi. Il nostro "data engine" seleziona ed elabora i dati in modo efficiente per garantire la diversità dei dati, raccogliendo pose insolite e condizioni di acquisizione rare. Presentiamo un nuovo dataset di valutazione organizzato per categorie di pose e aspetto, che consente un'analisi sfumata del comportamento del modello. I nostri esperimenti dimostrano una generalizzazione superiore e miglioramenti sostanziali rispetto ai metodi precedenti, sia negli studi qualitativi di preferenza utente che nelle tradizionali analisi quantitative. Sia 3DB che MHR sono open-source.

Ottimizzazione della Generazione in Pochi Passi con Distillazione Adattiva per il Matching
Optimizing Few-Step Generation with Adaptive Matching Distillation

Feb 7

ByLichen Bai, Zikai Zhou, Shitong Shao, Wenliang Zhong, Shuo Yang, Shuo Chen, Bojun Chen, Zeke Xie

La Distillazione per Adattamento della Distribuzione (DMD) è un potente paradigma di accelerazione, ma la sua stabilità è spesso compromessa nelle Zone Proibite, regioni in cui il teacher reale fornisce una guida inaffidabile mentre il teacher fittizio esercita una forza repulsiva insufficiente. In questo lavoro, proponiamo un framework di ottimizzazione unificato che reinterpreta le tecniche precedenti come strategie implicite per evitare queste regioni corrotte. Sulla base di questa intuizione, introduciamo la Distillazione per Adattamento Adattivo (AMD), un meccanismo di autocorrezione che utilizza proxy di ricompensa per rilevare ed evadere esplicitamente le Zone Proibite. AMD priorizza dinamicamente i gradienti correttivi tramite la scomposizione del segnale strutturale e introduce l'Affilatura del Paesaggio Repulsivo per imporre ripide barriere energetiche contro il collasso nelle modalità di fallimento. Esperimenti estesi su compiti di generazione di immagini e video (ad es., SDXL, Wan2.1) e benchmark rigorosi (ad es., VBench, GenEval) dimostrano che AMD migliora significativamente la fedeltà del campione e la robustezza dell'addestramento. Ad esempio, AMD migliora il punteggio HPSv2 su SDXL da 30.64 a 31.25, superando i baseline all'avanguardia. Questi risultati convalidano che rettificare esplicitamente le traiettorie di ottimizzazione all'interno delle Zone Proibite è essenziale per spingere al massimo le prestazioni dei modelli generativi con pochi passi.

Apprendimento di Agenti Personalizzati dal Feedback Umano
Learning Personalized Agents from Human Feedback

Feb 18

ByKaiqu Liang, Julia Kruk, Shengyi Qian, Xianjun Yang, Shengjie Bi, Yuanshun Yao, Shaoliang Nie, Mingyang Zhang, Lijuan Liu, Jaime Fernández Fisac, Shuyan Zhou, Saghar Hosseini

Gli agenti di intelligenza artificiale moderni sono potenti ma spesso non riescono ad allinearsi alle preferenze idiosincratiche ed evolutive dei singoli utenti. Gli approcci precedenti si basano tipicamente su dataset statici, addestrando modelli di preferenza implicita sulla cronologia delle interazioni o codificando profili utente in memorie esterne. Tuttavia, questi approcci faticano con nuovi utenti e con preferenze che cambiano nel tempo. Introduciamo Agenti Personalizzati dal Feedback Umano (PAHF), un framework per la personalizzazione continua in cui gli agenti apprendono online dalle interazioni in tempo reale utilizzando una memoria esplicita per utente. PAHF opera attraverso un ciclo in tre fasi: (1) ricerca di chiarimenti pre-azione per risolvere ambiguità, (2) ancoraggio delle azioni alle preferenze recuperate dalla memoria, e (3) integrazione del feedback post-azione per aggiornare la memoria quando le preferenze cambiano. Per valutare questa capacità, sviluppiamo un protocollo in quattro fasi e due benchmark nell'ambito della manipolazione embodied e dello shopping online. Questi benchmark quantificano la capacità di un agente di apprendere preferenze iniziali da zero e di adattarsi successivamente a cambiamenti della persona. La nostra analisi teorica e i risultati empirici mostrano che l'integrazione di una memoria esplicita con canali di feedback duali è cruciale: PAHF apprende in modo sostanzialmente più rapido e supera costantemente sia i baseline senza memoria che quelli a canale singolo, riducendo l'errore di personalizzazione iniziale e consentendo un rapido adattamento ai cambiamenti delle preferenze.

MMA: Agente di Memoria Multimodale
MMA: Multimodal Memory Agent

Feb 18

ByYihao Lu, Wanru Cheng, Zeyu Zhang, Hao Tang

Gli agenti multimodali a lungo termine dipendono da memorie esterne; tuttavia, il recupero basato sulla similarità spesso riporta elementi obsoleti, a bassa credibilità o in conflitto, che possono innescare errori dovuti a eccessiva sicurezza. Proponiamo Multimodal Memory Agent (MMA), che assegna a ciascun elemento di memoria recuperato un punteggio di affidabilità dinamico combinando la credibilità della fonte, il decadimento temporale e un consenso di rete consapevole dei conflitti, utilizzando questo segnale per ripesare le evidenze e astenersi quando il supporto è insufficiente. Introduciamo anche MMA-Bench, un benchmark generato programmaticamente per le dinamiche di credibilità con affidabilità controllata del parlante e contraddizioni strutturate testo-immagine. Utilizzando questo framework, scopriamo l'"Effetto Placebo Visivo", rivelando come gli agenti basati su RAG ereditino pregiudizi visivi latenti dai modelli di base. Su FEVER, MMA eguaglia l'accuratezza baseline riducendo la varianza del 35,2% e migliorando l'utilità selettiva; su LoCoMo, una configurazione orientata alla sicurezza migliora l'accuratezza azionabile e riduce le risposte errate; su MMA-Bench, MMA raggiunge il 41,18% di accuratezza di Tipo-B in modalità Visione, mentre il baseline collassa allo 0,0% con lo stesso protocollo. Codice: https://github.com/AIGeeksGroup/MMA.

Efficient Text-Guided Convolutional Adapter for the Diffusion Model

Feb 16

ByAryan Das, Koushik Biswas, Swalpa Kumar Roy, Badri Narayana Patro, Vinay Kumar Verma

We introduce the Nexus Adapters, novel text-guided efficient adapters to the diffusion-based framework for the Structure Preserving Conditional Generation (SPCG). Recently, structure-preserving methods have achieved promising results in conditional image generation by using a base model for prompt conditioning and an adapter for structure input, such as sketches or depth maps. These approaches are highly inefficient and sometimes require equal parameters in the adapter compared to the base architecture. It is not always possible to train the model since the diffusion model is itself costly, and doubling the parameter is highly inefficient. In these approaches, the adapter is not aware of the input prompt; therefore, it is optimal only for the structural input but not for the input prompt. To overcome the above challenges, we proposed two efficient adapters, Nexus Prime and Slim, which are guided by prompts and structural inputs. Each Nexus Block incorporates cross-attention mechanisms to enable rich multimodal conditioning. Therefore, the proposed adapter has a better understanding of the input prompt while preserving the structure. We conducted extensive experiments on the proposed models and demonstrated that the Nexus Prime adapter significantly enhances performance, requiring only 8M additional parameters compared to the baseline, T2I-Adapter. Furthermore, we also introduced a lightweight Nexus Slim adapter with 18M fewer parameters than the T2I-Adapter, which still achieved state-of-the-art results. Code: https://github.com/arya-domain/Nexus-Adapters

Apprendimento della Consapevolezza Situata nel Mondo Reale
Learning Situated Awareness in the Real World

Feb 18

ByChuhan Li, Ruilin Han, Joy Hsu, Yongyuan Liang, Rajiv Dhawan, Jiajun Wu, Ming-Hsuan Yang, Xin Eric Wang

Un aspetto fondamentale della percezione umana è la consapevolezza situata, ovvero la capacità di relazionarci con l'ambiente fisico circostante e di ragionare sulle possibili azioni nel contesto. Tuttavia, la maggior parte dei benchmark esistenti per i modelli fondazionali multimodali (MFM) enfatizza le relazioni spaziali centrate sull'ambiente (relazioni tra oggetti in una scena), trascurando in gran parte le relazioni centrate sull'osservatore, che richiedono un ragionamento relativo al punto di vista, alla posa e al movimento dell'agente. Per colmare questa lacuna, introduciamo SAW-Bench (Situated Awareness in the Real World), un nuovo benchmark per valutare la consapevolezza situata egocentrica utilizzando video del mondo reale. SAW-Bench comprende 786 video auto-registrati catturati con gli occhiali intelligenti Ray-Ban Meta (Gen 2), che abbracciano ambienti indoor e outdoor diversificati, e oltre 2.071 coppie domanda-risposta annotate manualmente. Esso indaga la comprensione centrata sull'osservatore di un modello attraverso sei diverse attività di consapevolezza. La nostra valutazione completa rivale un divario di performance uomo-modello del 37,66%, anche con il miglior MFM, Gemini 3 Flash. Oltre a questo divario, la nostra analisi approfondita rivela diversi risultati notevoli; ad esempio, sebbene i modelli siano in grado di sfruttare parziali indizi geometrici nei video egocentrici, spesso non riescono a inferire una geometria della camera coerente, portando a errori sistematici di ragionamento spaziale. Posizioniamo SAW-Bench come un benchmark per l'intelligenza spaziale situata, spostandoci oltre l'osservazione passiva verso la comprensione di dinamiche fisicamente fondate e centrate sull'osservatore.

Uncertainty-Aware Vision-Language Segmentation for Medical Imaging

Feb 16

ByAryan Das, Tanishq Rachamalla, Koushik Biswas, Swalpa Kumar Roy, Vinay Kumar Verma

We introduce a novel uncertainty-aware multimodal segmentation framework that leverages both radiological images and associated clinical text for precise medical diagnosis. We propose a Modality Decoding Attention Block (MoDAB) with a lightweight State Space Mixer (SSMix) to enable efficient cross-modal fusion and long-range dependency modelling. To guide learning under ambiguity, we propose the Spectral-Entropic Uncertainty (SEU) Loss, which jointly captures spatial overlap, spectral consistency, and predictive uncertainty in a unified objective. In complex clinical circumstances with poor image quality, this formulation improves model reliability. Extensive experiments on various publicly available medical datasets, QATA-COVID19, MosMed++, and Kvasir-SEG, demonstrate that our method achieves superior segmentation performance while being significantly more computationally efficient than existing State-of-the-Art (SoTA) approaches. Our results highlight the importance of incorporating uncertainty modelling and structured modality alignment in vision-language medical segmentation tasks. Code: https://github.com/arya-domain/UA-VLS

BiManiBench: un benchmark gerarchico per la valutazione della coordinazione bimanuale nei modelli linguistici multimodali di grandi dimensioni
BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models

Feb 9

ByXin Wu, Zhixuan Liang, Yue Ma, Mengkang Hu, Zhiyuan Qin, Xiu Li

I Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) hanno fatto progredire significativamente l'IA incarnata, e il loro utilizzo per valutare l'intelligenza robotica è diventato una tendenza fondamentale. Tuttavia, i framework esistenti rimangono prevalentemente confinati alla manipolazione a braccio singolo, non riuscendo a cogliere la coordinazione spazio-temporale richiesta per compiti bimanuali come sollevare una pentola pesante. Per affrontare questo problema, introduciamo BiManiBench, un benchmark gerarchico che valuta gli MLLM su tre livelli: ragionamento spaziale fondamentale, pianificazione d'azione di alto livello e controllo di basso livello degli effettori terminali. Il nostro framework isola le sfide uniche del controllo bimanuale, come la raggiungibilità del braccio e i vincoli cinematici, distinguendo così le allucinazioni percettive dai fallimenti di pianificazione. L'analisi di oltre 30 modelli all'avanguardia rivela che, nonostante la competenza nel ragionamento di alto livello, gli MLLM faticano con l'ancoraggio spaziale e il controllo del doppio braccio, risultando frequentemente in interferenze reciproche ed errori di sequenziamento. Questi risultati suggeriscono che l'attuale paradigma manchi di una comprensione profonda dei vincoli cinematici reciproci, evidenziando la necessità per la ricerca futura di concentrarsi sull'evitamento delle collisioni tra bracci e sul sequenziamento temporale granulare.

Attacchi di Iniezione nella Memoria Visiva per Conversazioni a Turni Multipli
Visual Memory Injection Attacks for Multi-Turn Conversations

Feb 17

ByChristian Schlarmann, Matthias Hein

I modelli generativi linguistico-visivi di grandi dimensioni (LVLM) hanno recentemente conseguito progressi prestazionali impressionanti e il loro bacino di utenti sta crescendo rapidamente. Tuttavia, la sicurezza degli LVLM, in particolare in contesti multi-turno a lungo contesto, rimane ampiamente inesplorata. In questo articolo, consideriamo lo scenario realistico in cui un attaccante carica un'immagine manipolata sul web o sui social media. Un utente benigno scarica questa immagine e la utilizza come input per l'LVLM. Il nostro innovativo attacco stealth di Iniezione della Memoria Visiva (VMI) è progettato in modo che, su prompt normali, l'LVLM mostri un comportamento nominale, ma una volta che l'utente fornisce un prompt scatenante, l'LVLM restituisca un specifico messaggio target predeterminato per manipolare l'utente, ad esempio per marketing avversariale o persuasione politica. Risposto a lavori precedenti focalizzati su attacchi a turno singolo, il VMI risulta efficace anche dopo una lunga conversazione multi-turno con l'utente. Dimostriamo il nostro attacco su diversi recenti LVLM open-weight. Questo articolo mostra pertanto che la manipolazione su larga scala degli utenti è fattibile mediante immagini perturbate in contesti di conversazione multi-turno, sollecitando una maggiore robustezza degli LVLM contro questi attacchi. Rilasciamo il codice sorgente all'indirizzo https://github.com/chs20/visual-memory-injection.

OPBench: A Graph Benchmark to Combat the Opioid Crisis

Feb 16

ByTianyi Ma, Yiyang Li, Yiyue Qian, Zheyuan Zhang, Zehong Wang, Chuxu Zhang, Yanfang Ye

The opioid epidemic continues to ravage communities worldwide, straining healthcare systems, disrupting families, and demanding urgent computational solutions. To combat this lethal opioid crisis, graph learning methods have emerged as a promising paradigm for modeling complex drug-related phenomena. However, a significant gap remains: there is no comprehensive benchmark for systematically evaluating these methods across real-world opioid crisis scenarios. To bridge this gap, we introduce OPBench, the first comprehensive opioid benchmark comprising five datasets across three critical application domains: opioid overdose detection from healthcare claims, illicit drug trafficking detection from digital platforms, and drug misuse prediction from dietary patterns. Specifically, OPBench incorporates diverse graph structures, including heterogeneous graphs and hypergraphs, to preserve the rich and complex relational information among drug-related data. To address data scarcity, we collaborate with domain experts and authoritative institutions to curate and annotate datasets while adhering to privacy and ethical guidelines. Furthermore, we establish a unified evaluation framework with standardized protocols, predefined data splits, and reproducible baselines to facilitate fair and systematic comparison among graph learning methods. Through extensive experiments, we analyze the strengths and limitations of existing graph learning methods, thereby providing actionable insights for future research in combating the opioid crisis. Our source code and datasets are available at https://github.com/Tianyi-Billy-Ma/OPBench.

Apprendimento del controllo dell'end-effector umanoide per la loco-manipolazione visiva a vocabolario aperto
Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

Feb 18

ByRunpei Dong, Ziyan Li, Xialin He, Saurabh Gupta