Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'Attenzione Sparsa-Lineare (SLA) combina l'attenzione sparsa e lineare per accelerare i modelli di diffusione e ha dimostrato prestazioni solide nella generazione video. Tuttavia, (i) la SLA si basa su una divisione euristica che assegna i calcoli al ramo sparso o lineare in base all'ampiezza dei pesi di attenzione, il che può essere subottimale. Inoltre, (ii) dopo aver analizzato formalmente l'errore di attenzione nella SLA, identifichiamo una discrepanza tra la SLA e una scomposizione diretta in attenzione sparsa e lineare. Proponiamo SLA2, che introduce (I) un router apprendibile che seleziona dinamicamente se ogni calcolo di attenzione debba utilizzare l'attenzione sparsa o lineare, (II) una formulazione di attenzione sparsa-lineare più fedele e diretta che utilizza un rapporto apprendibile per combinare i rami di attenzione sparsa e lineare, e (III) un design di attenzione sparsa + a basso bit, dove l'attenzione a basso bit viene introdotta tramite fine-tuning quantizzazione-consapevole per ridurre l'errore di quantizzazione. Gli esperimenti mostrano che, su modelli di diffusione video, SLA2 può raggiungere il 97% di sparsità dell'attenzione e fornire una velocizzazione dell'attenzione di 18.6x preservando la qualità della generazione.
The performance of autonomous Web GUI agents heavily relies on the quality and quantity of their training data. However, a fundamental bottleneck persists: collecting interaction trajectories from real-world websites is expensive and difficult to verify. The underlying state transitions are hidden, leading to reliance on inconsistent and costly external verifiers to evaluate step-level correctness. To address this, we propose AutoWebWorld, a novel framework for synthesizing controllable and verifiable web environments by modeling them as Finite State Machines (FSMs) and use coding agents to translate FSMs into interactive websites. Unlike real websites, where state transitions are implicit, AutoWebWorld explicitly defines all states, actions, and transition rules. This enables programmatic verification: action correctness is checked against predefined rules, and task success is confirmed by reaching a goal state in the FSM graph. AutoWebWorld enables a fully automated search-and-verify pipeline, generating over 11,663 verified trajectories from 29 diverse web environments at only $0.04 per trajectory. Training on this synthetic data significantly boosts real-world performance. Our 7B Web GUI agent outperforms all baselines within 15 steps on WebVoyager. Furthermore, we observe a clear scaling law: as the synthetic data volume increases, performance on WebVoyager and Online-Mind2Web consistently improves.
Nonostante i rapidi progressi nei modelli fondazionali multimodali, la comunità dell'intelligenza incarnata manca ancora di un modello fondazionale unificato e fisicamente ancorato che integri percezione, ragionamento e pianificazione all'interno delle dinamiche spazio-temporali del mondo reale. Presentiamo RynnBrain, un modello fondazionale spazio-temporale open-source per l'intelligenza incarnata. RynnBrain potenzia quattro capacità fondamentali in un quadro unificato: comprensione egocentrica completa, localizzazione spazio-temporale diversificata, ragionamento fisicamente fondato e pianificazione consapevole della fisica. La famiglia RynnBrain comprende tre dimensioni di modelli fondazionali (2B, 8B e 30B-A3B MoE) e quattro varianti post-addestrate ottimizzate per task incarnati a valle (ovvero, RynnBrain-Nav, RynnBrain-Plan e RynnBrain-VLA) o per compiti complessi di ragionamento spaziale (ovvero, RynnBrain-CoP). Sulla base di valutazioni estensive su 20 benchmark per l'intelligenza incarnata e 8 benchmark generali per la comprensione visiva, i nostri modelli fondazionali RynnBrain superano ampiamente i modelli fondazionali incarnati esistenti con un margine significativo. La suite di modelli post-addestrati conferma ulteriormente due potenzialità chiave del modello fondazionale RynnBrain: (i) abilitare ragionamento e pianificazione fisicamente fondati, e (ii) fungere da solida backbone pre-addestrata che può essere efficientemente adattata a svariati task incarnati.
La progettazione assistita da computer (CAD) fornisce una modellazione rapida e modificabile per l'ingegneria e la produzione. I recenti progressi nell'IA rendono ora fattibile la piena automazione per varie attività CAD. Tuttavia, il progresso è limitato dai dati: i corpora pubblici contengono per lo più sequenze di schizzo-estrusione, mancano di operazioni complesse, composizione multi-operazione e intento progettuale, ostacolando così un fine-tuning efficace. I tentativi di aggirare questo problema con modelli linguistici visivi (VLM) congelati spesso producono programmi semplici o non validi a causa della limitata comprensione 3D nei modelli foundation attuali. Presentiamo CADEvolve, una pipeline e un dataset basati sull'evoluzione che partono da primitive semplici e, attraverso modifiche e validazioni guidate da VLM, fanno crescere incrementalmente i programmi CAD verso una complessità di livello industriale. Il risultato sono 8k parti complesse espresse come generatori parametrici eseguibili in CadQuery. Dopo una post-elaborazione e un'arricchimento multi-fase, otteniamo un dataset unificato di 1.3 milioni di script abbinati a geometrie renderizzate che esercitano l'intero set di operazioni di CadQuery. Un VLM sottoposto a fine-tuning su CADEvolve ottiene risultati all'avanguardia nel compito Image2CAD attraverso i benchmark DeepCAD, Fusion 360 e MCB.
La loco-manipolazione visiva di oggetti arbitrari in ambienti non controllati con robot umanoidi richiede un controllo accurato dell'end-effector (EE) e una comprensione generalizzabile della scena tramite input visivi (ad esempio, immagini RGB-D). Gli approcci esistenti si basano sull'apprendimento per imitazione nel mondo reale e mostrano una generalizzazione limitata a causa della difficoltà nella raccolta di dataset di addestramento su larga scala. Questo articolo presenta un nuovo paradigma, HERO, per la loco-manipolazione di oggetti con robot umanoidi che combina la forte capacità di generalizzazione e la comprensione open-vocabulary di grandi modelli visivi con le prestazioni di controllo robuste derivanti dall'addestramento in simulazione. Raggiungiamo questo obiettivo progettando una politica di tracking dell'EE accurata e consapevole dei residui. Questa politica di tracking dell'EE combina la robotica classica con l'apprendimento automatico. Utilizza a) la cinematica inversa per convertire i target residui dell'end-effector in traiettorie di riferimento, b) un modello diretto neurale appreso per una cinematica diretta accurata, c) una regolazione degli obiettivi e d) una ripianificazione. Insieme, queste innovazioni ci aiutano a ridurre l'errore di tracking dell'end-effector di 3,2 volte. Utilizziamo questo tracker accurato dell'end-effector per costruire un sistema modulare per la loco-manipolazione, in cui impieghiamo grandi modelli visivi open-vocabulary per una forte generalizzazione visiva. Il nostro sistema è in grado di operare in vari ambienti del mondo reale, dagli uffici alle caffetterie, dove il robot riesce a manipolare in modo affidabile vari oggetti di uso quotidiano (ad esempio, tazze, mele, giocattoli) su superfici con altezze comprese tra 43 cm e 92 cm. Test sistematici modulari ed end-to-end in simulazione e nel mondo reale dimostrano l'efficacia della nostra proposta progettuale. Riteniamo che i progressi presentati in questo articolo possano aprire nuove strade per addestrare robot umanoidi a interagire con oggetti quotidiani.
Il raggiungimento della cooperazione tra agenti autointeressati rimane una sfida fondamentale nell'apprendimento per rinforzo multi-agente. Ricerche recenti hanno dimostrato che una cooperazione reciproca può essere indotta tra agenti "consapevoli dell'apprendimento" che tengono conto e modellano le dinamiche di apprendimento dei loro co-partecipanti. Tuttavia, gli approcci esistenti si basano tipicamente su assunzioni predefinite, spesso inconsistenti, riguardanti le regole di apprendimento dei co-partecipanti, oppure impongono una rigida separazione tra "apprendisti ingenui" che si aggiornano su scale temporali veloci e "meta-apprendisti" che osservano questi aggiornamenti. Qui dimostriamo che le capacità di apprendimento contestuale dei modelli sequenziali permettono la consapevolezza dell'apprendimento del co-partecipante senza richiedere assunzioni predefinite o una separazione esplicita delle scale temporali. Mostriamo che l'addestramento di agenti basati su modelli sequenziali contro una distribuzione diversificata di co-partecipanti induce naturalmente strategie di miglior risposta contestuale, funzionando efficacemente come algoritmi di apprendimento sulla scala temporale veloce intra-episodio. Rileviamo che il meccanismo cooperativo identificato in lavori precedenti - in cui la vulnerabilità all'estorsione guida una modellazione reciproca - emerge naturalmente in questo contesto: l'adattamento contestuale rende gli agenti vulnerabili all'estorsione, e la conseguente pressione reciproca a modellare le dinamiche di apprendimento contestuale dell'avversario si risolve nell'apprendimento di comportamenti cooperativi. I nostri risultati suggeriscono che l'apprendimento per rinforzo decentralizzato standard sui modelli sequenziali, combinato con la diversità dei co-partecipanti, fornisce un percorso scalabile per l'apprendimento di comportamenti cooperativi.
Introduciamo il Massive Audio Embedding Benchmark (MAEB), un benchmark su larga scala che copre 30 task nell'ambito di parlato, musica, suoni ambientali e ragionamento audio-testo cross-modale in oltre 100 lingue. Valutiamo oltre 50 modelli e riscontriamo che nessun singolo modello domina in tutti i task: i modelli contrastivi audio-testo eccellono nella classificazione dei suoni ambientali (ad es. ESC50) ma ottengono punteggi quasi casuali sui task di parlato multilingue (ad es. SIB-FLEURS), mentre i modelli pre-addestrati sul parlato mostrano il pattern opposto. Il clustering rimane impegnativo per tutti i modelli, con risultati solo modesti anche per il modello dalle prestazioni migliori. Osserviamo che i modelli che eccellono nella comprensione acustica spesso performano male sui task linguistici, e viceversa. Dimostriamo inoltre che le prestazioni degli encoder audio su MAEB correlano fortemente con le loro prestazioni quando utilizzati in modelli linguistici di grandi dimensioni per l'audio. MAEB è derivato da MAEB+, una raccolta di 98 task. MAEB è progettato per mantenere la diversità dei task riducendo al contempo i costi di valutazione, e si integra nell'ecosistema MTEB per una valutazione unificata tra le modalità testo, immagine e audio. Rilasciamo MAEB e tutti i 98 task insieme al codice e a una leaderboard all'indirizzo https://github.com/embeddings-benchmark/mteb.
Le valutazioni standard di fattualità degli LLM trattano tutti gli errori allo stesso modo, oscurando se i fallimenti derivino da conoscenze mancanti (scaffali vuoti) o da accesso limitato a fatti codificati (chiavi smarrite). Proponiamo un framework comportamentale che analizza la conoscenza fattuale a livello di fatti piuttosto che di domande, caratterizzando ogni fatto in base alla sua codifica e alla sua accessibilità: non richiamabile, richiamabile direttamente, o richiamabile solo con calcolo al momento dell'inferenza (ragionamento). Per supportare questa profilazione, introduciamo WikiProfile, un nuovo benchmark costruito tramite una pipeline automatizzata con un LLM promptato ancorato alla ricerca web. Analizzando 4 milioni di risposte da 13 LLM, riscontriamo che la codifica è quasi saturata nei modelli all'avanguardia sul nostro benchmark, con GPT-5 e Gemini-3 che codificano il 95-98% dei fatti. Tuttavia, il richiamo rimane un collo di bottiglia principale: molti errori precedentemente attribuiti a conoscenze mancanti derivano invece da fallimenti nell'accesso a tali conoscenze. Questi fallimenti sono sistematici e colpiscono in modo sproporzionato i fatti di coda lunga e le domande inverse. Infine, dimostriamo che il ragionamento migliora il richiamo e può recuperare una frazione sostanziale dei fallimenti, indicando che i futuri progressi potrebbero dipendere meno dal scaling e più da metodi che migliorano come i modelli utilizzano ciò che già codificano.
Gli agenti IA vengono sempre più impiegati per eseguire compiti importanti. Sebbene i punteggi di accuratezza in aumento sui benchmark standard suggeriscano progressi rapidi, molti agenti continuano a fallire nella pratica. Questa discrepanza evidenzia una limitazione fondamentale delle valutazioni attuali: comprimere il comportamento dell'agente in una singola metrica di successo oscura difetti operativi critici. In particolare, ignora se gli agenti si comportano in modo coerente tra diverse esecuzioni, resistono a perturbazioni, falliscono in modo prevedibile o hanno una gravità dell'errore limitata. Basandoci sull'ingegneria dei sistemi safety-critical, forniamo un profilo di prestazione olistico proponendo dodici metriche concrete che scompongono l'affidabilità dell'agente lungo quattro dimensioni chiave: coerenza, robustezza, prevedibilità e sicurezza. Valutando 14 modelli agenti attraverso due benchmark complementari, scopriamo che i recenti guadagni nelle capacità hanno prodotto solo piccoli miglioramenti nell'affidabilità. Mettendo in luce queste limitazioni persistenti, le nostre metriche integrano le valutazioni tradizionali offrendo al contempo strumenti per ragionare su come gli agenti funzionano, si degradano e falliscono.
I modelli Vision-Language-Action (VLA) all'avanguardia eccellono nella generalizzazione semantica ma faticano a generalizzare verso movimenti fisici non visti in ambienti nuovi. Introduciamo DreamZero, un World Action Model (WAM) costruito su un'architettura base di diffusione video pre-addestrata. A differenza dei VLA, i WAM apprendono le dinamiche fisiche prevedendo gli stati futuri del mondo e le azioni, utilizzando il video come rappresentazione densa di come il mondo evolve. Modellando congiuntamente video e azioni, DreamZero apprende efficacemente abilità diverse da dati robotici eterogenei senza fare affidamento su dimostrazioni ripetitive. Ciò si traduce in un miglioramento di oltre 2 volte nella generalizzazione verso nuovi compiti e ambienti rispetto ai VLA all'avanguardia in esperimenti con robot reali. Fondamentalmente, grazie a ottimizzazioni del modello e del sistema, permettiamo a un modello autoregressivo di diffusione video da 14B di eseguire un controllo in closed-loop in tempo reale a 7Hz. Infine, dimostriamo due forme di trasferimento cross-embodiment: dimostrazioni basate solo su video provenienti da altri robot o esseri umani producono un miglioramento relativo di oltre il 42% sulle prestazioni in compiti non visti con soli 10-20 minuti di dati. Ancora più sorprendentemente, DreamZero permette un adattamento dell'embodiment few-shot, trasferendosi a un nuovo embodiment con soli 30 minuti di dati di gioco pur mantenendo la generalizzazione zero-shot.
Le architetture a pesi rapidi offrono un'alternativa promettente ai transformer basati su meccanismi di attenzione per la modellazione di contesti lunghi, mantenendo un overhead di memoria costante indipendentemente dalla lunghezza del contesto. Tuttavia, il loro potenziale è limitato dal paradigma di addestramento per predizione del token successivo (NTP). L'NTP ottimizza le predizioni di singoli token e ignora la coerenza semantica attraverso più token che seguono un prefisso. Di conseguenza, i modelli a pesi rapidi, che aggiornano dinamicamente i loro parametri per memorizzare informazioni contestuali, apprendono rappresentazioni subottimali che non riescono a catturare dipendenze a lungo raggio. Introduciamo REFINE (Reinforced Fast weIghts with Next sEquence prediction), un framework di apprendimento per rinforzo che addestra modelli a pesi rapidi con l'obiettivo di predizione della sequenza successiva (NSP). REFINE seleziona posizioni di token informative basandosi sull'entropia di predizione, genera rollout multi-token, assegna ricompense auto-supervisionate a livello di sequenza e ottimizza il modello con l'ottimizzazione delle politiche relative di gruppo (GRPO). REFINE è applicabile durante l'intero ciclo di vita dell'addestramento di modelli linguistici pre-addestrati: a metà addestramento, post-addestramento e durante l'addestramento al momento del test. I nostri esperimenti su LaCT-760M e DeltaNet-1.3B dimostrano che REFINE supera costantemente la messa a punto supervisionata con NTP in compiti di recupero "ago in un pagliaio", question answering su contesti lunghi e vari compiti in LongBench. REFINE fornisce un framework efficace e versatile per migliorare la modellazione di contesti lunghi nelle architetture a pesi rapidi.
Presentiamo SAM 3D Body (3DB), un modello "promptable" per la ricostruzione 3D del mesh corporeo umano completo a partire da una singola immagine (HMR), che dimostra prestazioni all'avanguardia, con una forte generalizzazione e un'accuratezza consistente in diverse condizioni del mondo reale. 3DB stima la postura del corpo, dei piedi e delle mani. È il primo modello a utilizzare una nuova rappresentazione parametrica del mesh, Momentum Human Rig (MHR), che disaccoppia la struttura scheletrica dalla forma della superficie. 3DB impiega un'architettura encoder-decoder e supporta prompt ausiliari, inclusi keypoint 2D e maschere, consentendo un'inferenza guidata dall'utente simile alla famiglia di modelli SAM. Deriviamo annotazioni di alta qualità da una pipeline di annotazione multi-stadio che utilizza varie combinazioni di annotazione manuale di keypoint, ottimizzazione differenziabile, geometria multi-vista e rilevamento di keypoint densi. Il nostro "data engine" seleziona ed elabora i dati in modo efficiente per garantire la diversità dei dati, raccogliendo pose insolite e condizioni di acquisizione rare. Presentiamo un nuovo dataset di valutazione organizzato per categorie di pose e aspetto, che consente un'analisi sfumata del comportamento del modello. I nostri esperimenti dimostrano una generalizzazione superiore e miglioramenti sostanziali rispetto ai metodi precedenti, sia negli studi qualitativi di preferenza utente che nelle tradizionali analisi quantitative. Sia 3DB che MHR sono open-source.
La Distillazione per Adattamento della Distribuzione (DMD) è un potente paradigma di accelerazione, ma la sua stabilità è spesso compromessa nelle Zone Proibite, regioni in cui il teacher reale fornisce una guida inaffidabile mentre il teacher fittizio esercita una forza repulsiva insufficiente. In questo lavoro, proponiamo un framework di ottimizzazione unificato che reinterpreta le tecniche precedenti come strategie implicite per evitare queste regioni corrotte. Sulla base di questa intuizione, introduciamo la Distillazione per Adattamento Adattivo (AMD), un meccanismo di autocorrezione che utilizza proxy di ricompensa per rilevare ed evadere esplicitamente le Zone Proibite. AMD priorizza dinamicamente i gradienti correttivi tramite la scomposizione del segnale strutturale e introduce l'Affilatura del Paesaggio Repulsivo per imporre ripide barriere energetiche contro il collasso nelle modalità di fallimento. Esperimenti estesi su compiti di generazione di immagini e video (ad es., SDXL, Wan2.1) e benchmark rigorosi (ad es., VBench, GenEval) dimostrano che AMD migliora significativamente la fedeltà del campione e la robustezza dell'addestramento. Ad esempio, AMD migliora il punteggio HPSv2 su SDXL da 30.64 a 31.25, superando i baseline all'avanguardia. Questi risultati convalidano che rettificare esplicitamente le traiettorie di ottimizzazione all'interno delle Zone Proibite è essenziale per spingere al massimo le prestazioni dei modelli generativi con pochi passi.
Gli agenti di intelligenza artificiale moderni sono potenti ma spesso non riescono ad allinearsi alle preferenze idiosincratiche ed evolutive dei singoli utenti. Gli approcci precedenti si basano tipicamente su dataset statici, addestrando modelli di preferenza implicita sulla cronologia delle interazioni o codificando profili utente in memorie esterne. Tuttavia, questi approcci faticano con nuovi utenti e con preferenze che cambiano nel tempo. Introduciamo Agenti Personalizzati dal Feedback Umano (PAHF), un framework per la personalizzazione continua in cui gli agenti apprendono online dalle interazioni in tempo reale utilizzando una memoria esplicita per utente. PAHF opera attraverso un ciclo in tre fasi: (1) ricerca di chiarimenti pre-azione per risolvere ambiguità, (2) ancoraggio delle azioni alle preferenze recuperate dalla memoria, e (3) integrazione del feedback post-azione per aggiornare la memoria quando le preferenze cambiano. Per valutare questa capacità, sviluppiamo un protocollo in quattro fasi e due benchmark nell'ambito della manipolazione embodied e dello shopping online. Questi benchmark quantificano la capacità di un agente di apprendere preferenze iniziali da zero e di adattarsi successivamente a cambiamenti della persona. La nostra analisi teorica e i risultati empirici mostrano che l'integrazione di una memoria esplicita con canali di feedback duali è cruciale: PAHF apprende in modo sostanzialmente più rapido e supera costantemente sia i baseline senza memoria che quelli a canale singolo, riducendo l'errore di personalizzazione iniziale e consentendo un rapido adattamento ai cambiamenti delle preferenze.
Gli agenti multimodali a lungo termine dipendono da memorie esterne; tuttavia, il recupero basato sulla similarità spesso riporta elementi obsoleti, a bassa credibilità o in conflitto, che possono innescare errori dovuti a eccessiva sicurezza. Proponiamo Multimodal Memory Agent (MMA), che assegna a ciascun elemento di memoria recuperato un punteggio di affidabilità dinamico combinando la credibilità della fonte, il decadimento temporale e un consenso di rete consapevole dei conflitti, utilizzando questo segnale per ripesare le evidenze e astenersi quando il supporto è insufficiente. Introduciamo anche MMA-Bench, un benchmark generato programmaticamente per le dinamiche di credibilità con affidabilità controllata del parlante e contraddizioni strutturate testo-immagine. Utilizzando questo framework, scopriamo l'"Effetto Placebo Visivo", rivelando come gli agenti basati su RAG ereditino pregiudizi visivi latenti dai modelli di base. Su FEVER, MMA eguaglia l'accuratezza baseline riducendo la varianza del 35,2% e migliorando l'utilità selettiva; su LoCoMo, una configurazione orientata alla sicurezza migliora l'accuratezza azionabile e riduce le risposte errate; su MMA-Bench, MMA raggiunge il 41,18% di accuratezza di Tipo-B in modalità Visione, mentre il baseline collassa allo 0,0% con lo stesso protocollo. Codice: https://github.com/AIGeeksGroup/MMA.
We introduce the Nexus Adapters, novel text-guided efficient adapters to the diffusion-based framework for the Structure Preserving Conditional Generation (SPCG). Recently, structure-preserving methods have achieved promising results in conditional image generation by using a base model for prompt conditioning and an adapter for structure input, such as sketches or depth maps. These approaches are highly inefficient and sometimes require equal parameters in the adapter compared to the base architecture. It is not always possible to train the model since the diffusion model is itself costly, and doubling the parameter is highly inefficient. In these approaches, the adapter is not aware of the input prompt; therefore, it is optimal only for the structural input but not for the input prompt. To overcome the above challenges, we proposed two efficient adapters, Nexus Prime and Slim, which are guided by prompts and structural inputs. Each Nexus Block incorporates cross-attention mechanisms to enable rich multimodal conditioning. Therefore, the proposed adapter has a better understanding of the input prompt while preserving the structure. We conducted extensive experiments on the proposed models and demonstrated that the Nexus Prime adapter significantly enhances performance, requiring only 8M additional parameters compared to the baseline, T2I-Adapter. Furthermore, we also introduced a lightweight Nexus Slim adapter with 18M fewer parameters than the T2I-Adapter, which still achieved state-of-the-art results. Code: https://github.com/arya-domain/Nexus-Adapters
Un aspetto fondamentale della percezione umana è la consapevolezza situata, ovvero la capacità di relazionarci con l'ambiente fisico circostante e di ragionare sulle possibili azioni nel contesto. Tuttavia, la maggior parte dei benchmark esistenti per i modelli fondazionali multimodali (MFM) enfatizza le relazioni spaziali centrate sull'ambiente (relazioni tra oggetti in una scena), trascurando in gran parte le relazioni centrate sull'osservatore, che richiedono un ragionamento relativo al punto di vista, alla posa e al movimento dell'agente. Per colmare questa lacuna, introduciamo SAW-Bench (Situated Awareness in the Real World), un nuovo benchmark per valutare la consapevolezza situata egocentrica utilizzando video del mondo reale. SAW-Bench comprende 786 video auto-registrati catturati con gli occhiali intelligenti Ray-Ban Meta (Gen 2), che abbracciano ambienti indoor e outdoor diversificati, e oltre 2.071 coppie domanda-risposta annotate manualmente. Esso indaga la comprensione centrata sull'osservatore di un modello attraverso sei diverse attività di consapevolezza. La nostra valutazione completa rivale un divario di performance uomo-modello del 37,66%, anche con il miglior MFM, Gemini 3 Flash. Oltre a questo divario, la nostra analisi approfondita rivela diversi risultati notevoli; ad esempio, sebbene i modelli siano in grado di sfruttare parziali indizi geometrici nei video egocentrici, spesso non riescono a inferire una geometria della camera coerente, portando a errori sistematici di ragionamento spaziale. Posizioniamo SAW-Bench come un benchmark per l'intelligenza spaziale situata, spostandoci oltre l'osservazione passiva verso la comprensione di dinamiche fisicamente fondate e centrate sull'osservatore.
We introduce a novel uncertainty-aware multimodal segmentation framework that leverages both radiological images and associated clinical text for precise medical diagnosis. We propose a Modality Decoding Attention Block (MoDAB) with a lightweight State Space Mixer (SSMix) to enable efficient cross-modal fusion and long-range dependency modelling. To guide learning under ambiguity, we propose the Spectral-Entropic Uncertainty (SEU) Loss, which jointly captures spatial overlap, spectral consistency, and predictive uncertainty in a unified objective. In complex clinical circumstances with poor image quality, this formulation improves model reliability. Extensive experiments on various publicly available medical datasets, QATA-COVID19, MosMed++, and Kvasir-SEG, demonstrate that our method achieves superior segmentation performance while being significantly more computationally efficient than existing State-of-the-Art (SoTA) approaches. Our results highlight the importance of incorporating uncertainty modelling and structured modality alignment in vision-language medical segmentation tasks. Code: https://github.com/arya-domain/UA-VLS
I Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) hanno fatto progredire significativamente l'IA incarnata, e il loro utilizzo per valutare l'intelligenza robotica è diventato una tendenza fondamentale. Tuttavia, i framework esistenti rimangono prevalentemente confinati alla manipolazione a braccio singolo, non riuscendo a cogliere la coordinazione spazio-temporale richiesta per compiti bimanuali come sollevare una pentola pesante. Per affrontare questo problema, introduciamo BiManiBench, un benchmark gerarchico che valuta gli MLLM su tre livelli: ragionamento spaziale fondamentale, pianificazione d'azione di alto livello e controllo di basso livello degli effettori terminali. Il nostro framework isola le sfide uniche del controllo bimanuale, come la raggiungibilità del braccio e i vincoli cinematici, distinguendo così le allucinazioni percettive dai fallimenti di pianificazione. L'analisi di oltre 30 modelli all'avanguardia rivela che, nonostante la competenza nel ragionamento di alto livello, gli MLLM faticano con l'ancoraggio spaziale e il controllo del doppio braccio, risultando frequentemente in interferenze reciproche ed errori di sequenziamento. Questi risultati suggeriscono che l'attuale paradigma manchi di una comprensione profonda dei vincoli cinematici reciproci, evidenziando la necessità per la ricerca futura di concentrarsi sull'evitamento delle collisioni tra bracci e sul sequenziamento temporale granulare.
I modelli generativi linguistico-visivi di grandi dimensioni (LVLM) hanno recentemente conseguito progressi prestazionali impressionanti e il loro bacino di utenti sta crescendo rapidamente. Tuttavia, la sicurezza degli LVLM, in particolare in contesti multi-turno a lungo contesto, rimane ampiamente inesplorata. In questo articolo, consideriamo lo scenario realistico in cui un attaccante carica un'immagine manipolata sul web o sui social media. Un utente benigno scarica questa immagine e la utilizza come input per l'LVLM. Il nostro innovativo attacco stealth di Iniezione della Memoria Visiva (VMI) è progettato in modo che, su prompt normali, l'LVLM mostri un comportamento nominale, ma una volta che l'utente fornisce un prompt scatenante, l'LVLM restituisca un specifico messaggio target predeterminato per manipolare l'utente, ad esempio per marketing avversariale o persuasione politica. Risposto a lavori precedenti focalizzati su attacchi a turno singolo, il VMI risulta efficace anche dopo una lunga conversazione multi-turno con l'utente. Dimostriamo il nostro attacco su diversi recenti LVLM open-weight. Questo articolo mostra pertanto che la manipolazione su larga scala degli utenti è fattibile mediante immagini perturbate in contesti di conversazione multi-turno, sollecitando una maggiore robustezza degli LVLM contro questi attacchi. Rilasciamo il codice sorgente all'indirizzo https://github.com/chs20/visual-memory-injection.
The opioid epidemic continues to ravage communities worldwide, straining healthcare systems, disrupting families, and demanding urgent computational solutions. To combat this lethal opioid crisis, graph learning methods have emerged as a promising paradigm for modeling complex drug-related phenomena. However, a significant gap remains: there is no comprehensive benchmark for systematically evaluating these methods across real-world opioid crisis scenarios. To bridge this gap, we introduce OPBench, the first comprehensive opioid benchmark comprising five datasets across three critical application domains: opioid overdose detection from healthcare claims, illicit drug trafficking detection from digital platforms, and drug misuse prediction from dietary patterns. Specifically, OPBench incorporates diverse graph structures, including heterogeneous graphs and hypergraphs, to preserve the rich and complex relational information among drug-related data. To address data scarcity, we collaborate with domain experts and authoritative institutions to curate and annotate datasets while adhering to privacy and ethical guidelines. Furthermore, we establish a unified evaluation framework with standardized protocols, predefined data splits, and reproducible baselines to facilitate fair and systematic comparison among graph learning methods. Through extensive experiments, we analyze the strengths and limitations of existing graph learning methods, thereby providing actionable insights for future research in combating the opioid crisis. Our source code and datasets are available at https://github.com/Tianyi-Billy-Ma/OPBench.