Articoli di ricerca IA selezionati quotidianamente con traduzioni
La generazione molecolare con modelli di diffusione è emersa come una direzione promettente per la scoperta di farmaci e la scienza dei materiali guidate dall'intelligenza artificiale. Sebbene i modelli di diffusione su grafi siano stati ampiamente adottati grazie alla natura discreta dei grafi molecolari 2D, i modelli esistenti soffrono di scarsa validità chimica e faticano a soddisfare le proprietà desiderate rispetto alla modellazione 1D. In questo lavoro introduciamo MolHIT, un potente framework di generazione di grafi molecolari che supera le limitazioni prestazionali persistenti nei metodi esistenti. MolHIT si basa sul Modello di Diffusione Discreta Gerarchico, che generalizza la diffusione discreta a categorie aggiuntive che codificano prior chimici, e su una codifica atomica disaccoppiata che separa i tipi atomici in base al loro ruolo chimico. Complessivamente, MolHIT raggiunge nuove prestazioni state-of-the-art sul dataset MOSES con una validità quasi perfetta per la prima volta nella diffusione su grafi, superando solidi baseline 1D in molteplici metriche. Dimostriamo inoltre solide prestazioni in compiti downstream, inclusa la generazione guidata da proprietà multiple e l'estensione di scaffold.
La modellazione di sequenze lunghe di comportamenti utente è emersa come una frontiera critica nella raccomandazione generativa. Tuttavia, le soluzioni esistenti affrontano un dilemma: i meccanismi di attenzione lineare raggiungono l'efficienza a scapito della precisione di recupero a causa di una capacità di stato limitata, mentre l'attenzione softmax soffre di un sovraccarico computazionale proibitivo. Per affrontare questa sfida, proponiamo HyTRec, un modello caratterizzato da un'architettura di Attenzione Ibrida che disaccoppia esplicitamente le preferenze stabili a lungo termine dai picchi d'intento a breve termine. Assegnando sequenze storiche massive a un ramo di attenzione lineare e riservando un ramo specializzato di attenzione softmax per le interazioni recenti, il nostro approccio ripristina capacità di recupero precise in contesti di scala industriale che coinvolgono decine di migliaia di interazioni. Per mitigare il ritardo nella cattura di rapidi cambiamenti d'interesse all'interno degli strati lineari, progettiamo inoltre la Temporal-Aware Delta Network (TADN) per valorizzare dinamicamente i segnali comportamentali recenti sopprimendo efficacemente il rumore storico. I risultati empirici su dataset di scala industriale confermano la superiorità del nostro modello, che mantiene una velocità di inferenza lineare e supera i baseline di riferimento, registrando in particolare un miglioramento superiore all'8% nell'Hit Rate per utenti con sequenze ultra-lunghe, mantenendo un'elevata efficienza.
SkyReels V4 è un modello foundation video multimodale unificato per la generazione, l'inpainting e l'editing congiunti di video e audio. Il modello adotta un'architettura dual-stream Multimodal Diffusion Transformer (MMDiT), in cui un ramo sintetizza il video e l'altro genera audio temporalmente allineato, condividendo un potente text encoder basato su Modelli Linguistici Multimediali di Grande Dimensione (MMLM). SkyReels V4 accetta istruzioni multimodali ricche, inclusi testo, immagini, clip video, maschere e riferimenti audio. Combinando la capacità degli MMLM di seguire istruzioni multimodali con l'apprendimento in contesto (in-context learning) nel ramo video MMDiT, il modello può iniettare una guida visiva fine sotto condizionamenti complessi, mentre il ramo audio MMDiT sfrutta simultaneamente i riferimenti audio per guidare la generazione del suono. Sul lato video, adottiamo una formulazione a concatenazione di canali che unifica un'ampia gamma di task di inpainting, come image-to-video, estensione video e video editing, sotto una singola interfaccia, e si estende naturalmente all'inpainting e all'editing con riferimenti visivi tramite prompt multimodali. SkyReels V4 supporta risoluzioni fino a 1080p, 32 FPS e una durata di 15 secondi, abilitando la generazione di video di alta fedeltà, multi-inquadratura e di livello cinematografico con audio sincronizzato. Per rendere computazionalmente fattibile una generazione di così alta risoluzione e lunga durata, introduciamo una strategia di efficienza: generazione congiunta di sequenze complete a bassa risoluzione e keyframe ad alta risoluzione, seguita da modelli dedicati di super-risoluzione e interpolazione di frame. A nostra conoscenza, SkyReels V4 è il primo modello foundation video che supporta simultaneamente input multimodale, generazione congiunta video-audio e un trattamento unificato di generazione, inpainting ed editing, mantenendo al contempo una forte efficienza e qualità a risoluzioni e durate cinematografiche.
Le prestazioni dell'inferenza di LLM agentici multi-turn sono sempre più dominate dall'I/O di archiviazione della KV-Cache piuttosto che dal calcolo. Nelle architetture disaggregate prevalenti, il caricamento dell'enorme KV-Cache dalla memoria esterna crea uno squilibrio fondamentale: le NIC di archiviazione sui motori di prefill raggiungono la saturazione della banda, mentre quelle sui motori di decoding rimangono inattive. Questa asimmetria vincola severamente il throughput complessivo del sistema. Presentiamo DualPath, un sistema di inferenza che rompe questo collo di bottiglia introducendo un caricamento dual-path della KV-Cache. Oltre al tradizionale percorso da storage a prefill, DualPath abilita un nuovo percorso da storage a decode, in cui la KV-Cache viene caricata nei motori di decoding e poi trasferita efficientemente ai motori di prefill via RDMA sulla rete di calcolo. DualPath combina questo percorso dati ottimizzato – che evita intrinsecamente la congestione di rete e l'interferenza con le comunicazioni critiche per la latenza dell'esecuzione del modello – con uno scheduler globale che bilancia dinamicamente il carico tra i motori di prefill e decode. La nostra valutazione su tre modelli con carichi di lavoro agentici di produzione dimostra che DualPath migliora il throughput di inferenza offline fino a 1.87 volte sul nostro sistema di inferenza interno. Può anche migliorare il throughput di servizio online di un fattore medio di 1.96 volte senza violare gli SLO.
I recenti progressi nei modelli fondazionali hanno rivoluzionato la generazione congiunta audio-video. Tuttavia, gli approcci esistenti trattano tipicamente i compiti incentrati sull'uomo, inclusi la generazione audio-video basata su riferimento (R2AV), l'editing video (RV2AV) e l'animazione video guidata dall'audio (RA2V), come obiettivi isolati. Inoltre, ottenere un controllo preciso e disaccoppiato su multiple identità di personaggi e timbri vocali all'interno di un unico framework rimane una sfida aperta. In questo articolo, proponiamo DreamID-Omni, un framework unificato per la generazione audio-video controllabile e incentrata sull'uomo. Nello specifico, progettiamo un Trasformatore Diffusivo Condizionale Simmetrico che integra segnali di condizionamento eterogenei attraverso uno schema di iniezione condizionale simmetrica. Per risolvere i diffusi fallimenti del legame identità-timbro e la confusione tra parlanti in scenari multi-persona, introduciamo una strategia di Disaccoppiamento a Doppio Livello: RoPE Sincronizzato a livello di segnale per garantire un legame rigido nello spazio di attenzione, e Didascalie Strutturate a livello semantico per stabilire mappature esplicite attributo-soggetto. Inoltre, ideiamo uno Schema di Addestramento Progressivo Multi-Task che sfrutta priorità generative debolmente vincolate per regolarizzare compiti fortemente vincolati, prevenendo l'overfitting e armonizzando obiettivi disparati. Esperimenti estensivi dimostrano che DreamID-Omni raggiunge prestazioni allo stato dell'arte complete in termini di coerenza video, audio e audio-visiva, superando persino modelli commerciali proprietari leader. Rilasceremo il nostro codice per colmare il divario tra la ricerca accademica e le applicazioni di livello commerciale.
I modelli esistenti di generazione video condizionata da azioni (modelli di mondo video) sono limitati a prospettive di agente singolo, non riuscendo a catturare le interazioni multi-agente degli ambienti del mondo reale. Introduciamo Solaris, un modello di mondo video multiplayer che simula osservazioni multi-prospettiva consistenti. Per abilitare ciò, sviluppiamo un sistema di dati multiplayer progettato per una raccolta dati robusta, continua e automatizzata su videogiochi come Minecraft. A differenza delle piattaforme precedenti costruite per ambienti single-player, il nostro sistema supporta l'interazione coordinata multi-agente e la cattura sincronizzata di video e azioni. Utilizzando questo sistema, raccogliamo 12,64 milioni di frame multiplayer e proponiamo un framework di valutazione per la consistenza del movimento, della memoria, del grounding, della costruzione e della prospettiva in ambienti multiplayer. Addestriamo Solaris utilizzando una pipeline a stadi che passa progressivamente dalla modellazione single-player a quella multiplayer, combinando training bidirezionale, causale e Self Forcing. Nella fase finale, introduciamo il Checkpointed Self Forcing, una variante memory-efficient del Self Forcing che consente un insegnante a orizzonte più lungo. I risultati mostrano che la nostra architettura e il design di training superano le baseline esistenti. Rendendo open source il nostro sistema e i nostri modelli, speriamo di gettare le basi per una nuova generazione di modelli di mondo multi-agente.
L'apprendimento per rinforzo agentico (ARL) ha rapidamente attirato l'attenzione come paradigma promettente per addestrare agenti a risolvere compiti interattivi complessi e multi-step. Nonostante i primi risultati incoraggianti, l'ARL rimane estremamente instabile, portando spesso a un collasso dell'addestramento. Questa instabilità ne limita la scalabilità ad ambienti più grandi e ad orizzonti interattivi più lunghi, e vincola l'esplorazione sistematica delle scelte di progettazione algoritmica. In questo articolo, proponiamo innanzitutto ARLArena, una ricetta di addestramento stabile e un framework di analisi sistematica che esamina la stabilità dell'addestramento in un setting controllato e riproducibile. ARLArena costruisce dapprima un banco di prova pulito e standardizzato. Successivamente, scomponiamo il policy gradient in quattro dimensioni di progettazione fondamentali e valutiamo le prestazioni e la stabilità di ciascuna dimensione. Attraverso questa analisi granulare, distilliamo una prospettiva unificata sull'ARL e proponiamo SAMPO, un metodo di ottimizzazione delle politiche agentiche stabile, progettato per mitigare le principali fonti di instabilità nell'ARL. Empiricamente, SAMPO raggiunge un addestramento costantemente stabile e prestazioni solide su una varietà di compiti agentici. Nel complesso, questo studio fornisce una prospettiva unificante del policy gradient per l'ARL e offre indicazioni pratiche per costruire pipeline di addestramento di agenti basati su LLM stabili e riproducibili.
Gli agenti GUI nativi open-source rimangono ancora indietro rispetto ai sistemi closed-source nelle attività di navigazione a lungo termine. Questo divario deriva da due limitazioni: una carenza di dati di ragionamento di alta qualità e allineati all'azione, e l'adozione diretta di pipeline di post-addestramento generiche che trascurano le sfide uniche degli agenti GUI. Identifichiamo due problemi fondamentali in queste pipeline: (i) la SFT standard con ragionamento a catena (CoT) spesso danneggia il grounding, e (ii) l'addestramento RLVR step-by-step deve affrontare la verificabilità parziale, dove più azioni possono essere corrette ma solo un'unica azione dimostrata viene utilizzata per la verifica. Ciò rende le metriche step-by-step offline dei deboli predittori del successo del compito online. In questo lavoro, presentiamo GUI-Libra, una ricetta di addestramento su misura che affronta queste sfide. Innanzitutto, per mitigare la scarsità di dati di ragionamento allineati all'azione, introduciamo una pipeline di costruzione e filtraggio dei dati e rilasciamo un dataset curato di 81K ragionamenti GUI. In secondo luogo, per riconciliare il ragionamento con il grounding, proponiamo una SFT consapevole dell'azione che combina dati di ragionamento-poi-azione e di azione-diretta e ripesca i token per enfatizzare l'azione e il grounding. Terzo, per stabilizzare l'RL sotto verificabilità parziale, identifichiamo l'importanza trascurata della regolarizzazione KL nell'RLVR e mostriamo che una regione di fiducia KL è fondamentale per migliorare la prevedibilità offline-to-online; introduciamo inoltre un ridimensionamento adattativo al successo per attribuire un peso minore ai gradienti negativi inaffidabili. Su vari benchmark web e mobile, GUI-Libra migliora costantemente sia l'accuratezza step-by-step che il completamento end-to-end dei compiti. I nostri risultati suggeriscono che un post-addestramento e una cura dei dati progettati attentamente possono sbloccare capacità di risoluzione dei compiti significativamente più forti senza una costosa raccolta di dati online. Rilasciamo il nostro dataset, codice e modelli per facilitare ulteriori ricerche sul post-addestramento efficiente dal punto di vista dei dati per agenti GUI capaci di ragionamento.
Introduciamo lo Sphere Encoder, un framework generativo efficiente in grado di produrre immagini in un singolo passaggio in avanti e di competere con modelli di diffusione a molti step utilizzando meno di cinque passi. Il nostro approccio funziona apprendendo un encoder che mappa uniformemente le immagini naturali su uno spazio latente sferico, e un decoder che rimappa i vettori latenti casuali nello spazio delle immagini. Addestrato esclusivamente tramite loss di ricostruzione d'immagine, il modello genera un'immagine semplicemente decodificando un punto casuale sulla sfera. La nostra architettura supporta naturalmente la generazione condizionata, e l'esecuzione in ciclo di encoder/decoder per poche volte può ulteriormente migliorare la qualità dell'immagine. Su diversi dataset, l'approccio dello sphere encoder produce performance competitive con i migliori modelli di diffusione allo stato dell'arte, ma con una frazione minima del costo inferenziale. La pagina del progetto è disponibile all'indirizzo https://sphere-encoder.github.io.
L'AIGC si è rapidamente ampliato dalla generazione testo-immagine verso una sintesi multimodale di alta qualità che include video e audio. In questo contesto, la generazione congiunta audio-video (JAVG) è emersa come un compito fondamentale che produce suono e immagini sincronizzati e semanticamente allineati a partire da descrizioni testuali. Tuttavia, rispetto a modelli commerciali avanzati come Veo3, i metodi open-source esistenti presentano ancora limitazioni nella qualità della generazione, nella sincronia temporale e nell'allineamento con le preferenze umane. Per colmare questa lacuna, questo articolo presenta JavisDiT++, un framework conciso ma potente per la modellazione e l'ottimizzazione unificata della JAVG. In primo luogo, introduciamo un design Mixture-of-Experts specifico per modalità (MS-MoE) che consente un'efficace interazione cross-modale migliorando allo stesso tempo la qualità della generazione single-modale. Successivamente, proponiamo una strategia RoPE alineata temporalmente (TA-RoPE) per ottenere una sincronizzazione esplicita a livello di frame tra i token audio e video. Inoltre, sviluppiamo un metodo di ottimizzazione diretta delle preferenze audio-video (AV-DPO) per allineare gli output del modello con le preferenze umane nelle dimensioni di qualità, coerenza e sincronia. Basato su Wan2.1-1.3B-T2V, il nostro modello raggiunge prestazioni all'avanguardia con soli circa 1 milione di entry di training pubblico, superando significativamente gli approcci precedenti sia nelle valutazioni qualitative che quantitative. Sono stati condotti studi di ablazione completi per convalidare l'efficacia dei moduli da noi proposti. Tutto il codice, il modello e il dataset sono rilasciati su https://JavisVerse.github.io/JavisDiT2-page.
L'editing di immagini basato su istruzioni ha ottenuto un successo notevole nell'allineamento semantico, tuttavia i modelli all'avanguardia spesso falliscono nel produrre risultati fisicamente plausibili quando le modifiche coinvolgono dinamiche causali complesse, come la rifrazione o la deformazione dei materiali. Attribuiamo questa limitazione al paradigma dominante che tratta l'editing come una mappatura discreta tra coppie di immagini, la quale fornisce solo condizioni al contorno e lascia le dinamiche di transizione sottospecificate. Per affrontare questo problema, riformuliamo l'editing consapevole della fisica come transizioni predittive di stati fisici e introduciamo PhysicTran38K, un dataset su larga scala basato su video che comprende 38.000 traiettorie di transizione attraverso cinque domini fisici, costruito mediante una pipeline di annotazione in due fasi con filtraggio e consapevole dei vincoli. Basandoci su questa supervisione, proponiamo PhysicEdit, un framework end-to-end dotato di un meccanismo di pensiero duale testuale-visivo. Questo combina un modello Qwen2.5-VL congelato per il ragionamento fisicamente fondato con query di transizione apprendibili che forniscono una guida visiva adattiva al timestep a un backbone di diffusione. Gli esperimenti mostrano che PhysicEdit migliora Qwen-Image-Edit del 5.9% nel realismo fisico e del 10.1% nell'editing basato sulla conoscenza, stabilendo un nuovo stato dell'arte per i metodi open-source, pur rimanendo competitivo con i principali modelli proprietari.
Lo sfruttamento della modellazione delle osservazioni future per facilitare la generazione di azioni rappresenta una prospettiva promettente per potenziare le capacità dei modelli Visione-Linguaggio-Azione (VLA). Tuttavia, gli approcci esistenti faticano a trovare un equilibrio tra il mantenimento di rappresentazioni future efficienti e prevedibili e la conservazione di informazioni sufficientemente dettagliate per guidare una generazione precisa delle azioni. Per superare questa limitazione, proponiamo WoG (World Guidance), un framework che mappa le osservazioni future in condizioni compatte iniettandole nella pipeline di inferenza delle azioni. Il modello VLA viene quindi addestrato a prevedere simultaneamente queste condizioni compresse insieme alle azioni future, realizzando così una modellazione efficace del mondo all'interno dello spazio delle condizioni per l'inferenza delle azioni. Dimostriamo che la modellazione e la previsione di questo spazio delle condizioni non solo facilita la generazione granulare di azioni, ma mostra anche capacità di generalizzazione superiori. Inoltre, il metodo apprende efficacemente da un ampio numero di video di manipolazione umana. Esperimenti estensivi in ambienti sia simulati che reali convalidano che il nostro metodo supera significativamente i metodi esistenti basati sulla predizione futura. La pagina del progetto è disponibile all'indirizzo: https://selen-suyue.github.io/WoGNet/
I glifi vettoriali sono le unità atomiche della tipografia digitale, ma la maggior parte delle pipeline basate sull'apprendimento dipendono ancora da fogli di esempio accuratamente curati e da post-elaborazione raster-to-vettoriale, il che limita accessibilità e editabilità. Introduciamo VecGlypher, un singolo modello linguistico multimodale che genera glifi vettoriali ad alta fedeltà direttamente da descrizioni testuali o immagini di esempio. Dato un prompt di stile, immagini di glifi di riferimento opzionali e un carattere target, VecGlypher emette in modo autoregressivo token di tracciati SVG, evitando intermedi raster e producendo in un solo passaggio contorni editabili e continui. Ciò è reso possibile da una ricetta di dati e addestramento consapevole della tipografia: (i) una fase di continuazione su larga scala su 39K font Envato rumorosi per padroneggiare la sintassi SVG e la geometria a lungo orizzonte, seguita da (ii) post-addestramento su 2.5K Google Fonts annotati da esperti con tag descrittivi ed esempi per allineare linguaggio e immagini con la geometria; la pre-elaborazione normalizza i sistemi di coordinate, canonicalizza i tracciati, rimuove i duplicati dalle famiglie e quantizza le coordinate per un decoding stabile di sequenze lunghe. Nella valutazione OOD cross-famiglia, VecGlypher supera sostanzialmente sia LLM generici che baseline specializzati per font vettoriali nella generazione da solo testo, mentre la generazione con riferimento a immagini raggiunge prestazioni allo stato dell'arte, con guadagni marcati rispetto a DeepVecFont-v2 e DualVector. Le ablazioni mostrano che la scala del modello e la ricetta a due stadi sono critiche e che la serializzazione in coordinate assolute produce la geometria migliore. VecGlypher abbassa la barriera per la creazione di font permettendo agli utenti di progettare con parole o esempi, e fornisce una base scalabile per futuri strumenti di design multimodali.
Come fanno i grandi modelli linguistici (LLM) a sapere ciò che sanno? Rispondere a questa domanda è stato difficile perché i dati di pre-addestramento sono spesso una "scatola nera" – sconosciuti o inaccessibili. Il recente rilascio di nanochat – una famiglia di piccoli LLM con dati di pre-addestramento completamente aperti – affronta questo problema poiché fornisce una visione trasparente sull'origine della conoscenza parametrica di un modello. Con l'obiettivo di comprendere come la conoscenza viene codificata dagli LLM, rilasciamo NanoKnow, un dataset di benchmark che suddivide le domande di Natural Questions e SQuAD in partizioni basate sulla presenza o assenza delle loro risposte nel corpus di pre-addestramento di nanochat. Utilizzando queste partizioni, possiamo ora correttamente distinguere le fonti di conoscenza su cui gli LLM fanno affidamento quando producono un output. Per dimostrare l'utilità di NanoKnow, conduciamo esperimenti utilizzando otto checkpoint di nanochat. I nostri risultati mostrano: (1) l'accuratezza in modalità closed-book è fortemente influenzata dalla frequenza della risposta nei dati di pre-addestramento, (2) fornire evidenze esterne può mitigare questa dipendenza dalla frequenza, (3) anche con evidenze esterne, i modelli sono più accurati quando le risposte sono state viste durante il pre-addestramento, dimostrando che la conoscenza parametrica e quella esterna sono complementari, e (4) le informazioni non rilevanti sono dannose, con un'accuratezza che diminuisce in base sia alla posizione che al numero di contesti non rilevanti. Rilasciamo tutti gli artefatti di NanoKnow all'indirizzo https://github.com/castorini/NanoKnow.
La diagnosi di carcinoma epatocellulare si basa fortemente sull'interpretazione di immagini Whole Slide a risoluzione gigapixel. Tuttavia, gli attuali approcci computazionali sono limitati da meccanismi di elaborazione a risoluzione fissa e da un'aggregazione inefficiente delle caratteristiche, che inevitabilmente portano a una grave perdita di informazioni o a un'elevata ridondanza delle feature. Per affrontare queste sfide, proponiamo Hepato-LLaVA, un modello linguistico multimodale di grandi dimensioni specializzato per l'analisi patologica epatocellulare di fine dettaglio. Introduciamo un nuovo meccanismo di Sparse Topo-Pack Attention che modella esplicitamente la topologia tissutale bidimensionale. Questo meccanismo aggrega efficacemente le evidenze diagnostiche locali in token di riepilogo semantico preservando il contesto globale. Inoltre, per ovviare alla carenza di dati multiscala, presentiamo HepatoPathoVQA, un dataset clinicamente fondato comprendente 33.000 coppie domanda-risposta strutturate gerarchicamente e validate da patologi esperti. I nostri esperimenti dimostrano che Hepato-LLaVA raggiunge prestazioni all'avanguardia nelle attività di diagnosi e descrizione dell'HCC, superando significativamente i metodi esistenti. Il nostro codice e i dettagli implementativi sono disponibili all'indirizzo https://pris-cv.github.io/Hepto-LLaVA/.
I modelli di diffusione rappresentano un'architettura solida per la generazione visiva, ma il loro processo intrinsecamente sequenziale di rimozione del rumore comporta un'inferenza lenta. I metodi precedenti accelerano il campionamento memorizzando nella cache e riutilizzando output intermedi basandosi sulle distanze delle feature tra step temporali adiacenti. Tuttavia, le strategie di caching esistenti tipicamente si affidano a differenze grezze delle feature che mescolano contenuto e rumore. Questo approccio trascura l'evoluzione spettrale, in cui la struttura a bassa frequenza emerge precocemente mentre il dettaglio ad alta frequenza viene raffinato successivamente. Introduciamo lo Spectral-Evolution-Aware Cache (SeaCache), una schedulazione della cache senza addestramento che basa le decisioni di riutilizzo su una rappresentazione allineata spettralmente. Attraverso un'analisi teorica ed empirica, deriviamo un filtro Spectral-Evolution-Aware (SEA) che preserva le componenti rilevanti per il contenuto sopprimendo al contempo il rumore. Utilizzare feature di input filtrate SEA per stimare la ridondanza porta a schedule dinamiche che si adattano al contenuto rispettando i priori spettrali alla base del modello di diffusione. Esperimenti estesi su vari modelli generativi visivi e sui baseline mostrano che SeaCache raggiunge un compromesso latenza-qualità allo stato dell'arte.
La ricerca approfondita è emersa come un compito importante che mira a risolvere query complesse attraverso un'estesa esplorazione del web aperto. Per affrontarla, la maggior parte del lavoro precedente equipaggia agenti basati su grandi modelli linguistici (LLM) con API opache di ricerca web, consentendo agli agenti di emettere iterativamente query di ricerca, recuperare evidenze esterne e ragionare su di esse. Nonostante il ruolo essenziale della ricerca nella ricerca approfondita, le API di ricerca web in scatola nera ostacolano un'analisi sistematica dei componenti di ricerca, lasciando in gran parte poco chiaro il comportamento dei metodi consolidati di ranking del testo in questo contesto. Per colmare questa lacuna, riproduciamo una selezione di risultati chiave e best practice per i metodi di ranking del testo IR nell'ambito della ricerca approfondita. In particolare, ne esaminiamo l'efficacia da tre prospettive: (i) unità di recupero (documenti vs. passaggi), (ii) configurazioni della pipeline (diversi retriever, re-ranker e profondità di riordinamento), e (iii) caratteristiche delle query (la discrepanza tra le query emesse dagli agenti e le query di addestramento dei sistemi di ranking del testo). Eseguiamo esperimenti su BrowseComp-Plus, un dataset per la ricerca approfondita con un corpus fisso, valutando 2 agenti open-source, 5 retriever e 3 re-ranker in diverse configurazioni. Scopriamo che le query emesse dagli agenti seguono tipicamente una sintassi simile alla ricerca web (ad esempio, corrispondenze esatte tra virgolette), favorendo retriever lessicali, basati su sparse learning e multi-vettore; le unità a livello di passaggio sono più efficienti con finestre di contesto limitate ed evitano le difficoltà di normalizzazione della lunghezza del documento nel recupero lessicale; il re-ranking è altamente efficace; tradurre le query degli agenti in domande in linguaggio naturale riduce significativamente la discrepanza delle query.
I recenti metodi di Dropout per 3D Gaussian Splatting (3DGS) affrontano l'overfitting in condizioni di visualizzazione sparsa annullando casualmente le opacità gaussiane. Tuttavia, abbiamo identificato un effetto di compensazione dei vicini in questi approcci: i Gaussiani rimossi sono spesso compensati dai loro vicini, indebolendo la regolarizzazione prevista. Inoltre, questi metodi trascurano il contributo dei coefficienti armonici sferici (SH) di alto grado all'overfitting. Per risolvere questi problemi, proponiamo DropAnSH-GS, una nuova strategia di Dropout basata su ancore. Invece di rimuovere i Gaussiani in modo indipendente, il nostro metodo seleziona casualmente alcuni Gaussiani come ancore e rimuove simultaneamente i loro vicini spaziali. Ciò interrompe efficacemente le ridondanze locali vicino alle ancore e incoraggia il modello ad apprendere rappresentazioni più robuste e informate globalmente. Inoltre, estendiamo il Dropout agli attributi di colore rimuovendo casualmente gli SH di grado più elevato per concentrare le informazioni sull'aspetto negli SH di grado inferiore. Questa strategia mitiga ulteriormente l'overfitting e consente una flessibile compressione del modello post-addestramento tramite troncamento degli SH. I risultati sperimentali dimostrano che DropAnSH-GS supera sostanzialmente i metodi di Dropout esistenti con un overhead computazionale trascurabile e può essere facilmente integrato in varie varianti di 3DGS per migliorarne le prestazioni. Sito web del progetto: https://sk-fun.fun/DropAnSH-GS
I modelli di diffusione discreta sono emersi come valide alternative ai modelli linguistici autoregressivi, con lavori recenti che inizializzano e mettono a punto un modello base unimodale per la generazione bimodale. Diversamente dagli approcci precedenti, introduciamo il primo modello di diffusione mascherata tri-modale addestrato da zero su dati di testo, immagine-testo e audio-testo. Analizziamo sistematicamente le leggi di scaling multimodali, i rapporti di miscelazione delle modalità, le pianificazioni del rumore e gli effetti della dimensione del batch, e forniamo impostazioni predefinite ottimizzate per il campionamento in fase di inferenza. La nostra analisi sulla dimensione del batch produce una nuova riformulazione basata su equazioni differenziali stocastiche (SDE) che elimina la necessità di ottimizzare la dimensione ottimale del batch come riportato in lavori recenti. Questa riformulazione disaccoppia la dimensione fisica del batch, spesso scelta in base ai vincoli computazionali (saturazione della GPU, efficienza dei FLOP, tempo di esecuzione), dalla dimensione logica del batch, scelta per bilanciare la varianza del gradiente durante l'ottimizzazione stocastica. Infine, addestriamo preliminarmente un modello tri-modale da 3 miliardi di parametri su 6,4 mila miliardi di token, dimostrando le capacità di un design unificato e ottenendo risultati solidi nella generazione di testo, in compiti di text-to-image e di text-to-speech. Il nostro lavoro rappresenta il più ampio studio sistematico e aperto sui modelli di diffusione discreta multimodale condotto fino ad oggi, fornendo intuizioni sui comportamenti di scaling attraverso multiple modalità.
I modelli foundation video mirano a integrare comprensione, generazione, editing e aderenza a istruzioni all'interno di un unico framework, rappresentando una direzione centrale per i sistemi multimodali di prossima generazione. Tuttavia, i benchmark di valutazione esistenti rimangono frammentati e limitati nella portata, in quanto ciascuno si concentra su un singolo compito, utilizza metriche specifiche per il compito e tipicamente impiega clip video brevi o semplici. Di conseguenza, non colgono le capacità unificate che questi modelli sono progettati per offrire. Per colmare questa lacuna, introduciamo UniVBench, un benchmark progettato specificamente per valutare i modelli foundation video attraverso quattro abilità fondamentali: comprensione video, generazione video, editing video e un compito di nuova proposta, la ricostruzione video, che valuta quanto fedelmente un modello possa riprodurre contenuti video che ha incontrato. Il nostro benchmark espande sostanzialmente la complessità della valutazione incorporando 200 video di alta qualità, diversificati e multi-scena, ciascuno associato a descrizioni dettagliate, istruzioni di editing in formati multipli e immagini di riferimento. Tutti i video sono creati da esseri umani e convalidati attentamente, offrendo informazioni cinematiche più ricche rispetto ai benchmark precedenti. Inoltre, sviluppiamo un sistema di valutazione agentico unificato (UniV-Eval) che standardizza la generazione di prompt, l'analisi delle istruzioni e la valutazione su tutti i compiti, consentendo confronti equi, scalabili e riproducibili tra modelli video unificati. Basando la valutazione su compiti video multi-scena basati su istruzioni, UniVBench fornisce il primo framework per misurare le capacità integrate che i modelli foundation video mirano a raggiungere. Estese annotazioni umane garantiscono che la nostra valutazione sia allineata al giudizio umano, permettendo una valutazione rigorosa e accelerando il progresso verso un'intelligenza video robusta.
Il Model Context Protocol (MCP) introduce una specifica standard che definisce come gli agenti basati su Modelli Fondamentali (FM) dovrebbero interagire con sistemi esterni invocando strumenti. Tuttavia, per comprendere lo scopo e le caratteristiche di uno strumento, gli FM si affidano a descrizioni in linguaggio naturale, rendendo queste descrizioni un componente critico per guidare gli FM nella selezione dello strumento ottimale per un dato (sotto)compito e nel passaggio degli argomenti corretti allo strumento. Sebbene difetti o "code smells" in queste descrizioni possano fuorviare gli agenti basati su FM, la loro prevalenza e le conseguenze nell'ecosistema MCP rimangono poco chiare. Pertanto, esaminiamo empiricamente 856 strumenti distribuiti su 103 server MCP, ne valutiamo la qualità delle descrizioni e il loro impatto sulle prestazioni degli agenti. Identifichiamo sei componenti delle descrizioni degli strumenti dalla letteratura, sviluppiamo una griglia di valutazione utilizzando questi componenti e quindi formalizziamo i "code smells" delle descrizioni degli strumenti basandoci su questa griglia. Operazionalizzando questa griglia attraverso uno scanner basato su FM, scopriamo che il 97,1% delle descrizioni di strumenti analizzate contiene almeno un "code smell", con il 56% che non riesce a dichiarare chiaramente il proprio scopo. Sebbene l'arricchimento di queste descrizioni per tutti i componenti migliori i tassi di successo del compito di una mediana di 5,85 punti percentuali e migliori il completamento parziale dell'obiettivo del 15,12%, aumenta anche il numero di passi di esecuzione del 67,46% e peggiora le prestazioni nel 16,67% dei casi. Questi risultati indicano che ottenere guadagni prestazionali non è semplice; sebbene il costo di esecuzione possa fungere da compromesso, anche il contesto esecutivo può avere un impatto. Inoltre, le ablazioni dei componenti mostrano che varianti compatte di diverse combinazioni di componenti spesso preservano l'affidabilità comportamentale riducendo al contempo l'overhead non necessario dei token, consentendo un uso più efficiente della finestra di contesto dell'FM e costi di esecuzione inferiori.
Gli attuali modelli linguistici audiovisivi di grandi dimensioni (AV-LLM) sono prevalentemente limitati alla percezione 2D, basandosi su video RGB e audio monofonico. Questa scelta progettuale introduce una fondamentale discrepanza dimensionale che impedisce una localizzazione affidabile delle sorgenti e un ragionamento spaziale in ambienti 3D complessi. Affrontiamo questa limitazione presentando JAEGER, un framework che estende gli AV-LLM allo spazio 3D, per abilitare un grounding spaziale congiunto e il ragionamento attraverso l'integrazione di osservazioni RGB-D e ambisonics multicanale del primo ordine. Un contributo fondamentale del nostro lavoro è il vettore di intensità neurale (Neural IV), una rappresentazione audio spaziale appresa che codifica indizi direzionali robusti per migliorare la stima della direzione di arrivo, anche in scenari acustici avversi con sorgenti sovrapposte. Per facilitare l'addestramento su larga scala e la valutazione sistematica, proponiamo SpatialSceneQA, un benchmark di 61k campioni per l'instruction-tuning curati da ambienti fisici simulati. Esperimenti estensivi dimostrano che il nostro approccio supera costantemente i baseline centrati sul 2D in varie attività di percezione e ragionamento spaziale, sottolineando la necessità di una modellazione 3D esplicita per far avanzare l'IA negli ambienti fisici. Il nostro codice sorgente, i checkpoint dei modelli pre-addestrati e i dataset saranno rilasciati al momento dell'accettazione.
Presentiamo ISO-Bench, un benchmark per agenti di programmazione progettato per testare le loro capacità su compiti di ottimizzazione dell'inferenza tratti dal mondo reale. Questi compiti sono stati ricavati da vLLM e SGLang, due dei framework di servizio per LLM più diffusi. Ogni compito fornisce a un agente una codebase e una descrizione di un collo di bottiglia, e l'agente deve produrre una patch di ottimizzazione che viene valutata confrontandola con soluzioni umane esperte. Abbiamo curato 54 compiti provenienti da pull request approvate che mostravano miglioramenti prestazionali misurabili. Mentre i benchmark esistenti utilizzano pesantemente metriche basate sul runtime, tali approcci possono essere manipolati per superare i test senza cogliere la reale intenzione delle modifiche al codice. Pertanto, combiniamo sia metriche hard (basate sull'esecuzione) che soft (basate su LLM) per dimostrare che entrambe sono necessarie per una valutazione completa. Valutando sia agenti di programmazione proprietari che open-source, abbiamo riscontrato che nessun singolo agente domina tra le codebase. Sorprendentemente, gli agenti spesso identificano i colli di bottiglia corretti ma non riescono a implementare soluzioni funzionanti. Dimostriamo inoltre che agenti con modelli sottostanti identici differiscono in modo sostanziale, suggerendo che l'impalcatura sia importante tanto quanto il modello.
Ci proponiamo di apprendere una rappresentazione congiunta tra i segnali dell'unità di misura inerziale (IMU) e le sequenze di pose 2D estratte da video, abilitando un recupero cross-modale accurato, la sincronizzazione temporale, la localizzazione del soggetto e delle parti del corpo, e il riconoscimento delle azioni. A questo scopo, introduciamo MoBind, un framework di apprendimento contrastivo gerarchico progettato per affrontare tre sfide: (1) filtrare lo sfondo visivo irrilevante, (2) modellare configurazioni strutturate di IMU multi-sensore, e (3) raggiungere un allineamento temporale fine-granularità, inferiore al secondo. Per isolare gli indizi rilevanti per il movimento, MoBind allinea i segnali IMU con sequenze di movimento scheletrico piuttosto che con pixel grezzi. Scomponiamo ulteriormente il movimento corporeo completo in traiettorie locali delle parti del corpo, associando ciascuna al rispettivo IMU per abilitare un allineamento multi-sensore semanticamente fondato. Per catturare una corrispondenza temporale dettagliata, MoBind impiega una strategia contrastiva gerarchica che prima allinea segmenti temporali a livello di token, poi fonde l'allineamento locale (parte del corpo) con un'aggregazione del movimento globale (corpo intero). Valutato su mRi, TotalCapture ed EgoHumans, MoBind supera costantemente baseline solide in tutti e quattro i compiti, dimostrando un robusto allineamento temporale fine-granularità preservando al contempo la coerenza semantica a livello grossolano tra le modalità. Il codice è disponibile all'indirizzo https://github.com/bbvisual/MoBind.
L'estrazione di informazioni cliniche da trascrizioni mediche in lingue a bassa risorsa rimane una sfida significativa nell'elaborazione del linguaggio naturale (NLP) sanitario. Questo studio valuta una pipeline in due fasi che combina Aya-expanse-8B come modello di traduzione dal persiano all'inglese con cinque piccoli modelli linguistici (SLM) open-source — Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct e Gemma-3-1B-it — per l'estrazione binaria di 13 caratteristiche cliniche da 1.221 trascrizioni persiane anonimate raccolte in un call center di cure palliative oncologiche. Utilizzando una strategia di prompt a "few-shot" senza addestramento fine, i modelli sono stati valutati in base all'F1-score mediato macroscopicamente, al coefficiente di correlazione di Matthews (MCC), alla sensibilità e alla specificità per tener conto dello squilibrio delle classi. Qwen2.5-7B-Instruct ha ottenuto le prestazioni complessive più elevate (F1 macro mediano: 0,899; MCC: 0,797), mentre Gemma-3-1B-it ha mostrato i risultati più deboli. I modelli più grandi (7B-8B parametri) hanno costantemente superato le controparti più piccole in sensibilità e MCC. Un'analisi bilingue di Aya-expanse-8B ha rivelato che la traduzione delle trascrizioni persiane in inglese migliorava la sensibilità, riduceva gli output mancanti e aumentava le metriche robuste allo squilibrio delle classi, sebbene a scapito di una leggermente inferiore specificità e precisione. I risultati a livello di caratteristica hanno mostrato un'estrazione affidabile dei sintomi fisiologici nella maggior parte dei modelli, mentre i disturbi psicologici, le richieste amministrative e le caratteristiche somatiche complesse sono rimaste difficili da estrarre. Questi risultati stabiliscono un progetto pratico e privacy-preserving per l'implementazione di SLM open-source in contesti clinici multilingue di NLP con infrastrutture e risorse di annotazione limitate, e evidenziano l'importanza di ottimizzare congiuntamente la scala del modello e la strategia della lingua di input per applicazioni sanitarie sensibili.
I modelli di diffusione sono recentemente emersi come potenti prior per la risoluzione di problemi inversi. Sebbene la tomografia computerizzata (CT) sia teoricamente un problema inverso lineare, presenta numerose sfide pratiche. Queste includono rumore correlato, strutture di artefatti, dipendenza dalla geometria del sistema e intervalli di valori disallineati, che rendono l'applicazione diretta dei modelli di diffusione più difficile rispetto a domini come la generazione di immagini naturali. Per valutare sistematicamente le prestazioni dei modelli di diffusione in questo contesto e confrontarli con i metodi di ricostruzione consolidati, introduciamo DM4CT, un benchmark completo per la ricostruzione CT. DM4CT include dataset provenienti sia dal dominio medico che industriale con configurazioni sparse-view e rumorose. Per esplorare le sfide legate all'implementazione pratica dei modelli di diffusione, acquisiamo inoltre un dataset CT ad alta risoluzione presso un sincrotrone ad alta energia e valutiamo tutti i metodi in condizioni sperimentali reali. Mettiamo a confronto dieci recenti metodi basati sulla diffusione insieme a sette solide baseline, che includono approcci basati su modelli, non supervisionati e supervisionati. La nostra analisi fornisce approfondimenti dettagliati sul comportamento, i punti di forza e i limiti dei modelli di diffusione per la ricostruzione CT. Il dataset del mondo reale è pubblicamente disponibile su zenodo.org/records/15420527 e il codice è open-source su github.com/DM4CT/DM4CT.
La rilevazione del sarcasmo rappresenta una sfida fondamentale nella semantica computazionale, poiché richiede ai modelli di risolvere le discrepanze tra significato letterale e intenzione comunicativa. La sfida è amplificata nelle lingue a bassa risorsa, dove i dataset annotati sono scarsi o inesistenti. Presentiamo Yor-Sarc, il primo dataset gold standard per la rilevazione del sarcasmo in Yorùbá, una lingua tonale del ceppo Niger-Congo parlata da oltre 50 milioni di persone. Il dataset comprende 436 istanze annotate da tre parlanti nativi con background dialettali diversi, utilizzando un protocollo di annotazione specificamente progettato per il sarcasmo in Yorùbá che tiene conto degli aspetti culturali. Questo protocollo incorpora un'interpretazione sensibile al contesto e linee guida informate dalla comunità, ed è accompagnato da un'analisi completa dell'accordo inter-annotatore per supportare la replicabilità in altre lingue africane. È stato ottenuto un accordo da sostanziale a quasi perfetto (κ di Fleiss = 0,7660; κ di Cohen a coppie = 0,6732–0,8743), con un consenso unanime dell'83,3%. Una coppia di annotatori ha raggiunto un accordo quasi perfetto (κ = 0,8743; accordo grezzo del 93,8%), superando numerosi benchmark riportati nella ricerca sul sarcasmo in inglese. I rimanenti casi di accordo a maggioranza (16,7%) sono preservati come etichette soft per una modellazione consapevole dell'incertezza. Si prevede che Yor-Sarc (https://github.com/toheebadura/yor-sarc) favorirà la ricerca sull'interpretazione semantica e sull'elaborazione del linguaggio naturale culturalmente informata per le lingue africane a bassa risorsa.
È stato riportato che i grandi modelli linguistici (LLM) codificano linearmente la veridicità, tuttavia lavori recenti mettono in discussione la generalità di questo risultato. Riconciliamo queste prospettive con l'ipotesi dello spettro di veridicità: lo spazio rappresentativo contiene direzioni che spaziano da ampiamente dominio-generali a strettamente dominio-specifiche. Per testare questa ipotesi, valutiamo sistematicamente la generalizzazione delle sonde attraverso cinque tipi di verità (definizionale, empirica, logica, fittizia ed etica), la menzogna sicofantica e a inversione di aspettative, e benchmark esistenti sull'onestà. Le sonde lineari si generalizzano bene nella maggior parte dei domini, ma falliscono sulla menzogna sicofantica e a inversione di aspettative. Tuttavia, l'addestramento su tutti i domini congiuntamente recupera prestazioni robuste, confermando che esistono direzioni dominio-generali nonostante un debole trasferimento a coppie. La geometria delle direzioni delle sonde spiega questi pattern: la similarità coseno di Mahalanobis tra le sonde predice quasi perfettamente la generalizzazione incrociata di dominio (R^2=0.98). Metodi di cancellazione concettuale isolano ulteriormente direzioni di verità che sono (1) dominio-generali, (2) dominio-specifiche, o (3) condivise solo attraverso particolari sottoinsiemi di dominio. Interventi causali rivelano che le direzioni dominio-specifiche pilotano più efficacemente di quelle dominio-generali. Infine, il post-addestramento rimodella la geometria della verità, allontanando la menzogna sicofantica dagli altri tipi di verità, suggerendo una base rappresentativa per le tendenze sicofantiche dei modelli chat. Nel complesso, i nostri risultati supportano l'ipotesi dello spettro di veridicità: direzioni di verità di varia generalità coesistono nello spazio rappresentativo, con il post-addestramento che ne rimodella la geometria. Il codice per tutti gli esperimenti è fornito su https://github.com/zfying/truth_spec.
L'allucinazione di oggetti è un problema critico nei Grandi Modelli Visione-Linguaggio (LVLM), dove gli output includono oggetti non presenti nell'immagine di input. Da questo fenomeno sorge spontanea una domanda: quale componente della pipeline LVLM contribuisce principalmente alle allucinazioni di oggetti? L'encoder visivo, che percepisce le informazioni visive, o il decoder linguistico, che genera le risposte testuali? In questo lavoro, cerchiamo di rispondere a questa domanda progettando un esperimento sistematico per analizzare i ruoli dell'encoder visivo e del decoder linguistico nella generazione di allucinazioni. Le nostre osservazioni rivelano che le allucinazioni di oggetti sono prevalentemente associate ai forti preconcetti (priors) del decoder linguistico. Sulla base di questa scoperta, proponiamo un framework semplice e senza necessità di addestramento, il No-Language-Hallucination Decoding (NoLan), che affina la distribuzione di output sopprimendo dinamicamente i preconcetti linguistici, modulati in base alla differenza nella distribuzione di output tra input multimodali e input puramente testuali. I risultati sperimentali dimostrano che NoLan riduce efficacemente le allucinazioni di oggetti in vari LVLM su diversi compiti. Ad esempio, NoLan ottiene miglioramenti sostanziali sul benchmark POPE, aumentando l'accuratezza di LLaVA-1.5 7B e Qwen-VL 7B fino a 6.45 e 7.21 punti, rispettivamente. Il codice è pubblicamente disponibile all'indirizzo: https://github.com/lingfengren/NoLan.
L'analisi di dati di serie temporali non stazionarie richiede la comprensione dei loro modelli locali e globali con interpretabilità fisica. Tuttavia, gli algoritmi di smoothing tradizionali, come le B-spline, il filtraggio Savitzky-Golay e la scomposizione modale empirica (EMD), non sono in grado di eseguire un'ottimizzazione parametrica con continuità garantita. In questo articolo, proponiamo la Scomposizione Continua Funzionale (FCD), un framework accelerato da JAX che esegue un'ottimizzazione parametrica e continua su un'ampia gamma di funzioni matematiche. Utilizzando l'ottimizzazione di Levenberg-Marquardt per ottenere un adattamento fino a C^1 continuo, FCD trasforma i dati grezzi delle serie temporali in M modi che catturano diversi modelli temporali, dalle tendenze a breve termine a quelle a lungo termine. Le applicazioni di FCD includono la fisica, la medicina, l'analisi finanziaria e l'apprendimento automatico, dove è comunemente utilizzata per l'analisi dei modelli temporali del segnale, dei parametri ottimizzati, delle derivate e degli integrali della scomposizione. Inoltre, FCD può essere applicata per l'analisi fisica e l'estrazione di caratteristiche con un SRMSE medio di 0,735 per segmento e una velocità di 0,47s sulla scomposizione completa di 1.000 punti. Infine, dimostriamo che una rete neurale convoluzionale (CNN) potenziata con caratteristiche FCD, come valori funzionali ottimizzati, parametri e derivate, ha raggiunto una convergenza del 16,8% più veloce e una precisione del 2,5% superiore rispetto a una CNN standard.
Valutiamo sistematicamente la qualità dei dataset sulla sicurezza dell'IA ampiamente utilizzati da due prospettive: in isolamento e nella pratica. In isolamento, esaminiamo quanto bene questi dataset riflettano gli attacchi adversarial del mondo reale basandoci su tre proprietà chiave: essere guidati da intenti nascosti, ben elaborati e fuori distribuzione. Rileviamo che questi dataset fanno un eccessivo affidamento su "indizi scatenanti": parole o frasi con connotazioni negative/sensibili esplicite intese ad attivare esplicitamente i meccanismi di sicurezza, il che è irrealistico rispetto agli attacchi reali. Nella pratica, valutiamo se questi dataset misurino genuinamente i rischi per la sicurezza o si limitino a provocare rifiuti attraverso indizi scatenanti. Per esplorare ciò, introduciamo il "riciclaggio dell'intento": una procedura che astrae gli indizi scatenanti dagli attacchi adversarial (punti dati) preservando rigorosamente il loro intento malevolo e tutti i dettagli rilevanti. I nostri risultati indicano che gli attuali dataset sulla sicurezza dell'IA non rappresentano fedelmente il comportamento adversarial del mondo reale a causa del loro eccessivo affidamento sugli indizi scatenanti. Una volta rimossi questi indizi, tutti i modelli precedentemente valutati come "ragionevolmente sicuri" diventano insicuri, inclusi Gemini 3 Pro e Claude Sonnet 3.7. Inoltre, quando il riciclaggio dell'intento viene adattato come tecnica di jailbreaking, raggiunge costantemente alti tassi di successo dell'attacco, dal 90% a oltre il 98%, in condizioni di accesso completamente black-box. Nel complesso, i nostri risultati rivelano un significativo divario tra come la sicurezza dei modelli viene valutata dai dataset esistenti e come si comportano gli avversari nel mondo reale.