Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo STEP3-VL-10B, un modello fondante open-source e leggero progettato per ridefinire il compromesso tra efficienza compatta e intelligenza multimodale di livello avanzato. STEP3-VL-10B è realizzato attraverso due cambiamenti strategici: primo, una strategia di pre-addestramento unificata e completamente sbloccata su 1,2T di token multimodali che integra un Perception Encoder allineato linguisticamente con un decoder Qwen3-8B per stabilire una sinergia intrinseca visione-linguaggio; e secondo, una pipeline di post-addestramento scalata che include oltre 1.000 iterazioni di apprendimento per rinforzo. Fondamentalmente, implementiamo il Ragionamento Coordinato Parallelo (PaCoRe) per scalare il calcolo al momento del test, allocando le risorse a un ragionamento percettivo scalabile che esplora e sintetizza diverse ipotesi visive. Di conseguenza, nonostante la sua impronta compatta di 10B, STEP3-VL-10B rivaleggia o supera modelli da 10 a 20 volte più grandi (ad esempio, GLM-4.6V-106B, Qwen3-VL-235B) e i migliori modelli proprietari di punta come Gemini 2.5 Pro e Seed-1.5-VL. Offrendo prestazioni di prim'ordine, registra il 92,2% su MMBench e l'80,11% su MMMU, eccellendo inoltre nel ragionamento complesso con il 94,43% su AIME2025 e il 75,95% su MathVision. Rilasciamo la suite completa del modello per fornire alla comunità una baseline potente, efficiente e riproducibile.
In quanto centri di attività umana, le superfici urbane sono costituite da una ricchezza di entità semantiche. La segmentazione di queste varie entità da immagini satellitari è cruciale per una serie di applicazioni downstream. Gli attuali modelli di segmentazione avanzati possono segmentare in modo affidabile entità definite da attributi fisici (ad esempio, edifici, corpi idrici), ma incontrano ancora difficoltà con categorie definite socialmente (ad esempio, scuole, parchi). In questo lavoro, otteniamo la segmentazione socio-semantica mediante ragionamento con modelli visione-linguaggio. Per facilitare ciò, introduciamo il dataset Urban Socio-Semantic Segmentation denominato SocioSeg, una nuova risorsa che comprende immagini satellitari, mappe digitali ed etichette a livello di pixel di entità semantiche sociali organizzate in una struttura gerarchica. Inoltre, proponiamo una nuova architettura di ragionamento visione-linguaggio chiamata SocioReasoner che simula il processo umano di identificazione e annotazione di entità semantiche sociali tramite riconoscimento cross-modale e ragionamento multi-stadio. Utilizziamo l'apprendimento per rinforzo per ottimizzare questo processo non differenziabile e elicitare le capacità di ragionamento del modello visione-linguaggio. Gli esperimenti dimostrano i vantaggi del nostro approccio rispetto ai modelli state-of-the-art e una forte generalizzazione zero-shot. Il nostro dataset e il codice sono disponibili su https://github.com/AMAP-ML/SocioReasoner.
L'apprendimento per rinforzo (RL) è diventato un paradigma centrale per il post-addestramento di grandi modelli linguistici (LLM), in particolare per compiti di ragionamento complesso, ma soffre spesso di un collasso esplorativo: le politiche si concentrano prematuramente su un ristretto insieme di pattern di ragionamento dominanti, migliorando il pass@1 limitando però la diversità a livello di rollout e i guadagni nel pass@k. Sosteniamo che questo fallimento derivi dal regolarizzare il comportamento locale del token piuttosto che la diversità su insiemi di soluzioni. Per affrontare ciò, proponiamo l'Apprendimento per Rinforzo con Consapevolezza dell'Unicità (Uniqueness-Aware Reinforcement Learning), un obiettivo a livello di rollout che premia esplicitamente le soluzioni corrette che mostrano strategie di alto livello rare. Il nostro metodo utilizza un giudice basato su LLM per raggruppare i rollout dello stesso problema in base alle loro strategie di soluzione di alto livello, ignorando le variazioni superficiali, e ripesa i vantaggi della politica in modo inversamente proporzionale alla dimensione del cluster. Di conseguenza, le strategie corrette ma innovative ricevono ricompense più elevate di quelle ridondanti. Su benchmark di ragionamento matematico, fisico e medico, il nostro approccio migliora costantemente il pass@k con ampi budget di campionamento e aumenta l'area sotto la curva pass@k (AUC@K) senza sacrificare il pass@1, mantenendo al contempo l'esplorazione e scoprendo strategie di soluzione più diversificate su larga scala.
I sistemi multi-agente si sono evoluti in collaboratori pratici guidati da LLM per molte applicazioni, acquisendo robustezza grazie alla diversità e al controllo incrociato. Tuttavia, l'addestramento RL multi-agente (MARL) è dispendioso in termini di risorse e instabile: la co-adattazione dei membri del team induce non stazionarietà, e le ricompense sono spesso sparse e ad alta varianza. Pertanto, introduciamo il Reinforcement Learning Multi-Agente al Tempo di Test (MATTRL), un framework che inietta esperienza testuale strutturata nella deliberazione multi-agente al momento dell'inferenza. MATTRL forma un team multi-esperto di specialisti per discussioni multi-turno, recupera e integra esperienze al tempo di test, e raggiunge un consenso per il processo decisionale finale. Studiamo anche l'assegnazione del merito per costruire un pool di esperienze a livello di turno, per poi reiniettarle nel dialogo. Su benchmark impegnativi in medicina, matematica e educazione, MATTRL migliora l'accuratezza in media del 3,67% rispetto a una baseline multi-agente, e dell'8,67% rispetto a baseline single-agente comparabili. Studi di ablazione esaminano diversi schemi di assegnazione del merito e forniscono un confronto dettagliato di come questi influenzano i risultati dell'addestramento. MATTRL offre un percorso stabile, efficace ed efficiente per un ragionamento multi-agente robusto allo shift di distribuzione senza necessità di tuning.
La generazione interattiva di video umanoidi mira a sintetizzare agenti visivi realistici in grado di interagire con gli esseri umani attraverso video continui e reattivi. Nonostante i recenti progressi nella sintesi video, i metodi esistenti spesso affrontano un compromesso tra sintesi ad alta fedeltà e requisiti di interazione in tempo reale. In questo articolo proponiamo FlowAct-R1, un framework progettato specificamente per la generazione interattiva in tempo reale di video umanoidi. Basato su un'architettura MMDiT, FlowAct-R1 consente la sintesi in streaming di video di durata arbitraria mantenendo una bassa latenza di risposta. Introduciamo una strategia di diffusione a blocchi (chunkwise diffusion forcing), affiancata da una nuova variante self-forcing, per alleviare l'accumulo di errori e garantire la coerenza temporale a lungo termine durante l'interazione continua. Sfruttando l'addestramento efficiente (distillation) e ottimizzazioni a livello di sistema, il nostro framework raggiunge una frequenza stabile di 25 fps a risoluzione 480p con un tempo per il primo fotogramma (TTFF) di circa 1,5 secondi. Il metodo proposto fornisce un controllo olistico e granulare dell'intero corpo, consentendo all'agente di transitare naturalmente tra diversi stati comportamentali in scenari interattivi. I risultati sperimentali dimostrano che FlowAct-R1 raggiunge un'eccezionale vividezza comportamentale e realismo percettivo, mantenendo al contempo una solida generalizzazione su diversi stili di personaggio.
L'editing di immagini basato su istruzioni rappresenta una delle aree in più rapida evoluzione nell'ambito dell'IA generativa. Nell'ultimo anno, il campo ha raggiunto un nuovo livello, con dozzine di modelli open-source rilasciati insieme a sistemi commerciali altamente capaci. Tuttavia, attualmente solo un numero limitato di approcci open-source raggiunge una qualità adatta per applicazioni reali. Inoltre, le architetture diffusion, la scelta dominante per queste pipeline, sono spesso voluminose e computazionalmente costose per molti deployment e contesti di ricerca, con varianti ampiamente utilizzate che tipicamente contengono da 6 a 20 miliardi di parametri. Questo articolo presenta una pipeline compatta e ad alta produttività per l'editing di immagini basato su istruzioni, che utilizza un moderno modello Qwen3-VL da 2 miliardi di parametri per guidare il processo di editing e il modello diffusion Sana1.5 da 1,6 miliardi di parametri per la generazione dell'immagine. Le nostre scelte progettuali relative all'architettura, all'elaborazione dei dati, alla configurazione dell'addestramento e alla valutazione mirano a un'inferenza a basso costo e a una rigorosa coerenza con l'immagine sorgente, mantenendo al contempo un'alta qualità nelle principali categorie di editing fattibili a questa scala. Valutato sui benchmark ImgEdit e GEdit, il metodo proposto eguaglia o supera le prestazioni di baseline sostanzialmente più pesanti, inclusi modelli con un numero di parametri diverse volte superiore e un costo di inferenza più elevato, ed è particolarmente efficace negli editing che richiedono la preservazione dell'immagine di input, come la regolazione di attributi, la rimozione di oggetti, le modifiche allo sfondo e le sostituzioni mirate. Il modello rientra in 24 GB di memoria GPU e genera immagini modificate con risoluzione fino a 2K in circa 4 secondi su una NVIDIA H100 in precisione BF16, senza ottimizzazioni aggiuntive per l'inferenza o distillazione.
La sfida centrale dell'IA per la Scienza non è il solo ragionamento, ma la capacità di creare metodi computazionali in un mondo scientifico aperto. Gli agenti basati su LLM esistenti si affidano a librerie di strumenti statiche e predefinite, un paradigma che fallisce fondamentalmente in domini scientifici dove gli strumenti sono scarsi, eterogenei e intrinsecamente incompleti. In questo articolo, proponiamo l'Evoluzione degli Strumenti al Momento del Test (Test-Time Tool Evolution, TTE), un nuovo paradigma che consente agli agenti di sintetizzare, verificare ed evolvere strumenti eseguibili durante l'inferenza. Trasformando gli strumenti da risorse fisse in artefatti guidati dal problema, il TTE supera la rigidità e le limitazioni della coda lunga delle librerie di strumenti statiche. Per facilitare una valutazione rigorosa, introduciamo SciEvo, un benchmark che comprende 1.590 compiti di ragionamento scientifico supportati da 925 strumenti evoluti automaticamente. Esperimenti estensivi mostrano che il TTE raggiunge prestazioni all'avanguardia sia in accuratezza che in efficienza degli strumenti, consentendo al contempo un'efficace adattamento cross-dominio degli strumenti computazionali. Il codice e il benchmark sono stati rilasciati su https://github.com/lujiaxuan0520/Test-Time-Tool-Evol.
Presentiamo una famiglia di Modelli Fondamentali Musicali open-source progettati per far progredire la comprensione e la generazione musicale su larga scala attraverso diverse attività e modalità. La nostra architettura si compone di quattro componenti principali: (1) HeartCLAP, un modello di allineamento audio-testo; (2) HeartTranscriptor, un robusto modello di riconoscimento dei testi ottimizzato per scenari musicali del mondo reale; e (3) HeartCodec, un tokenizzatore musicale a bassa frequenza di frame (12,5 Hz) ma ad alta fedeltà, che cattura la struttura musicale a lungo raggio preservando i dettagli acustici di granulometria fine e abilitando una modellazione autoregressiva efficiente; (4) HeartMuLa, un modello di generazione di brani basato su LLM in grado di sintetizzare musica ad alta fedeltà sotto condizioni ricche e controllabili dall'utente (ad es. descrizioni testuali dello stile, testi e audio di riferimento). Inoltre, fornisce due modalità specializzate: (i) controllo granulare degli attributi musicali, che consente agli utenti di specificare lo stile di diverse sezioni del brano (ad es. intro, strofa, ritornello) utilizzando prompt in linguaggio naturale; e (ii) generazione di musica breve e coinvolgente, adatta come musica di sottofondo per video brevi. Infine, HeartMuLa migliora significativamente quando scalato a 7 miliardi di parametri. Per la prima volta, dimostriamo che un sistema di livello commerciale paragonabile a Suno può essere riprodotto utilizzando dati e risorse GPU di scala accademica. Ci aspettiamo che questi modelli fondamentali servano come solide baseline per la ricerca futura e facilitino applicazioni pratiche nella produzione di contenuti multimodali.
L'avanzamento dell'intelligenza artificiale verso una scienza agenziale è attualmente limitato dalla sfida dell'autonomia a orizzonte ultra-lungo, ovvero la capacità di mantenere coerenza strategica e correzione iterativa su cicli sperimentali della durata di giorni o settimane. Sebbene i Large Language Model (LLM) abbiano dimostrato abilità nel ragionamento a breve termine, vengono facilmente sopraffatti dai dettagli esecutivi negli ambienti di ricerca reali ad alto dimensionalità e feedback ritardato, fallendo nel consolidare feedback sporadici in una guida coerente a lungo termine. Qui presentiamo ML-Master 2.0, un agente autonomo che padroneggia l'ingegneria del machine learning (MLE) a orizzonte ultra-lungo, un microcosmo rappresentativo della scoperta scientifica. Riconcettualizzando la gestione del contesto come un processo di accumulo cognitivo, il nostro approccio introduce l'Hierarchical Cognitive Caching (HCC), un'architettura multilivello ispirata ai sistemi informatici che consente la differenziazione strutturale dell'esperienza nel tempo. Dinamicamente distillando tracce esecutive transitorie in conoscenza stabile e saggezza cross-task, l'HCC permette agli agenti di disaccoppiare l'esecuzione immediata dalla strategia sperimentale a lungo termine, superando efficacemente i limiti di scalabilità delle finestre di contesto statiche. Nelle valutazioni su MLE-Bench di OpenAI con budget di 24 ore, ML-Master 2.0 raggiunge un tasso di medaglie state-of-the-art del 56,44%. I nostri risultati dimostrano che l'autonomia a orizzonte ultra-lungo fornisce un modello scalabile per IA capaci di esplorazione autonoma oltre complessità precedentemente affrontate dall'uomo.
I modelli di pre-addestramento visione-linguaggio (VLP) dimostrano prestazioni solide in varie attività downstream apprendendo da coppie immagine-testo su larga scala mediante pre-addestramento contrastivo. La pubblicazione di estesi dataset inglesi di immagini e testi (ad esempio, COYO-700M e LAION-400M) ha favorito l'adozione diffusa di modelli come CLIP e SigLIP in compiti quali la ricerca cross-modale e la descrizione delle immagini. Tuttavia, il progresso del pre-addestramento visione-linguaggio per il cinese è rimasto notevolmente indietro, a causa della scarsità di dati immagine-testo cinesi di alta qualità. Per colmare questa lacuna, abbiamo sviluppato una pipeline completa per la costruzione di un dataset cross-modale cinese di alta qualità. Di conseguenza, proponiamo DanQing, che contiene 100 milioni di coppie immagine-testo raccolte da Common Crawl. A differenza dei dataset esistenti, DanQing è curato attraverso un processo di selezione più rigoroso, ottenendo una qualità dei dati superiore. Inoltre, DanQing è costituito principalmente da dati web del 2024-2025, consentendo ai modelli di cogliere meglio le tendenze semantiche in evoluzione e offrendo quindi una maggiore utilità pratica. Confrontiamo DanQing con i dataset esistenti mediante pre-addestramento continuo del modello SigLIP2. I risultati sperimentali mostrano che DanQing raggiunge costantemente prestazioni superiori in una serie di attività downstream per il cinese, inclusa la classificazione zero-shot, la ricerca cross-modale e valutazioni basate su LMM. Per facilitare ulteriori ricerche nel pre-addestramento visione-linguaggio per il cinese, renderemo open-source il dataset DanQing con licenza Creative Commons CC-BY 4.0.
I modelli di diffusione e di flusso video su larga scala hanno ottenuto un successo notevole nella generazione di video di alta qualità, ma il loro utilizzo in applicazioni interattive in tempo reale rimane limitato a causa del loro processo di campionamento multi-step inefficiente. In questo lavoro, presentiamo Transition Matching Distillation (TMD), un framework innovativo per distillare modelli di diffusione video in generatori efficienti a pochi passi. L'idea centrale di TMD è quella di far corrispondere la traiettoria di denoising multi-step di un modello di diffusione con un processo di transizione di probabilità a pochi passi, dove ogni transizione è modellata come un flusso condizionale leggero. Per abilitare una distillazione efficiente, scomponiamo l'architettura di diffusione originale in due componenti: (1) un'architettura principale, che comprende la maggior parte degli strati iniziali, che estrae rappresentazioni semantiche ad ogni passo di transizione esterno; e (2) un "flow head", costituito dagli ultimi strati, che sfrutta queste rappresentazioni per eseguire aggiornamenti multipli del flusso interno. Dato un modello di diffusione video preaddestrato, introduciamo prima un flow head nel modello e lo adattiamo in una mappa di flusso condizionale. Applichiamo quindi la distillazione per corrispondenza di distribuzione al modello studente con il rollout del flow head in ogni passo di transizione. Esperimenti estesi sulla distillazione dei modelli text-to-video Wan2.1 da 1.3B e 14B parametri dimostrano che TMD fornisce un compromesso flessibile e solido tra velocità di generazione e qualità visiva. In particolare, TMD supera i modelli distillati esistenti con costi di inferenza comparabili in termini di fedeltà visiva e aderenza al prompt. Pagina del progetto: https://research.nvidia.com/labs/genair/tmd
I recenti modelli di generazione video hanno rivelato l'emergere del ragionamento a Catena di Frame (CoF), che abilita l'inferenza visiva frame-by-frame. Grazie a questa capacità, i modelli video sono stati applicati con successo a varie attività visive (ad esempio, risoluzione di labirinti, puzzle visivi). Tuttavia, il loro potenziale per migliorare la generazione da testo a immagine (T2I) rimane in gran parte inesplorato a causa dell'assenza di un punto di partenza chiaramente definito per il ragionamento visivo e di stati intermedi interpretabili nel processo di generazione T2I. Per colmare questa lacuna, proponiamo CoF-T2I, un modello che integra il ragionamento CoF nella generazione T2I tramite un perfezionamento visivo progressivo, dove i frame intermedi fungono da passaggi di ragionamento espliciti e il frame finale viene considerato come output. Per stabilire un tale processo di generazione esplicito, abbiamo curato CoF-Evol-Instruct, un dataset di traiettorie CoF che modellano il processo generativo dalla semantica all'estetica. Per migliorare ulteriormente la qualità ed evitare artefatti di movimento, abilitiamo un'operazione di codifica indipendente per ogni frame. Gli esperimenti mostrano che CoF-T2I supera significativamente il modello video base e raggiunge prestazioni competitive su benchmark impegnativi, ottenendo 0,86 su GenEval e 7,468 su Imagine-Bench. Questi risultati indicano il notevole potenziale dei modelli video per far progredire la generazione di immagini di alta qualità da testo.
Introduciamo Alterbute, un metodo basato sulla diffusione per modificare gli attributi intrinseci di un oggetto in un'immagine. Consentiamo di cambiare colore, texture, materiale e persino la forma di un oggetto, preservandone al contempo l'identità percepita e il contesto della scena. Gli approcci esistenti si basano su principi non supervisionati che spesso non preservano l'identità, oppure utilizzano una supervisione eccessivamente restrittiva che impedisce variazioni intrinseche significative. Il nostro metodo si basa su: (i) un obiettivo di addestramento rilassato che permette al modello di modificare sia gli attributi intrinseci che estrinseci, condizionato da un'immagine di riferimento dell'identità, una richiesta testuale che descrive gli attributi intrinseci target, e un'immagine di sfondo con una maschera dell'oggetto che definisce il contesto estrinseco. Al momento dell'inferenza, limitiamo i cambiamenti estrinseci riutilizzando lo sfondo originale e la maschera dell'oggetto, garantendo così che vengano alterati solo gli attributi intrinseci desiderati; (ii) Entità Nominate Visive (VNE) - categorie di identità visiva granulari (ad esempio, "Porsche 911 Carrera") che raggruppano oggetti che condividono caratteristiche che definiscono l'identità, pur consentendo variazioni negli attributi intrinseci. Utilizziamo un modello visione-linguaggio per estrarre automaticamente etichette VNE e descrizioni degli attributi intrinseci da un ampio dataset di immagini pubbliche, abilitando una supervisione scalabile e preservante l'identità. Alterbute supera i metodi esistenti nella modifica degli attributi intrinseci di oggetti con preservazione dell'identità.
I recenti progressi nei modelli di diffusione (DMs) text-to-image (T2I) hanno reso possibile la sintesi visiva di alta qualità a partire da prompt testuali diversificati. Tuttavia, la maggior parte dei T2I DMs esistenti, anche quelli dotati di encoder di testo basati su grandi modelli linguistici (LLM), rimangono mappatori testo-pixel: impiegano gli LLM semplicemente come encoder di testo, senza sfruttare le loro capacità intrinseche di ragionamento per dedurre cosa dovrebbe essere rappresentato visivamente dato il prompt testuale. Per andare oltre questa generazione letterale, proponiamo il paradigma think-then-generate (T2G), in cui l'encoder di testo basato su LLM è incoraggiato a ragionare e riscrivere i prompt utente grezzi; gli stati dei prompt riscritti fungono poi da condizionamento per la diffusione. Per realizzare ciò, attiviamo innanzitutto lo schema think-then-rewrite dell'encoder LLM con un processo di fine-tuning supervisionato leggero. Successivamente, l'encoder LLM e il backbone di diffusione vengono co-ottimizzati per garantire un ragionamento fedele sul contesto e una resa accurata della semantica tramite Dual-GRPO. In particolare, l'encoder di testo viene rinforzato utilizzando ricompense basate sull'immagine per dedurre e richiamare conoscenze del mondo, mentre il backbone di diffusione è spinto a produrre immagini semanticamente coerenti e visivamente convincenti. Gli esperimenti mostrano miglioramenti sostanziali nella coerenza fattuale, nell'allineamento semantico e nel realismo visivo su benchmark di generazione e editing di immagini basati sul ragionamento, raggiungendo uno score di 0.79 su WISE, quasi alla pari con GPT-4. I nostri risultati costituiscono un passo promettente verso modelli unificati di prossima generazione con capacità di ragionamento, espressione e dimostrazione.
I modelli video-linguistici (VLM) più potenti attualmente disponibili rimangono proprietari. I modelli open-weight più performanti si basano su dati sintetici generati da VLM proprietari, effettivamente distillandone le capacità, oppure non divulgano i propri dati di addestramento o la metodologia. Di conseguenza, la comunità open-source manca delle basi necessarie per migliorare lo stato dell'arte nei modelli linguistici per video (e immagini). Punto cruciale, molte applicazioni downstream richiedono più della semplice comprensione video di alto livello; richiedono il *grounding* – sia tramite puntamento che tramite tracking a livello di pixel. Persino i modelli proprietari sono privi di questa capacità. Presentiamo Molmo2, una nuova famiglia di VLM che rappresentano lo stato dell'arte tra i modelli open-source e dimostrano eccezionali nuove capacità nel grounding guidato da punti in compiti su singola immagine, immagini multiple e video. Il nostro contributo principale è una raccolta di 7 nuovi dataset video e 2 dataset multi-immagine, che include un dataset di descrizioni video molto dettagliate per il pre-training, un dataset di domande e risposte video libere per il fine-tuning, un nuovo dataset di object tracking con query complesse e un innovativo dataset di puntamento video, tutti raccolti senza l'uso di VLM chiusi. Presentiamo inoltre una metodologia di addestramento per questi dati che utilizza uno schema efficiente di impacchettamento e codifica ad albero dei messaggi, e dimostriamo come un'attenzione bidirezionale sui token visivi e una nuova strategia di pesatura dei token migliorino le prestazioni. Il nostro modello da 8B, il migliore nella sua categoria, supera gli altri nella classe dei modelli open weight e data su video brevi, conteggio e descrizione, ed è competitivo sui video lunghi. Sul grounding video, Molmo2 supera significativamente i modelli open-weight esistenti come Qwen3-VL (35.5 vs 29.6 di accuratezza sul conteggio video) e supera modelli proprietari come Gemini 3 Pro in alcuni compiti (38.4 vs 20.0 F1 sul puntamento video e 56.2 vs 41.1 J&F sul tracking video).
L'inferenza di azioni fisiche da osservazioni visive è una capacità fondamentale per far progredire l'intelligenza artificiale nel mondo fisico. Raggiungere questo obiettivo richiede dataset video di azioni su larga scala e a vocabolario aperto che coprano domini ampi. Presentiamo Action100M, un dataset su larga scala costruito a partire da 1,2 milioni di video didattici di Internet (per una durata totale di 14,6 anni), che produce O(100 milioni) di segmenti temporalmente localizzati con supervisione di azioni a vocabolario aperto e descrizioni ricche. Action100M è generato da una pipeline completamente automatizzata che (i) esegue una segmentazione temporale gerarchica utilizzando gli embedding di V-JEPA 2, (ii) produce descrizioni multilivello per frame e segmenti organizzate come un "Albero delle Descrizioni" (Tree-of-Captions), e (iii) aggrega le evidenze con un modello di ragionamento (GPT-OSS-120B) attraverso una procedura di Auto-Affina
Sebbene gli agenti basati su LLM possano interagire con gli ambienti tramite l'invocazione di strumenti esterni, le loro capacità amplificate aumentano anche i rischi per la sicurezza. Monitorare i comportamenti di invocazione degli strumenti a livello di step in tempo reale e intervenire proattivamente prima di un'esecuzione non sicura è fondamentale per il deployment degli agenti, ma rimane un ambito poco esplorato. In questo lavoro, costruiamo innanzitutto TS-Bench, un nuovo benchmark per il rilevamento della sicurezza delle invocazioni di strumenti a livello di step negli agenti LLM. Successivamente, sviluppiamo un modello di guardrail, TS-Guard, utilizzando l'apprendimento per rinforzo multi-task. Il modello rileva proattivamente le azioni di invocazione non sicure prima dell'esecuzione ragionando sulla cronologia delle interazioni. Esso valuta la dannosità della richiesta e le correlazioni azione-attacco, producendo giudizi di sicurezza e feedback interpretabili e generalizzabili. Inoltre, introduciamo TS-Flow, un framework di ragionamento guidato dal feedback del guardrail per agenti LLM, che riduce in media del 65% le invocazioni dannose di strumenti negli agenti di tipo ReAct e migliora il completamento dei task benigni di circa il 10% sotto attacchi di prompt injection.
La rapida evoluzione dei Large Language Model (LLM) e dei Modelli Linguistici Multimodali (MLLM) ha prodotto significativi progressi nelle capacità di ragionamento, percezione e generazione attraverso linguaggio e visione. Tuttavia, rimane incerto se questi avanzamenti comportino miglioramenti proporzionali nella sicurezza, in parte a causa di pratiche valutative frammentate limitate a singole modalità o modelli di minaccia. In questo rapporto, presentiamo una valutazione integrata della sicurezza di 7 modelli all'avanguardia: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro e Seedream 4.5. Valutiamo ciascun modello in contesti linguistici, visivo-linguistici e di generazione di immagini utilizzando un protocollo unificato che integra valutazioni benchmark, valutazioni adversarial, valutazioni multilingue e valutazioni di conformità. L'aggregazione delle nostre valutazioni in classifiche di sicurezza e profili di sicurezza dei modelli attraverso molteplici modalità valutative rivela un panorama della sicurezza estremamente eterogeneo. Mentre GPT-5.2 dimostra prestazioni di sicurezza costantemente solide ed equilibrate in tutte le valutazioni, altri modelli mostrano compromessi pronunciati tra sicurezza benchmark, allineamento adversarial, generalizzazione multilingue e conformità normativa. Sia le modalità linguistiche che visivo-linguistiche mostrano significative vulnerabilità sotto valutazione adversarial, con tutti i modelli che si degradano sostanzialmente nonostante i forti risultati sui benchmark standard. I modelli text-to-image raggiungono un allineamento relativamente più forte nelle categorie di rischio visivo regolamentate, ma rimangono fragili quando sottoposti a prompt adversarial o semanticamente ambigui. Nel complesso, questi risultati dimostrano che la sicurezza nei modelli di frontiera è intrinsecamente multidimensionale – plasmata da modalità, linguaggio e schema valutativo – sottolineando la necessità di valutazioni di sicurezza standardizzate per valutare accuratamente il rischio nel mondo reale e guidare uno sviluppo e dispiegamento responsabile dei modelli.
Il Ragionamento Integrato con Strumenti (TIR) consente ai grandi modelli linguistici (LLM) di affrontare compiti complessi intercalando passaggi di ragionamento con interazioni con strumenti esterni. Tuttavia, i metodi di apprendimento per rinforzo esistenti si basano tipicamente su ricompense a livello di risultato o di traiettoria, assegnando vantaggi uniformi a tutti i passi all'interno di una traiettoria. Questa assegnazione del credito a grana grossa non riesce a distinguere le chiamate agli strumenti efficaci da quelle ridondanti o errate, specialmente in scenari multi-turno a lungo orizzonte. Per affrontare questo problema, proponiamo MatchTIR, un framework che introduce una supervisione a grana fine tramite l'assegnazione di ricompense a livello di turno basata su bipartite matching e una stima del vantaggio a doppio livello. Nello specifico, formuliamo l'assegnazione del credito come un problema di bipartite matching tra tracce predette e ground-truth, utilizzando due strategie di assegnazione per derivare ricompense dense a livello di turno. Inoltre, per bilanciare la precisione dei passi locali con il successo del compito globale, introduciamo uno schema di stima del vantaggio a doppio livello che integra segnali a livello di turno e di traiettoria, assegnando valori di vantaggio distinti ai singoli turni di interazione. Esperimenti estesi su tre benchmark dimostrano la superiorità di MatchTIR. In particolare, il nostro modello da 4B supera la maggior parte dei competitor da 8B, specialmente in compiti multi-turno e a lungo orizzonte. I nostri codici sono disponibili su https://github.com/quchangle1/MatchTIR.
I Large Language Model (LLM) sono emersi come potenti operatori per la ricerca evolutiva, eppure la progettazione di impalcature di ricerca efficienti rimane ad hoc. Sebbene promettenti, gli attuali sistemi con LLM-in-the-loop mancano di un approccio sistematico per gestire il processo evolutivo. Identifichiamo tre distinti modi di fallimento: Inquinamento del Contesto, dove la cronologia degli esperimenti condiziona la generazione futura dei candidati; Collasso della Modalità, dove gli agenti ristagnano in minimi locali a causa di un povero bilanciamento esplorazione-sfruttamento; e Collaborazione Debole, dove strategie di crossover rigide falliscono nello sfruttare efficacemente le traiettorie di ricerca parallele. Introduciamo Progress-Aware Consistent Evolution (PACEvolve), un framework progettato per governare robustamente il contesto dell'agente e le dinamiche di ricerca, per affrontare queste sfide. PACEvolve combina una gestione gerarchica del contesto (HCM) con il pruning per affrontare l'inquinamento del contesto; un backtracking basato su momentum (MBB) per fuggire dai minimi locali; e una politica di campionamento auto-adattativa che unisce backtracking e crossover per una coordinazione dinamica della ricerca (CE), consentendo agli agenti di bilanciare l'affinamento interno con la collaborazione tra traiettorie. Dimostriamo che PACEvolve fornisce un percorso sistematico verso un auto-miglioramento coerente e a lungo termine, raggiungendo risultati allo stato dell'arte su LLM-SR e KernelBench, mentre scopre soluzioni che superano il record su Modded NanoGPT.
La generazione di molecole che soddisfino vincoli numerici precisi su molteplici proprietà fisico-chimiche è un compito cruciale e impegnativo. Sebbene i grandi modelli linguistici (LLM) siano espressivi, faticano a ottenere un controllo multi-obiettivo preciso e un ragionamento numerico senza strutture esterne e feedback. Introduciamo M olGen, un framework a due stadi, aumentato tramite retrieval e operante a livello di frammenti, per la generazione di molecole sotto vincoli multi-proprietà. Stadio I: Generazione del prototipo: un sistema di ragionamento multi-agente esegue modifiche a livello di frammenti ancorate al retrieval per produrre un candidato vicino alla regione ammissibile. Stadio II: Ottimizzazione fine basata su RL: un ottimizzatore a livello di frammenti, addestrato con Group Relative Policy Optimization (GRPO), applica raffinamenti a uno o più hop per minimizzare esplicitamente gli errori sulle proprietà rispetto al nostro obiettivo, regolando al contempo la complessità delle modifiche e la deviazione dal prototipo. Un ampio dataset, curato automaticamente e contenente catene di ragionamento sulle modifiche ai frammenti e i delta delle proprietà misurate, supporta entrambi gli stadi, consentendo una supervisione deterministica e riproducibile e un ragionamento multi-hop controllabile. A differenza dei lavori precedenti, il nostro framework ragiona meglio sulle molecole sfruttando i frammenti e supporta una raffinazione controllata verso obiettivi numerici. Esperimenti sulla generazione con due insiemi di vincoli di proprietà (QED, LogP, Peso Molecolare e HOMO, LUMO) mostrano miglioramenti consistenti in termini di validità e soddisfacimento preciso degli obiettivi multi-proprietà, superando i potenti LLM e gli algoritmi basati su grafi.
I modelli unificati di generazione e modifica di immagini soffrono di una grave interferenza tra compiti nelle architetture dense di transformer diffusivi, dove uno spazio parametrico condiviso deve scendere a compromessi tra obiettivi conflittuali (ad esempio, modifica locale rispetto a generazione guidata dal soggetto). Sebbene il paradigma sparso della Mistura di Esperti (MoE) sia una soluzione promettente, le sue reti di gating rimangono task-agnostic, operando sulla base di caratteristiche locali, inconsapevoli dell'intento globale del compito. Questa natura task-agnostic impedisce una specializzazione significativa e non risolve l'interferenza sottostante tra i compiti. In questo articolo, proponiamo una nuova architettura per iniettare l'intento semantico nell'instradamento MoE. Introduciamo uno schema di Annotazione Semantica Gerarchica dei Compiti per creare descrittori strutturati dei compiti (ad esempio, ambito, tipo, preservazione). Progettiamo quindi una Regolarizzazione per Allineamento Predittivo per allineare le decisioni di instradamento interne con la semantica di alto livello del compito. Questa regolarizzazione evolve la rete di gating da un esecutore task-agnostic a un centro di smistamento. Il nostro modello mitiga efficacemente l'interferenza tra compiti, superando i baseline densi in fedeltà e qualità, e la nostra analisi mostra che gli esperti sviluppano naturalmente specializzazioni chiare e semanticamente correlate.
I modelli generativi video all'avanguardia producono contenuti visivi promettenti, ma violano spesso principi fisici di base, limitandone l'utilità. Sebbene alcuni attribuiscano questa carenza a una comprensione insufficiente della fisica derivante dal pre-addestramento, noi riteniamo che la mancanza di plausibilità fisica derivi anche da strategie di inferenza subottimali. Introduciamo quindi WMReward e trattiamo il miglioramento della plausibilità fisica nella generazione video come un problema di allineamento al momento dell'inferenza. In particolare, sfruttiamo il forte prior fisico di un modello mondiale latente (in questo caso, VJEPA-2) come ricompensa per cercare e guidare multiple traiettorie di denoising candidate, consentendo di scalare il calcolo al momento del test per ottenere prestazioni generative migliori. Empiricamente, il nostro approccio migliora sostanzialmente la plausibilità fisica in contesti di generazione condizionata da immagini, da multi-frame e da testo, con validazione proveniente da uno studio sulle preferenze umane. In modo significativo, nella ICCV 2025 Perception Test PhysicsIQ Challenge, abbiamo ottenuto un punteggio finale del 62,64%, vincendo il primo posto e superando lo stato dell'arte precedente del 7,42%. Il nostro lavoro dimostra la fattibilità dell'utilizzo di modelli mondiali latenti per migliorare la plausibilità fisica della generazione video, al di là di questa specifica istanziazione o parametrizzazione.
La capacità di seguire istruzioni è fondamentale per i grandi modelli linguistici, ma le istruzioni del mondo reale contengono spesso strutture logiche come dipendenze sequenziali e ramificazioni condizionali. I metodi esistenti tipicamente costruiscono dataset con vincoli paralleli e ottimizzano le ricompense medie, ignorando le dipendenze logiche e producendo segnali rumorosi. Proponiamo un framework di addestramento a struttura logica denominato LSRIF che modella esplicitamente la logica delle istruzioni. Costruiamo innanzitutto un dataset LSRInstruct con strutture vincolari di tipo parallelo, sequenziale e condizionale, per poi progettare un metodo di ricompensa structure-aware LSRIF che include: aggregazione media per strutture parallele, propagazione della penalità per fallimenti nelle strutture sequenziali e ricompense selettive per rami condizionali. Gli esperimenti dimostrano che LSRIF apporta miglioramenti significativi nell'aderenza alle istruzioni (in-dominio e out-of-domain) e nel ragionamento generale. L'analisi rivela che l'apprendimento con strutture logiche esplicite induce aggiornamenti parametrici negli strati di attenzione e affina l'attenzione a livello di token verso vincoli e operatori logici.
L'attuale ragionamento multimodale latente si basa spesso su supervisione esterna (ad esempio, immagini ausiliarie), ignorando le dinamiche intrinseche dell'attenzione visiva. In questo lavoro, identifichiamo un **Divario Percettivo** critico nella distillazione: i modelli studente imitano frequentemente l'output testuale di un insegnante mentre si concentrano su regioni visive fondamentalmente divergenti, affidandosi di fatto su prior linguistiche piuttosto che su una percezione fondata. Per colmare questa lacuna, proponiamo **LaViT**, un framework che allinea i **pensieri visivi latenti** anziché embedding statici. LaViT costringe lo studente a ricostruire in modo autoregressivo la semantica visiva e le traiettorie attentive dell'insegnante prima della generazione del testo, impiegando un meccanismo di **cancellazione sensoriale curriculare** per prevenire l'apprendimento per scorciatoie. Esperimenti estesi mostrano che LaViT migliora significativamente il grounding visivo, raggiungendo guadagni fino al +16,9% su compiti di ragionamento complesso e consentendo a un modello compatto da 3B di superare varianti open-source più grandi e modelli proprietari come GPT-4o.
Nonostante i significativi progressi nella generazione 4D, la creazione del rig e del movimento, i componenti strutturali e dinamici fondamentali dell'animazione, sono tipicamente modellati come problemi separati. Le pipeline esistenti si basano su scheletri e pesi di skinning veritieri per la generazione del movimento e trattano l'auto-rigging come un processo indipendente, minando la scalabilità e l'interpretabilità. Presentiamo RigMo, un framework generativo unificato che apprende congiuntamente il rig e il movimento direttamente da sequenze grezze di mesh, senza alcuna annotazione di rig fornita da un operatore umano. RigMo codifica le deformazioni per vertice in due spazi latenti compatti: uno spazio latente del *rig* che decodifica in ossa gaussiane esplicite e pesi di skinning, e uno spazio latente del *motion* che produce trasformazioni SE(3) varianti nel tempo. Insieme, questi output definiscono una mesh animabile con struttura esplicita e movimento coerente, abilitando l'inferenza feed-forward del rig e del movimento per oggetti deformabili. Oltre alla scoperta unificata di rig e movimento, introduciamo un modello Motion-DiT che opera nello spazio latente di RigMo e dimostriamo che questi spazi latenti consapevoli della struttura possono supportare naturalmente attività di generazione del movimento a valle. Esperimenti su DeformingThings4D, Objaverse-XL e TrueBones dimostrano che RigMo apprende rig lisci, interpretabili e fisicamente plausibili, raggiungendo al contempo una ricostruzione e una generalizzazione a livello di categoria superiori rispetto alle baseline esistenti di auto-rigging e deformazione. RigMo stabilisce un nuovo paradigma per la modellazione 3D dinamica unificata, consapevole della struttura e scalabile.
Rappresentazioni 3D potenti come le mappe di punti invarianti DUSt3R, che codificano forma 3D e parametri della fotocamera, hanno fatto progredire significativamente la ricostruzione 3D feed-forward. Sebbene le mappe di punti presuppongano scene statiche, le Mappe di Punti Dinamiche (DPM) estendono questo concetto a contenuti 3D dinamici rappresentando anche il movimento della scena. Tuttavia, le DPM esistenti sono limitate a coppie di immagini e, come DUSt3R, richiedono post-elaborazione tramite ottimizzazione quando sono coinvolte più di due viste. Sosteniamo che le DPM siano più utili se applicate ai video e introduciamo V-DPM per dimostrarlo. In primo luogo, mostriamo come formulare le DPM per input video in modo da massimizzare il potere rappresentativo, facilitare la previsione neurale e consentire il riutilizzo di modelli pre-addestrati. In secondo luogo, implementiamo queste idee su VGGT, un recente e potente ricostruttore 3D. Sebbene VGGT sia stato addestrato su scene statiche, dimostriamo che una modesta quantità di dati sintetici è sufficiente per adattarlo in un efficace predittore V-DPM. Il nostro approccio raggiunge prestazioni all'avanguardia nella ricostruzione 3D e 4D per scene dinamiche. In particolare, a differenza di recenti estensioni dinamiche di VGGT come P3, le DPM recuperano non solo la profondità dinamica ma anche il movimento 3D completo di ogni punto della scena.
Rilevare le risposte elusive nelle conference call sui risultati è fondamentale per la trasparenza finanziaria, ma i progressi sono ostacolati dalla mancanza di benchmark su larga scala. Presentiamo EvasionBench, che comprende 30.000 campioni di addestramento e 1.000 campioni di test annotati manualmente (Kappa di Cohen 0,835) su tre livelli di elusione. Il nostro contributo principale è un framework di annotazione multi-modello che sfrutta un'intuizione chiave: il disaccordo tra i modelli linguistici all'avanguardia segnala esempi complessi più preziosi per l'addestramento. Estraiamo casi limite in cui due annotatori forti sono in conflitto, utilizzando un giudice per risolvere le etichette. Questo approccio supera la distillazione a modello singolo del 2,4%, con i campioni risolti dal giudice che migliorano la generalizzazione nonostante una loss di addestramento più alta (0,421 vs 0,393) - evidenza che l'estrazione del disaccordo agisce come regolarizzazione implicita. Il nostro modello addestrato Eva-4B (4 miliardi di parametri) raggiunge un'accuratezza dell'81,3%, superando il modello base di 25 punti percentuali e avvicinandosi alle prestazioni dei modelli linguistici all'avanguardia a una frazione del costo di inferenza.
Il miglioramento delle capacità di ragionamento dei Large Language Model (LLM) è stato un tema di costante interesse recentemente. Tuttavia, la maggior parte dei lavori pertinenti si basa su ricompense di risultato a livello di traiettoria, tralasciando una supervisione granulare durante il processo di ragionamento. Altri framework di addestramento esistenti che tentano di combinare i segnali di processo per ottimizzare gli LLM dipendono fortemente da passaggi aggiuntivi tediosi come il MCTS, l'addestramento di un modello di ricompensa separato, ecc., danneggiando l'efficienza dell'addestramento. Inoltre, l'intuizione alla base della progettazione dei segnali di processo manca di un supporto teorico rigoroso, lasciando opaca la comprensione del meccanismo di ottimizzazione. In questo articolo, proponiamo il Process Reward Learning (PRL), che scompone l'obiettivo di reinforcement learning con regolarizzazione dell'entropia in passaggi intermedi, con ricompense di processo rigorose che possono essere assegnate di conseguenza ai modelli. Partendo dalla motivazione teorica, deriviamo la formulazione del PRL che è essenzialmente equivalente all'obiettivo di massimizzazione della ricompensa più un termine di penalità della divergenza KL tra il modello della policy e un modello di riferimento. Tuttavia, il PRL può trasformare la ricompensa di risultato in segnali di supervisione del processo, aiutando a guidare meglio l'esplorazione durante l'ottimizzazione RL. Dai nostri risultati sperimentali, dimostriamo che il PRL non solo migliora le prestazioni medie della capacità di ragionamento degli LLM misurata dalla metrica average @ n, ma amplia anche il confine del ragionamento migliorando la metrica pass @ n. Esperimenti estensivi mostrano che l'efficacia del PRL può essere verificata e generalizzata.
Gli agenti di role-playing (RP) si basano su profili comportamentali per agire in modo coerente in diversi contesti narrativi, tuttavia i profili esistenti sono in gran parte non strutturati, non eseguibili e debolmente validati, portando a comportamenti degli agenti fragili. Proponiamo gli Alberi Decisionali Codificati (CDT), un framework basato sui dati che induce una struttura decisionale eseguibile e interpretabile da dati narrativi su larga scala. CDT rappresenta i profili comportamentali come un albero di regole condizionali, in cui i nodi interni corrispondono a condizioni di scena validate e le foglie codificano affermazioni comportamentali fondate, consentendo il recupero deterministico di regole appropriate al contesto in fase di esecuzione. L'albero viene appreso inducendo iterativamente regole candidate scena-azione, validandole rispetto ai dati e affinandole attraverso una specializzazione gerarchica, producendo profili che supportano l'ispezione trasparente e aggiornamenti principiati. Su molteplici benchmark, CDT supera sostanzialmente i profili scritti da umani e i metodi precedenti di induzione dei profili su 85 personaggi attraverso 16 artefatti, indicando che rappresentazioni comportamentali codificate e validate portano a un ancoraggio degli agenti più affidabile.
La traduzione del testo clinico in SQL nel mondo reale richiede la capacità di ragionare su tabelle eterogenee di EHR, finestre temporali e coorti di similarità tra pazienti per produrre query eseguibili. Introduciamo CLINSQL, un benchmark di 633 task annotati da esperti su MIMIC-IV v3.1 che richiede join multi-tabella, filtri clinicamente significativi e SQL eseguibile. Risolvere CLINSQL implica navigare metadati dello schema e sistemi di codifica clinica, gestire contesti lunghi e comporre query multi-step che vanno oltre il tradizionale text-to-SQL. Valutiamo 22 modelli proprietari e open-source sotto il perfezionamento autonomo a catena del pensiero (Chain-of-Thought), utilizzando un'analisi SQL basata su rubriche con controlli di esecuzione che danno priorità ai requisiti clinici critici. Nonostante i recenti progressi, le prestazioni rimangono lontane dall'affidabilità clinica: sul set di test, GPT-5-mini raggiunge il 74,7% di punteggio di esecuzione, DeepSeek-R1 guida l'open source con il 69,2% e Gemini-2.5-Pro scende dall'85,5% sui task Facili al 67,2% su quelli Difficili. I progressi su CLINSQL segnano avanzamenti tangibili verso un text-to-SSQL clinicamente affidabile per l'analisi di EHR nel mondo reale.
Questo studio indaga l'utilizzo dell'ingegneria dei prompt per potenziare i grandi modelli linguistici (LLM), in particolare GPT-4o-mini e gemini-1.5-flash, in compiti di analisi del sentimento. Valuta tecniche avanzate di prompting come l'apprendimento con pochi esempi (few-shot learning), il prompting a catena di pensiero (chain-of-thought) e l'auto-consistenza, confrontandole con un approccio baseline. I compiti chiave includono la classificazione del sentimento, l'analisi del sentimento basata su aspetti e il rilevamento di sfumature sottili come l'ironia. La ricerca descrive nel dettaglio i fondamenti teorici, i dataset e i metodi utilizzati, valutando le prestazioni degli LLM attraverso accuratezza, richiamo, precisione e punteggio F1. I risultati rivelano che il prompting avanzato migliora significativamente l'analisi del sentimento: l'approccio few-shot eccelle in GPT-4o-mini, mentre il prompting a catena di pensiero potenzia il rilevamento dell'ironia in gemini-1.5-flash fino al 46%. Pertanto, sebbene le tecniche di prompting avanzato migliorino complessivamente le prestazioni, il fatto che il prompting con pochi esempi funzioni meglio per GPT-4o-mini e che il prompting a catena di pensiero eccella in gemini-1.5-flash per il rilevamento dell'ironia suggerisce che le strategie di prompting debbano essere calibrate sia sul modello che sul compito specifico. Ciò evidenzia l'importanza di allineare la progettazione dei prompt sia all'architettura dell'LLM che alla complessità semantica del compito.
L'ascesa dei framework di agenti IA ha introdotto le cosiddette "skill" (competenze) degli agenti, pacchetti modulari contenenti istruzioni e codice eseguibile che estendono dinamicamente le capacità degli agenti. Sebbene questa architettura consenta una potente personalizzazione, le skill vengono eseguite con un'implicita fiducia e una verifica minima, creando una superficie d'attacco significativa ma non ancora caratterizzata. Conduciamo la prima analisi di sicurezza empirica su larga scala di questo ecosistema emergente, raccogliendo 42.447 skill da due marketplace principali e analizzandone sistematicamente 31.132 utilizzando SkillScan, un framework di rilevamento multi-stadio che integra l'analisi statica con la classificazione semantica basata su LLM. I nostri risultati rivelano rischi per la sicurezza pervasivi: il 26,1% delle skill contiene almeno una vulnerabilità, che abbraccia 14 pattern distinti raggruppati in quattro categorie: prompt injection, esfiltrazione dei dati, escalation dei privilegi e rischi della supply chain. L'esfiltrazione dei dati (13,3%) e l'escalation dei privilegi (11,8%) sono le più prevalenti, mentre il 5,2% delle skill mostra pattern ad alta gravità che suggeriscono fortemente intenti malevoli. Rileviamo che le skill che includono script eseguibili hanno una probabilità 2,12 volte maggiore di contenere vulnerabilità rispetto alle skill composte da sole istruzioni (OR=2,12, p<0,001). I nostri contributi includono: (1) una tassonomia delle vulnerabilità fondata empiricamente, derivata dall'analisi di 8.126 skill vulnerabili, (2) una metodologia di rilevamento validata che raggiunge una precisione dell'86,7% e un recall dell'82,5%, e (3) un dataset aperto e un toolkit di rilevamento per supportare la ricerca futura. Questi risultati dimostrano l'urgente necessità di sistemi di autorizzazione basati sulle capacità e di controlli di sicurezza obbligatori prima che questo vettore d'attacco venga ulteriormente sfruttato.
Gli agenti di IA sono vulnerabili ad attacchi di prompt injection, in cui contenuti malevoli dirottano il comportamento dell'agente per rubare credenziali o causare perdite finanziarie. L'unica difesa robusta nota è l'isolamento architetturale che separa rigorosamente la pianificazione affidabile dei compiti dalle osservazioni non affidabili dell'ambiente. Tuttavia, applicare questo progetto agli Agenti per l'Uso del Computer (CUA) – sistemi che automatizzano i compiti visualizzando schermi ed eseguendo azioni – presenta una sfida fondamentale: gli agenti attuali richiedono l'osservazione continua dello stato dell'interfaccia utente (UI) per determinare ogni azione, entrando in conflitto con l'isolamento richiesto per la sicurezza. Risolviamo questa tensione dimostrando che i flussi di lavoro dell'interfaccia utente, sebbene dinamici, sono strutturalmente prevedibili. Introduciamo la Pianificazione Single-Shot per i CUA, in cui un pianificatore affidabile genera un grafo di esecuzione completo con rami condizionali prima di qualsiasi osservazione di contenuti potenzialmente malevoli, fornendo garanzie verificabili di integrità del flusso di controllo contro iniezioni arbitrarie di istruzioni. Sebbene questo isolamento architetturale prevenga con successo le iniezioni di istruzioni, dimostriamo che sono necessarie misure aggiuntive per prevenire gli attacchi di Branch Steering, che manipolano gli elementi dell'interfaccia utente per innescare percorsi validi non intenzionali all'interno del piano. Valutiamo il nostro progetto su OSWorld e manteniamo fino al 57% delle prestazioni dei modelli all'avanguardia, migliorando al contempo le prestazioni dei modelli open-source più piccoli fino al 19%, dimostrando che sicurezza rigorosa e utilità possono coesistere nei CUA.
Presentiamo WildRayZer, un framework auto-supervisionato per la sintesi di nuove viste (NVS) in ambienti dinamici in cui si muovono sia la telecamera che gli oggetti. I contenuti dinamici infrangono la consistenza multi-vista su cui si basano i modelli NVS statici, portando a effetti di ghosting, geometrie allucinate e stime della posa instabili. WildRayZer affronta questo problema eseguendo un test di analisi per sintesi: un renderer statico che considera solo il movimento della telecamera spiega la struttura rigida, e i suoi residui rivelano le regioni transitorie. Da questi residui, costruiamo maschere di movimento pseudo, distilliamo uno stimatore del movimento e lo utilizziamo per mascherare i token di input e regolare i gradienti della loss, in modo che la supervisione si concentri sul completamento dello sfondo tra viste diverse. Per abilitare addestramento e valutazione su larga scala, abbiamo curato Dynamic RealEstate10K (D-RE10K), un dataset del mondo reale di 15K sequenze dinamiche acquisite in modo casuale, e D-RE10K-iPhone, un benchmark associato per NVS sparse-view con consapevolezza dei transitori, contenente coppie di viste transitorie e pulite. Gli esperimenti mostrano che WildRayZer supera costantemente i metodi baseline basati su ottimizzazione e feed-forward sia nella rimozione delle regioni transitorie che nella qualità NVS a frame completo, con una singola passata feed-forward.
L'apprendimento di consistenza con perturbazione delle caratteristiche è una strategia ampiamente utilizzata nella segmentazione semi-supervisionata di immagini mediche. Tuttavia, molti metodi di perturbazione esistenti si basano sul dropout, richiedendo quindi una regolazione manuale accurata del tasso di dropout, che è un iperparametro sensibile, spesso difficile da ottimizzare e che può portare a una regolarizzazione subottimale. Per superare questa limitazione, proponiamo VQ-Seg, il primo approccio che utilizza la quantizzazione vettoriale (VQ) per discretizzare lo spazio delle caratteristiche e introduce un nuovo e controllabile Modulo di Perturbazione Quantizzata (QPM) che sostituisce il dropout. Il nostro QPM perturba le rappresentazioni discrete rimescolando le posizioni spaziali degli indici del codebook, consentendo una regolarizzazione efficace e controllabile. Per mitigare la potenziale perdita di informazioni causata dalla quantizzazione, progettiamo un'architettura a doppio ramo in cui lo spazio delle caratteristiche post-quantizzazione è condiviso sia dal compito di ricostruzione dell'immagine che da quello di segmentazione. Inoltre, introduciamo un Adattatore delle Caratteristiche Post-VQ (PFA) per incorporare la guida di un modello base (FM), integrando così le informazioni semantiche di alto livello perse durante la quantizzazione. Ulteriormente, abbiamo raccolto un dataset su larga scala sul Cancro al Polmone (LC) comprendente 828 scansioni TC annotate per carcinoma polmonare di tipo centrale. Esperimenti estensivi sul dataset LC e su altri benchmark pubblici dimostrano l'efficacia del nostro metodo, che supera gli approcci all'avanguardia. Codice disponibile all'indirizzo: https://github.com/script-Yang/VQ-Seg.
I Modelli Linguistici di Grande Dimensione (LLM) mostrano spesso pattern di attenzione "slash", in cui i punteggi di attenzione si concentrano lungo la Δ-esima sub-diagonale per un certo offset Δ. Questi pattern svolgono un ruolo chiave nel trasferire informazioni tra i token. Ma perché emergono? In questo articolo, demistifichiamo l'emergere di queste Teste a Dominanza Slash (SDH) da prospettive sia empiriche che teoriche. In primo luogo, analizzando LLM open-source, scopriamo che le SDH sono intrinseche ai modelli e si generalizzano a prompt fuori distribuzione. Per spiegare l'emergenza intrinseca, analizziamo le query, le key e l'Incorporamento Posizionale Rotatorio (RoPE), che determinano congiuntamente i punteggi di attenzione. La nostra analisi empirica rivela due condizioni caratteristiche delle SDH: (1) Le query e le key sono quasi di rango uno, e (2) Il RoPE è dominato da componenti a frequenza media e alta. In queste condizioni, le query e le key sono quasi identiche tra i token, e le interazioni tra le componenti a frequenza media e alta del RoPE danno origine alle SDH. Oltre all'evidenza empirica, mostriamo teoricamente che queste condizioni sono sufficienti a garantire l'emergere delle SDH formalizzandole come nostre assunzioni di modellazione. In particolare, analizziamo la dinamica di addestramento di un Transformer superficiale equipaggiato con RoPE sotto queste condizioni, e dimostriamo che i modelli addestrati tramite discesa del gradiente esibiscono SDH. Le SDH si generalizzano a prompt fuori distribuzione.
I Large Language Model (LLM) sono diventati un pilastro per molte applicazioni quotidiane. Tuttavia, con l'evolversi dei dati, la loro conoscenza diventa rapidamente obsoleta. L'apprendimento continuo mira ad aggiornare gli LLM con nuove informazioni senza cancellare le conoscenze acquisite in precedenza. Sebbene metodi come il fine-tuning completo possano incorporare nuovi dati, sono computazionalmente costosi e inclini alla dimenticanza catastrofica, in cui la conoscenza precedente viene sovrascritta. Gli approcci aumentati con memoria affrontano questo problema dotando gli LLM di una memory bank, ovvero un modulo di memoria esterno che memorizza le informazioni per un uso futuro. Tuttavia, questi metodi affrontano una limitazione critica; in particolare, la memory bank cresce costantemente nello scenario del mondo reale quando arrivano flussi di dati su larga scala. In questo articolo, proponiamo MBC, un modello che comprime la memory bank attraverso una strategia di ottimizzazione del codebook durante l'apprendimento adattativo online. Per garantire un apprendimento stabile, introduciamo anche un meccanismo di reset online che previene il collasso del codebook. Inoltre, utilizziamo la Key-Value Low-Rank Adaptation negli strati di attenzione dell'LLM, consentendo un utilizzo efficiente delle rappresentazioni di memoria compresse. Esperimenti con dataset benchmark di question-answering dimostrano che MBC riduce la dimensione della memory bank allo 0.3% rispetto al baseline più competitivo, mantenendo un'elevata accuratezza di ritenzione durante l'apprendimento adattativo online. Il nostro codice è pubblicamente disponibile all'indirizzo https://github.com/Thomkat/MBC.