Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Ovis2.5, un successore di Ovis2 progettato per la percezione visiva a risoluzione nativa e un forte ragionamento multimodale. Ovis2.5 integra un vision transformer a risoluzione nativa che elabora le immagini alle loro risoluzioni native e variabili, evitando il degrado causato dalla suddivisione in riquadri a risoluzione fissa e preservando sia i dettagli fini che il layout globale — elementi cruciali per contenuti visivamente densi come grafici complessi. Per potenziare il ragionamento, addestriamo il modello a superare il ragionamento a catena lineare e a eseguire riflessioni, inclusa l'autoverifica e la revisione. Questa capacità avanzata è esposta come una modalità opzionale di "pensiero" durante l'inferenza, consentendo agli utenti di scambiare la latenza con una maggiore accuratezza su input difficili. Il modello è addestrato attraverso un curriculum completo in cinque fasi che costruisce progressivamente le sue competenze. Il processo inizia con un pre-addestramento visivo e multimodale di base, prosegue con un tuning su larga scala delle istruzioni e culmina con il miglioramento dell'allineamento e del ragionamento utilizzando DPO e GRPO. Per scalare questi aggiornamenti in modo efficiente, utilizziamo il packing di dati multimodali e il parallelismo ibrido, ottenendo un significativo miglioramento end-to-end della velocità. Rilasciamo due modelli open-source: Ovis2.5-9B e Ovis2.5-2B. Quest'ultimo continua la filosofia "piccolo modello, grandi prestazioni" di Ovis2, rendendolo ideale per scenari con risorse limitate e su dispositivo. Nella classifica multimodale di OpenCompass, Ovis2.5-9B ottiene una media di 78.3, segnando un sostanziale miglioramento rispetto al suo predecessore, Ovis2-8B, e raggiungendo risultati all'avanguardia tra i MLLM open-source nel range di parametri sotto i 40B; Ovis2.5-2B ottiene un punteggio di 73.9, stabilendo lo stato dell'arte per la sua dimensione. Oltre ai punteggi aggregati, Ovis2.5 raggiunge risultati leader nei benchmark STEM, mostra forti capacità nei task di grounding e video e ottiene lo stato dell'arte open-source alla sua scala per l'analisi di grafici complessi.
La comprensione narrativa di storie lunghe e romanzi è sempre stata un dominio impegnativo a causa delle loro trame intricate e delle relazioni complesse e spesso in evoluzione tra personaggi ed entità. Considerando la capacità ridotta dei modelli linguistici di grandi dimensioni (LLM) di ragionare su contesti estesi e l'elevato costo computazionale, gli approcci basati sul retrieval continuano a svolgere un ruolo fondamentale nella pratica. Tuttavia, i tradizionali metodi RAG possono risultare insufficienti a causa del loro processo di retrieval stateless e a singolo passaggio, che spesso trascura la natura dinamica della cattura delle relazioni interconnesse all'interno di contesti di lunga durata. In questo lavoro, proponiamo ComoRAG, basandoci sul principio che il ragionamento narrativo non è un processo one-shot, ma un'interazione dinamica e in evoluzione tra l'acquisizione di nuove evidenze e il consolidamento di conoscenze passate, analogo alla cognizione umana quando si ragiona con segnali legati alla memoria nel cervello. Nello specifico, quando incontra un'impasse nel ragionamento, ComoRAG attraversa cicli iterativi di ragionamento interagendo con uno spazio di memoria dinamico. In ogni ciclo, genera query esplorative per delineare nuovi percorsi di indagine, quindi integra le evidenze recuperate di nuovi aspetti in un pool di memoria globale, supportando così l'emergere di un contesto coerente per la risoluzione della query. Su quattro benchmark narrativi di contesto lungo (200K+ token), ComoRAG supera i forti baseline RAG con guadagni relativi consistenti fino all'11% rispetto al baseline più forte. Un'ulteriore analisi rivela che ComoRAG è particolarmente vantaggioso per query complesse che richiedono una comprensione globale, offrendo un paradigma motivato cognitivamente e basato su principi per la comprensione del contesto lungo basata sul retrieval verso un ragionamento stateful. Il nostro codice è pubblicamente disponibile all'indirizzo https://github.com/EternityJune25/ComoRAG.
Presentiamo 4DNeX, il primo framework feed-forward per la generazione di rappresentazioni di scene 4D (ovvero 3D dinamiche) a partire da una singola immagine. A differenza dei metodi esistenti che si basano su ottimizzazioni computazionalmente intensive o richiedono input video multi-frame, 4DNeX consente una generazione efficiente e end-to-end da immagine a 4D attraverso il fine-tuning di un modello di diffusione video pre-addestrato. Nello specifico, 1) per mitigare la scarsità di dati 4D, abbiamo costruito 4DNeX-10M, un dataset su larga scala con annotazioni 4D di alta qualità generate utilizzando approcci avanzati di ricostruzione. 2) Introduciamo una rappresentazione video unificata a 6D che modella congiuntamente sequenze RGB e XYZ, facilitando l'apprendimento strutturato sia dell'aspetto che della geometria. 3) Proponiamo una serie di strategie di adattamento semplici ma efficaci per riutilizzare modelli di diffusione video pre-addestrati per la modellazione 4D. 4DNeX produce nuvole di punti dinamiche di alta qualità che abilitano la sintesi di video da nuove prospettive. Esperimenti estensivi dimostrano che 4DNeX supera i metodi esistenti di generazione 4D in termini di efficienza e generalizzabilità, offrendo una soluzione scalabile per la modellazione da immagine a 4D e gettando le basi per modelli generativi 4D che simulano l'evoluzione dinamica delle scene.
I modelli linguistici di grandi dimensioni (LLM) hanno ottenuto risultati impressionanti nella comprensione, generazione e ragionamento del linguaggio, spingendo i limiti delle capacità dei modelli multimodali. I modelli Transformer, alla base dei moderni LLM, offrono una solida baseline con eccellenti proprietà di scalabilità. Tuttavia, l'architettura tradizionale dei Transformer richiede calcoli sostanziali e pone significativi ostacoli per l'addestramento su larga scala e il dispiegamento pratico. In questa rassegna, offriamo un'esame sistematico delle architetture innovative di LLM che affrontano le limitazioni intrinseche dei Transformer e migliorano l'efficienza. Partendo dalla modellazione del linguaggio, questa rassegna copre i dettagli tecnici e il contesto dei metodi di modellazione lineare e sparsa delle sequenze, le varianti efficienti dell'attenzione completa, le misture sparse di esperti, le architetture ibride che incorporano le tecniche sopra menzionate e i nuovi LLM basati su diffusione. Inoltre, discutiamo le applicazioni di queste tecniche ad altre modalità e consideriamo le loro implicazioni più ampie per lo sviluppo di modelli di base scalabili e consapevoli delle risorse. Raggruppando gli studi recenti nelle categorie sopra descritte, questa rassegna presenta una mappa delle moderne architetture efficienti di LLM, e speriamo che ciò possa contribuire a motivare future ricerche verso sistemi di IA più efficienti e versatili.
Proponiamo un approccio innovativo alla generazione di immagini scomponendo un'immagine in una sequenza strutturata, in cui ogni elemento della sequenza condivide la stessa risoluzione spaziale ma differisce nel numero di token unici utilizzati, catturando diversi livelli di granularità visiva. La generazione delle immagini viene eseguita attraverso il nostro nuovo framework di generazione Next Visual Granularity (NVG), che genera una sequenza di granularità visiva partendo da un'immagine vuota e la affina progressivamente, dal layout globale ai dettagli fini, in modo strutturato. Questo processo iterativo codifica una rappresentazione gerarchica e stratificata che offre un controllo fine sul processo di generazione attraverso più livelli di granularità. Addestriamo una serie di modelli NVG per la generazione di immagini condizionata alla classe sul dataset ImageNet e osserviamo un chiaro comportamento di scaling. Rispetto alla serie VAR, NVG supera costantemente in termini di punteggi FID (3.30 -> 3.03, 2.57 ->2.44, 2.09 -> 2.06). Condividiamo inoltre un'analisi approfondita per dimostrare le capacità e il potenziale del framework NVG. Il nostro codice e i modelli saranno rilasciati.
La Classifier-free Guidance (CFG) è una tecnica ampiamente utilizzata nei moderni modelli di diffusione per migliorare la qualità dei campioni e l'aderenza ai prompt. Tuttavia, attraverso un'analisi empirica sulla modellazione di miscele gaussiane con una soluzione in forma chiusa, osserviamo una discrepanza tra i risultati subottimali prodotti dalla CFG e la verità di riferimento. L'eccessiva dipendenza del modello da queste previsioni subottimali spesso porta a incoerenze semantiche e output di bassa qualità. Per affrontare questo problema, dimostriamo empiricamente che le previsioni subottimali del modello possono essere efficacemente affinate utilizzando sotto-reti del modello stesso. Basandoci su questa intuizione, proponiamo S^2-Guidance, un metodo innovativo che sfrutta il dropout stocastico di blocchi durante il processo di forward per costruire sotto-reti stocastiche, guidando efficacemente il modello lontano da potenziali previsioni di bassa qualità e verso output di alta qualità. Esperimenti qualitativi e quantitativi estesi su task di generazione testo-immagine e testo-video dimostrano che S^2-Guidance offre prestazioni superiori, superando costantemente la CFG e altre strategie di guida avanzate. Il nostro codice verrà rilasciato.
I Large Language Model (LLM) sono altamente sensibili a variazioni sottili e non semantiche nella formulazione e formattazione dei prompt. In questo lavoro, presentiamo la prima valutazione sistematica di 5 metodi per migliorare la robustezza dei prompt all'interno di un framework sperimentale unificato. Abbiamo testato queste tecniche su 8 modelli delle famiglie Llama, Qwen e Gemma, utilizzando 52 task del dataset Natural Instructions. La nostra valutazione copre metodi di robustezza sia per il paradigma del fine-tuning che dell'in-context learning, testandone la generalizzazione rispetto a molteplici tipi di shift distributivi. Infine, estendiamo la nostra analisi a GPT-4.1 e DeepSeek V3 per valutare l'attuale robustezza dei modelli di frontiera alle perturbazioni di formato. I nostri risultati offrono indicazioni pratiche sull'efficacia relativa di questi metodi di robustezza, consentendo ai professionisti di prendere decisioni informate quando si mira a ottenere prestazioni stabili e affidabili degli LLM in applicazioni reali. Codice: https://github.com/AIRI-Institute/when-punctuation-matters.
I modelli multi-modali hanno compiuto progressi significativi negli ultimi anni. Tuttavia, continuano a mostrare limitazioni evidenti nella comprensione e nel ragionamento spaziale, capacità fondamentali per raggiungere l'intelligenza artificiale generale. Con il recente rilascio di GPT-5, presumibilmente il modello di IA più potente fino ad oggi, è opportuno esaminare dove si collocano i modelli più avanzati nel percorso verso l'intelligenza spaziale. In primo luogo, proponiamo una tassonomia completa dei compiti spaziali che unifica i benchmark esistenti e discutiamo le sfide nel garantire una valutazione equa. Successivamente, valutiamo i modelli proprietari e open-source all'avanguardia su otto benchmark chiave, con un costo superiore a un miliardo di token totali. Il nostro studio empirico rivela che (1) GPT-5 dimostra una forza senza precedenti nell'intelligenza spaziale, ma (2) rimane comunque al di sotto delle prestazioni umane in un'ampia gamma di compiti. Inoltre, (3) identifichiamo i problemi più impegnativi di intelligenza spaziale per i modelli multi-modali, e (4) i modelli proprietari non mostrano un vantaggio decisivo di fronte ai problemi più difficili. In aggiunta, conduciamo una valutazione qualitativa su un insieme diversificato di scenari che sono intuitivi per gli esseri umani ma che falliscono anche nei modelli multi-modali più avanzati.
I grandi modelli linguistici (LLM) hanno dimostrato capacità notevoli in compiti di ragionamento passo-passo isolati come la matematica e la programmazione, ma la loro competenza nella pianificazione a lungo termine, dove le soluzioni richiedono sequenze estese e strutturate di azioni interdipendenti, rimane poco esplorata. Gli attuali benchmark valutano tipicamente gli LLM attraverso compiti algoritmici astratti o a bassa dimensionalità, non riuscendo a catturare la complessità degli ambienti di pianificazione realistici. Introduciamo HeroBench, un nuovo benchmark progettato specificamente per valutare la pianificazione a lungo termine e il ragionamento strutturato all'interno di mondi virtuali complessi ispirati ai giochi di ruolo. HeroBench fornisce un dataset rigorosamente costruito di compiti che coprono un'ampia gamma di difficoltà, un ambiente simulato per eseguire e validare i piani degli agenti, e strumenti analitici dettagliati per valutare le prestazioni dei modelli. I compiti sfidano i modelli a formulare piani strategici, raccogliere risorse in modo efficiente, padroneggiare le abilità necessarie, creare equipaggiamenti e sconfiggere avversari, riflettendo le dipendenze stratificate e i vincoli degli scenari pratici. La nostra valutazione estesa di 25 LLM all'avanguardia, che includono sia modelli open-source che proprietari, tra cui la famiglia GPT-5, rivela disparità di prestazioni sostanziali raramente osservate nei benchmark di ragionamento convenzionali. Un'analisi dettagliata degli errori svela ulteriori specifiche debolezze nelle capacità dei modelli attuali di generare piani di alto livello robusti e di eseguire azioni strutturate in modo affidabile. HeroBench non solo avanza significativamente la valutazione del ragionamento degli LLM, ma fornisce anche una base flessibile e scalabile per la ricerca futura sulla pianificazione avanzata e autonoma negli ambienti virtuali.
I recenti progressi nella generazione di video interattivi hanno dimostrato il potenziale dei modelli di diffusione come modelli del mondo, catturando dinamiche fisiche complesse e comportamenti interattivi. Tuttavia, gli attuali modelli interattivi del mondo dipendono da un'attenzione bidirezionale e da passaggi di inferenza prolungati, limitando gravemente le prestazioni in tempo reale. Di conseguenza, risulta difficile simulare le dinamiche del mondo reale, dove i risultati devono aggiornarsi istantaneamente in base al contesto storico e alle azioni correnti. Per affrontare questo problema, presentiamo Matrix-Game 2.0, un modello interattivo del mondo che genera video lunghi al volo attraverso una diffusione auto-regressiva a pochi passaggi. Il nostro framework è composto da tre componenti chiave: (1) Una pipeline scalabile per la produzione di dati negli ambienti Unreal Engine e GTA5, in grado di produrre efficacemente grandi quantità (circa 1200 ore) di dati video con annotazioni di interazione diversificate; (2) Un modulo di iniezione di azioni che consente input di mouse e tastiera a livello di frame come condizioni interattive; (3) Una distillazione a pochi passaggi basata sull'architettura causale per la generazione di video in tempo reale e in streaming. Matrix-Game 2.0 può generare video di alta qualità a livello di minuti in diverse scene a una velocità ultra-rapida di 25 FPS. Rendiamo open-source i pesi del nostro modello e il codice per promuovere la ricerca nella modellazione interattiva del mondo.
Presentiamo AuriStream, un modello ispirato alla biologia per la codifica del parlato attraverso un framework a due stadi ispirato alla gerarchia di elaborazione uditiva umana. Il primo stadio trasforma l'audio grezzo in una rappresentazione tempo-frequenza basata sulla coclea umana, da cui estraiamo token cocleari discreti. Il secondo stadio applica un modello sequenziale autoregressivo sui token cocleari. AuriStream apprende rappresentazioni significative di fonemi e parole, nonché una semantica lessicale all'avanguardia. AuriStream dimostra prestazioni competitive su una varietà di task di parlato downstream del benchmark SUPERB. Complementando le solide capacità rappresentative di AuriStream, il modello genera continuazioni audio che possono essere visualizzate nello spazio degli spettrogrammi e decodificate nuovamente in audio, fornendo intuizioni sulle previsioni del modello. In sintesi, presentiamo un framework a due stadi per l'apprendimento di rappresentazioni del parlato, con l'obiettivo di avanzare lo sviluppo di modelli più simili all'uomo in grado di gestire in modo efficiente una gamma di task basati sul parlato.
Il relighting video è un compito impegnativo ma di grande valore, che mira a sostituire lo sfondo nei video regolando contemporaneamente l'illuminazione in primo piano con una fusione armoniosa. Durante la traduzione, è essenziale preservare le proprietà originali del primo piano, ad esempio l'albedo, e propagare un relighting coerente tra i fotogrammi temporali. In questo articolo, proponiamo Lumen, un framework end-to-end per il relighting video sviluppato su modelli generativi di video su larga scala, che riceve descrizioni testuali flessibili per guidare il controllo dell'illuminazione e dello sfondo. Considerando la scarsità di video di alta qualità accoppiati con lo stesso primo piano in varie condizioni di illuminazione, costruiamo un dataset su larga scala con una miscela di video realistici e sintetici. Per il dominio sintetico, sfruttando l'abbondanza di risorse 3D nella comunità, utilizziamo un motore di rendering 3D avanzato per curare coppie di video in ambienti diversi. Per il dominio realistico, adattiamo una simulazione di illuminazione basata su HDR per colmare la mancanza di video accoppiati in contesti reali. Potenziati dal dataset sopra menzionato, progettiamo un curriculum di addestramento congiunto per sfruttare efficacemente i punti di forza di ciascun dominio, ovvero la coerenza fisica nei video sintetici e la distribuzione generalizzata del dominio nei video realistici. Per implementare ciò, iniettiamo un adattatore consapevole del dominio nel modello per disaccoppiare l'apprendimento del relighting e della distribuzione dell'aspetto del dominio. Costruiamo un benchmark completo per valutare Lumen insieme ai metodi esistenti, dalle prospettive della preservazione del primo piano e della valutazione della coerenza video. I risultati sperimentali dimostrano che Lumen modifica efficacemente l'input in video relighted cinematografici con un'illuminazione coerente e una rigorosa preservazione del primo piano. La nostra pagina del progetto: https://lumen-relight.github.io/
Il Reinforcement Learning da Ricompense Verificabili (RLVR) è emerso come un paradigma potente per migliorare i Modelli Linguistici di Grande Scala (LLMs), come dimostrato dal successo della serie o di OpenAI. Nell'RLVR, le ricompense sono derivate da segnali verificabili, come il superamento di test unitari nella generazione di codice o la corrispondenza con risposte corrette nel ragionamento matematico. Sebbene efficace, questo requisito limita in gran parte l'RLVR a domini con risultati verificabili automaticamente. Per superare questa limitazione, estendiamo il paradigma RLVR a compiti aperti integrando ricompense basate su rubriche, dove rubriche progettate con cura fungono da criteri strutturati e interpretabili dal modello per la valutazione automatica di output soggettivi. Costruiamo, a nostra conoscenza, il più grande sistema di ricompense basato su rubriche fino ad oggi, con oltre 10.000 rubriche provenienti da umani, LLMs o una collaborazione ibrida umano-LLM. Implementare l'RL basato su rubriche è impegnativo; affrontiamo queste problematiche con un framework chiaro e presentiamo un modello Qwen-30B-A3B open-source con miglioramenti significativi: 1) Con soli 5K+ campioni, il nostro sistema migliora del +5,2% su benchmark aperti (specialmente nelle discipline umanistiche), superando un modello DeepSeek-V3 da 671B del +2,4%, preservando al contempo capacità generali e di ragionamento. 2) Il nostro metodo offre un controllo stilistico granulare, utilizzando le rubriche come ancore per mitigare il tono "da AI" e produrre risposte più umane ed espressive. Condividiamo lezioni chiave nella costruzione delle rubriche, selezione dei dati e addestramento, e discutiamo limitazioni e rilasci futuri.
Presentiamo G-CUT3R, un nuovo approccio feed-forward per la ricostruzione guidata di scene 3D che migliora il modello CUT3R integrando informazioni a priori. A differenza dei metodi feed-forward esistenti che si basano esclusivamente sulle immagini di input, il nostro metodo sfrutta dati ausiliari, come profondità, calibrazioni della fotocamera o posizioni della fotocamera, comunemente disponibili in scenari reali. Proponiamo una modifica leggera a CUT3R, incorporando un encoder dedicato per ogni modalità per estrarre caratteristiche, che vengono fuse con i token delle immagini RGB tramite convoluzione zero. Questo design flessibile consente l'integrazione senza soluzione di continuità di qualsiasi combinazione di informazioni a priori durante l'inferenza. Valutato su più benchmark, inclusi la ricostruzione 3D e altre attività multi-vista, il nostro approccio dimostra miglioramenti significativi delle prestazioni, mostrando la sua capacità di utilizzare efficacemente i priori disponibili mantenendo la compatibilità con diverse modalità di input.
Presentiamo i prompt visivi d'azione, una rappresentazione unificata delle azioni per la generazione video da azione di interazioni complesse ad alto grado di libertà (DoF), mantenendo dinamiche visive trasferibili tra domini. La generazione video guidata dall'azione affronta un compromesso tra precisione e generalità: i metodi esistenti che utilizzano testo, azioni primitive o maschere approssimative offrono generalità ma mancano di precisione, mentre i segnali d'azione centrati sull'agente forniscono precisione a scapito della trasferibilità cross-dominio. Per bilanciare la precisione dell'azione e la trasferibilità dinamica, proponiamo di "rendere" le azioni in prompt visivi precisi come rappresentazioni agnostiche rispetto al dominio che preservano sia la precisione geometrica che l'adattabilità cross-dominio per azioni complesse; in particolare, scegliamo scheletri visivi per la loro generalità e accessibilità. Proponiamo pipeline robuste per costruire scheletri da due fonti di dati ricche di interazioni - interazioni uomo-oggetto (HOI) e manipolazione robotica abile - consentendo l'addestramento cross-dominio di modelli generativi guidati dall'azione. Integrando scheletri visivi in modelli di generazione video pre-addestrati tramite fine-tuning leggero, abilitiamo un controllo preciso dell'azione di interazioni complesse preservando l'apprendimento delle dinamiche cross-dominio. Esperimenti su EgoVid, RT-1 e DROID dimostrano l'efficacia del nostro approccio proposto. Pagina del progetto: https://zju3dv.github.io/VAP/.
Gli approcci tradizionali di apprendimento multimodale richiedono un costoso pre-addestramento di allineamento per collegare le modalità visiva e linguistica, tipicamente proiettando le caratteristiche visive in spazi discreti di token testuali. Mettiamo in discussione entrambe le ipotesi fondamentali alla base di questo paradigma proponendo Inverse-LLaVA, un nuovo approccio che elimina completamente il pre-addestramento di allineamento invertendo la direzione di mappatura convenzionale. Invece di proiettare le caratteristiche visive nello spazio testuale, il nostro metodo mappa gli embedding testuali nello spazio continuo delle rappresentazioni visive e esegue la fusione all'interno degli strati intermedi del transformer. Attraverso componenti additivi selettivi nei meccanismi di attenzione, abilitiamo l'integrazione dinamica delle rappresentazioni visive e testuali senza richiedere enormi dataset di allineamento immagine-testo. Esperimenti completi su nove benchmark multimodali dimostrano compromessi di performance sfumati: Inverse-LLaVA ottiene miglioramenti significativi su compiti intensivi di ragionamento e cognitivi (MM-VET: +0,2%, VizWiz: +1,8%, ScienceQA: +0,2%, ragionamento cognitivo: +27,2%), mostrando al contempo diminuzioni attese nei compiti di percezione che richiedono associazioni visivo-testuali memorizzate (riconoscimento di celebrità: -49,5%, OCR: -21,3%). Questi risultati forniscono la prima evidenza empirica che il pre-addestramento di allineamento non è necessario per un apprendimento multimodale efficace, in particolare per compiti di ragionamento complessi. Il nostro lavoro stabilisce la fattibilità di un nuovo paradigma che riduce i requisiti computazionali del 45%, sfida la saggezza convenzionale sulla fusione delle modalità e apre nuove direzioni di ricerca per architetture multimodali efficienti che preservano le caratteristiche specifiche delle modalità. Il sito web del nostro progetto con codice e risorse aggiuntive è disponibile all'indirizzo https://inverse-llava.github.io.
Il Machine Unlearning (MU) mira a rimuovere dati specifici di addestramento da un modello già addestrato, in modo che i dati rimossi non influenzino più il comportamento del modello, adempiendo così agli obblighi del "diritto all'oblio" previsti dalle leggi sulla privacy dei dati. Tuttavia, osserviamo che i ricercatori in questo campo in rapida evoluzione affrontano sfide nell'analizzare e comprendere il comportamento dei diversi metodi di MU, in particolare in relazione a tre principi fondamentali: accuratezza, efficienza e privacy. Di conseguenza, spesso si affidano a metriche aggregate e valutazioni ad hoc, rendendo difficile valutare con precisione i compromessi tra i vari metodi. Per colmare questa lacuna, introduciamo un sistema di analisi visiva, Unlearning Comparator, progettato per facilitare la valutazione sistematica dei metodi di MU. Il nostro sistema supporta due compiti importanti nel processo di valutazione: il confronto tra modelli e la simulazione di attacchi. In primo luogo, consente all'utente di confrontare i comportamenti di due modelli, come un modello generato da un determinato metodo e un modello riaddestrato di riferimento, a livello di classe, istanza e strato, per comprendere meglio i cambiamenti apportati dopo l'unlearning. In secondo luogo, il nostro sistema simula attacchi di inferenza di appartenenza (MIAs) per valutare la privacy di un metodo, in cui un attaccante tenta di determinare se specifici campioni di dati facevano parte del set di addestramento originale. Valutiamo il nostro sistema attraverso uno studio di caso che analizza visivamente i principali metodi di MU e dimostriamo che aiuta l'utente non solo a comprendere i comportamenti del modello, ma anche a ottenere intuizioni che possono guidare il miglioramento dei metodi di MU.
I Large Reasoning Models (LRM) hanno dimostrato notevoli capacità di risoluzione dei problemi in matematica, come valutato dai benchmark esistenti esclusivamente su problemi ben definiti. Tuttavia, tale configurazione di valutazione costituisce una lacuna critica, poiché un agente intelligente genuino non dovrebbe solo risolvere problemi (come un risolutore di quiz matematici), ma dovrebbe anche essere in grado di richiedere informazioni quando i problemi non contengono sufficienti dettagli, consentendo una risposta proattiva alle richieste degli utenti. Per colmare tale lacuna, proponiamo un nuovo dataset composto da due tipi di problemi incompleti con contesti diversificati. Basandoci su questo dataset, la nostra valutazione sistematica degli LRM rivela la loro incapacità di richiedere informazioni in modo proattivo. Inoltre, scopriamo comportamenti legati al sovrapensiero e all'allucinazione degli LRM, e evidenziamo il potenziale e le sfide del fine-tuning supervisionato nell'apprendimento di tale capacità. Speriamo di fornire nuove intuizioni per lo sviluppo di LRM con una vera intelligenza, piuttosto che semplicemente risolutori di problemi.
Indaghiamo fino a che punto i Modelli Linguistici Multimodali di Grande Scala (MLLMs) siano in grado di identificare accuratamente l'orientamento di immagini ruotate di 0°, 90°, 180° e 270°. Questo compito richiede robuste capacità di ragionamento visivo per rilevare indizi di rotazione e contestualizzare le relazioni spaziali all'interno delle immagini, indipendentemente dal loro orientamento. Per valutare queste abilità negli MLLMs, introduciamo RotBench -- un benchmark di 350 immagini filtrate manualmente, comprendente immagini di vita quotidiana, ritratti e paesaggi. Nonostante la natura relativamente semplice di questo compito, dimostriamo che diversi MLLMs all'avanguardia, sia open che proprietari, tra cui GPT-5, o3 e Gemini-2.5-Pro, non identificano in modo affidabile la rotazione nelle immagini di input. Fornire ai modelli informazioni ausiliarie -- come didascalie, mappe di profondità e altro -- o utilizzare il prompting a catena di pensiero offre solo miglioramenti piccoli e inconsistenti. I nostri risultati indicano che la maggior parte dei modelli è in grado di identificare in modo affidabile immagini dritte (0°), mentre alcuni modelli riescono a identificare immagini capovolte (180°). Nessun modello è in grado di distinguere in modo affidabile tra 90° e 270°. Mostrare simultaneamente l'immagine ruotata in diverse orientazioni porta a moderati miglioramenti delle prestazioni per i modelli di ragionamento, mentre una configurazione modificata che utilizza il voto migliora le prestazioni dei modelli più deboli. Mostriamo inoltre che il fine-tuning non migliora la capacità dei modelli di distinguere le rotazioni di 90° e 270°, nonostante migliori sostanzialmente l'identificazione delle immagini ruotate di 180°. Insieme, questi risultati rivelano un divario significativo tra le capacità di ragionamento spaziale degli MLLMs e la percezione umana nell'identificazione della rotazione.