Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo rapporto tecnico presenta K-EXAONE, un modello linguistico multilingue su larga scala sviluppato da LG AI Research. K-EXAONE è basato su un'architettura Mixture-of-Experts con un totale di 236 miliardi di parametri, attivandone 23 miliardi durante l'inferenza. Supporta una finestra contestuale di 256.000 token e copre sei lingue: coreano, inglese, spagnolo, tedesco, giapponese e vietnamita. Valutiamo K-EXAONE su una suite completa di benchmark che abbracciano le capacità di ragionamento, agentive, generali, coreane e multilingue. In tutte queste valutazioni, K-EXAONE dimostra prestazioni paragonabili a modelli open-weight di dimensioni simili. K-EXAONE, progettato per far progredire l'IA per una vita migliore, si posiziona come un potente modello base di IA proprietario per un'ampia gamma di applicazioni industriali e di ricerca.
Studiamo la possibilità di consentire ai grandi modelli linguistici (LLM) di elaborare prompt di lunghezza arbitraria attraverso la lente dello scaling al momento dell'inferenza. Proponiamo i Modelli Linguistici Ricorsivi (RLM), una strategia di inferenza generale che tratta i prompt lunghi come parte di un ambiente esterno e permette all'LLM di esaminare programmaticamente, scomporre e richiamare sé stesso in modo ricorsivo su frammenti del prompt. Scopriamo che gli RLM gestiscono con successo input fino a due ordini di grandezza superiori alle finestre di contesto del modello e, anche per prompt più brevi, superano nettamente la qualità dei LLM base e delle comuni impalcature per contesti lunghi in quattro diverse attività, mantenendo un costo per query comparabile (o inferiore).
I grandi modelli linguistici (LLM) generano output fluenti e complessi, ma spesso non riconoscono i propri errori e allucinazioni. Gli approcci esistenti si basano tipicamente su giudici esterni, sulla coerenza multi-campione o sull'auto-critica testuale, che comportano un costo computazionale aggiuntivo o correlano debolmente con la correttezza effettiva. Ci chiediamo: gli LLM possono prevedere i propri fallimenti ispezionando gli stati interni durante l'inferenza? Introduciamo Gnosis, un meccanismo leggero di auto-consapevolezza che consente a LLM congelati di eseguire un'auto-verifica intrinseca decodificando segnali dagli stati nascosti e dai pattern di attenzione. Gnosis osserva passivamente le tracce interne, le comprime in descrittori a budget fisso e predice la correttezza con un costo inferenziale trascurabile, aggiungendo solo ~5 milioni di parametri e operando indipendentemente dalla lunghezza della sequenza. Su benchmark di ragionamento matematico, risposta a domande ad dominio aperto e conoscenza accademica, e su backbone congelati che vanno da 1,7 a 20 miliardi di parametri, Gnosis supera costantemente i forti baseline interni e i grandi giudici esterni sia in accuratezza che in calibrazione. Inoltre, generalizza zero-shot a generazioni parziali, consentendo l'individuazione precoce di traiettorie di fallimento e un controllo consapevole del costo computazionale. Questi risultati dimostrano che segnali affidabili di correttezza sono intrinseci al processo di generazione e possono essere estratti efficientemente senza supervisione esterna.
Presentiamo NextFlow, un trasformatore autoregressivo decoder-only unificato addestrato su 6 trilioni di token discreti testo-immagine interallacciati. Sfruttando una rappresentazione visiva unificata all'interno di un'architettura autoregressiva unificata, NextFlow attiva nativamente capacità di comprensione e generazione multimodale, sbloccando abilità di editing di immagini, generazione di contenuti interallacciati e video. Motivati dalla natura distinta delle modalità - dove il testo è strettamente sequenziale e le immagini sono intrinsecamente gerarchiche - manteniamo la predizione del token successivo per il testo ma adottiamo la predizione a scala successiva per la generazione visiva. Questo si discosta dai metodi tradizionali a scansione raster, consentendo la generazione di immagini 1024x1024 in soli 5 secondi - ordini di grandezza più veloce rispetto a modelli AR comparabili. Affrontiamo le instabilità della generazione multi-scala attraverso una ricetta di addestramento robusta. Inoltre, introduciamo una strategia di prefix-tuning per l'apprendimento per rinforzo. Gli esperimenti dimostrano che NextFlow raggiunge prestazioni all'avanguardia tra i modelli unificati e rivaleggia con baseline di diffusione specializzate nella qualità visiva.
Lo Scambio di Volti nei Video (VFS) richiede l'inserimento perfetto di un'identità di origine in un video target, preservando meticolosamente la posa, l'espressione, l'illuminazione, lo sfondo e le informazioni dinamiche originali. I metodi esistenti faticano a mantenere simultaneamente la somiglianza dell'identità, la preservazione degli attributi e la coerenza temporale. Per affrontare questa sfida, proponiamo un framework completo per trasferire in modo fluido i vantaggi dello Scambio di Volti nelle Immagini (IFS) al dominio video. Inizialmente introduciamo una nuova pipeline di dati, SyncID-Pipe, che pre-addestra un Sintetizzatore Video ancorato all'Identità e lo combina con modelli IFS per costruire quadruplette ID bidirezionali per una supervisione esplicita. Basandoci su dati accoppiati, proponiamo il primo framework DreamID-V basato su Diffusion Transformer, impiegando un modulo centrale di Condizionamento Consapevole della Modalità per iniettare in modo discriminatorio condizioni multi-modello. Nel frattempo, proponiamo un meccanismo di Curriculum Sintetico-Reale e una strategia di Apprendimento per Rinforzo della Coerenza dell'Identità per migliorare il realismo visivo e la coerenza identitaria in scenari complessi. Per affrontare il problema della limitata disponibilità di benchmark, introduciamo IDBench-V, un benchmark completo che comprende scene diversificate. Esperimenti estensivi dimostrano che DreamID-V supera i metodi all'avanguardia ed esibisce un'eccezionale versatilità, potendosi adattare perfettamente a varie attività correlate allo scambio.
Per supportare interazioni affidabili a lungo termine in ambienti complessi, gli agenti LLM richiedono sistemi di memoria che gestiscano efficientemente le esperienze storiche. Gli approcci esistenti conservano intere cronologie d’interazione tramite estensioni passive del contesto, generando notevole ridondanza, o si affidano a ragionamenti iterativi per filtrare il rumore, comportando elevati costi in token. Per affrontare questa sfida, introduciamo SimpleMem, un framework di memoria efficiente basato sulla compressione semantica senza perdita. Proponiamo una pipeline in tre fasi progettata per massimizzare la densità informativa e l’utilizzo dei token: (1) Compressione Strutturata Semantica, che applica un filtraggio basato sull’entropia per distillare interazioni non strutturate in unità di memoria compatte e indicizzate multi-prospettiva; (2) Consolidamento Ricorsivo della Memoria, un processo asincrono che integra unità correlate in rappresentazioni astratte di livello superiore per ridurre la ridondanza; e (3) Recupero Adattivo Sensibile alla Query, che modifica dinamicamente l’ambito di recupero in base alla complessità della query per costruire contesti precisi in modo efficiente. Esperimenti su dataset di benchmark mostrano che il nostro metodo supera costantemente gli approcci baseline in accuratezza, efficienza di recupero e costo d’inferenza, ottenendo un miglioramento medio dell’F1 del 26,4% e riducendo il consumo di token durante l’inferenza fino a 30 volte, dimostrando un bilanciamento superiore tra prestazioni ed efficienza. Il codice è disponibile all’indirizzo https://github.com/aiming-lab/SimpleMem.
La generazione visiva è dominata da tre paradigmi: modelli autoregressivi (AR), modelli di diffusione e modelli autoregressivi visivi (VAR). A differenza dei modelli AR e di diffusione, i VAR operano su strutture di input eterogenee attraverso i loro passi di generazione, il che crea gravi conflitti di policy asincroni. Questo problema diventa particolarmente acuto negli scenari di apprendimento per rinforzo (RL), portando a un addestramento instabile e un allineamento subottimale. Per risolverlo, proponiamo una nuova architettura per potenziare l'Ottimizzazione della Policy Relativa di Gruppo (GRPO) gestendo esplicitamente questi conflitti. Il nostro metodo integra tre componenti sinergiche: 1) una ricompensa intermedia stabilizzante per guidare la generazione nelle fasi iniziali; 2) uno schema di ponderazione dinamica dei time-step per un'assegnazione precisa del credito; e 3) un innovativo algoritmo di propagazione delle maschere, derivato dai principi del Reward Feedback Learning (ReFL), progettato per isolare gli effetti dell'ottimizzazione sia spazialmente che temporalmente. Il nostro approccio dimostra miglioramenti significativi nella qualità del campione e nell'allineamento agli obiettivi rispetto al baseline GRPO standard, consentendo un'ottimizzazione robusta ed efficace per i modelli VAR.
La grande visione di abilitare una comprensione persistente e su larga scala della geometria visiva 3D è ostacolata dalle richieste inconciliabili di scalabilità e stabilità a lungo termine. Sebbene modelli offline come VGGT raggiungano capacità geometriche notevoli, la loro natura basata su batch li rende inadatti per sistemi in tempo reale. Le architetture di streaming, sebbene siano la soluzione ideale per il funzionamento live, si sono rivelate inadeguate. I metodi esistenti non supportano input veramente a orizzonte infinito o soffrono di una deriva catastrofica su sequenze lunghe. Noi infrangiamo questo dilemma di lunga data con InfiniteVGGT, un trasformatore di geometria visiva causale che concretizza il concetto di memoria rolling attraverso una cache KV limitata ma adattiva e perpetuamente espressiva. Sfruttando ciò, elaboriamo una strategia di pruning, agnostica all'attenzione e senza necessità di addestramento, che scarta intelligentemente le informazioni obsolete, facendo "scorrere" efficacemente la memoria in avanti con ogni nuovo fotogramma. Completamente compatibile con FlashAttention, InfiniteVGGT allevia finalmente il compromesso, abilitando lo streaming a orizzonte infinito superando allo stesso tempo i metodi di streaming esistenti in termini di stabilità a lungo termine. La prova definitiva per un tale sistema è la sua performance su un orizzonte veramente infinito, una capacità che è stata impossibile da validare rigorosamente a causa della mancanza di benchmark estremamente lunghi e continui. Per colmare questa lacuna critica, introduciamo il benchmark Long3D, che, per la prima volta, consente una valutazione rigorosa della stima continua della geometria 3D su sequenze di circa 10.000 fotogrammi. Questo fornisce la piattaforma di valutazione definitiva per la ricerca futura nella comprensione della geometria 3D a lungo termine. Il codice è disponibile all'indirizzo: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT
Presentiamo VINO, un generatore visivo unificato in grado di eseguire generazione e modifica di immagini e video all'interno di un unico framework. Invece di affidarsi a modelli specifici per ogni task o moduli indipendenti per ogni modalità, VINO utilizza un backbone di diffusione condiviso che si condiziona su testo, immagini e video, abilitando un'ampia gamma di attività di creazione e modifica visiva in un unico modello. Nello specifico, VINO accoppia un modello visione-linguaggio (VLM) con un Multimodal Diffusion Transformer (MMDiT), dove gli input multimodali vengono codificati come token di condizionamento intervallati e poi utilizzati per guidare il processo di diffusione. Questo design supporta il grounding multi-riferimento, l'adesione a istruzioni lunghe e complesse e la preservazione coerente dell'identità attraverso contenuti statici e dinamici, evitando al contempo componenti architetturali specifiche per modalità. Per addestrare un sistema unificato di questo tipo, introduciamo una pipeline di training multi-stadio che espande progressivamente un modello base per la generazione video in un generatore unificato e multi-task capace di gestire input e output sia di immagini che di video. Su vari benchmark di generazione e modifica, VINO dimostra una forte qualità visiva, una fedele aderenza alle istruzioni, un miglioramento nella preservazione di riferimenti e attributi, e modifiche multi-identità più controllabili. I nostri risultati evidenziano un percorso pratico verso una generazione visiva unificata e scalabile, e la promessa del calcolo intervallato e in-context come fondamento per la creazione visiva generica.
L'ottimizzazione fine (fine-tuning) di modelli di diffusione tramite apprendimento per rinforzo (RL) online ha dimostrato un grande potenziale nel migliorare l'allineamento testo-immagine. Tuttavia, poiché specificare con precisione un obiettivo di ground-truth per compiti visivi rimane complesso, i modelli vengono spesso ottimizzati utilizzando una ricompensa proxy che cattura solo parzialmente l'obiettivo vero. Questo disallineamento porta spesso a un fenomeno di "reward hacking", in cui i punteggi proxy aumentano mentre la qualità reale dell'immagine si deteriora e la diversità della generazione collassa. Sebbene le soluzioni comuni aggiungano una regolarizzazione rispetto alla politica di riferimento per prevenire il reward hacking, esse compromettono l'efficienza campionaria e impediscono l'esplorazione di regioni nuove ad alta ricompensa, poiché la politica di riferimento è solitamente sub-ottimale. Per affrontare le esigenze contrastanti di efficienza campionaria, esplorazione efficace e mitigazione del reward hacking, proponiamo GARDO (Gated and Adaptive Regularization with Diversity-aware Optimization), un framework versatile compatibile con vari algoritmi di RL. La nostra intuizione chiave è che la regolarizzazione non debba essere applicata universalmente; è invece molto efficace penalizzare selettivamente un sottoinsieme di campioni che presentano un'elevata incertezza. Per affrontare la sfida esplorativa, GARDO introduce un meccanismo di regolarizzazione adattiva in cui il modello di riferimento viene aggiornato periodicamente per allinearsi alle capacità della politica online, garantendo un obiettivo di regolarizzazione rilevante. Per affrontare il problema del collasso modale (mode collapse) nell'RL, GARDO amplifica le ricompense per campioni di alta qualità che mostrano anche un'elevata diversità, incoraggiando la copertura modale senza destabilizzare il processo di ottimizzazione. Esperimenti estesi su diverse ricompense proxy e metriche di hold-out non viste mostrano costantemente che GARDO mitiga il reward hacking e migliora la diversità della generazione senza sacrificare l'efficienza campionaria o l'esplorazione, evidenziandone l'efficacia e la robustezza.
Questo lavoro introduce Falcon-H1R, un modello da 7 miliardi di parametri ottimizzato per il ragionamento, che stabilisce la fattibilità di ottenere prestazioni competitive nel ragionamento con modelli linguistici di piccole dimensioni (SLM). Falcon-H1R si distingue per la sua efficienza parametrica, eguagliando o superando costantemente modelli di ragionamento allo stato dell'arte (SOTA) che sono da 2 a 7 volte più grandi su una varietà di benchmark ad alta intensità di ragionamento. Questi risultati sottolineano l'importanza di un'attenta selezione dei dati e di strategie di training mirate (tramite efficiente SFT e scalabilità RL) per ottenere significativi miglioramenti delle prestazioni senza aumentare le dimensioni del modello. Inoltre, Falcon-H1R avanza i limiti 3D dell'efficienza del ragionamento combinando un'inferenza più veloce (grazie al suo design architetturale ibrido-parallelo), efficienza dei token e maggiore accuratezza. Questa combinazione unica rende Falcon-H1R-7B un'architettura di base pratica per scalare sistemi di ragionamento avanzati, specialmente in scenari che richiedono un'ampia generazione di catene di pensiero (chain-of-thought) e una scalabilità parallela al momento del test. Sfruttando il recente approccio DeepConf, Falcon-H1R raggiunge un'efficienza di scalabilità al momento del test allo stato dell'arte, offrendo sostanziali miglioramenti sia in accuratezza che in costo computazionale. Di conseguenza, Falcon-H1R dimostra che modelli compatti, attraverso scelte mirate di training del modello e architetturali, possono fornire prestazioni di ragionamento robuste e scalabili.
Presentiamo SWE-Lego, una ricetta di fine-tuning supervisionato (SFT) progettata per raggiungere prestazioni all'avanguardia nella risoluzione di problemi di ingegneria del software (SWE). A differenza dei metodi prevalenti che si basano su paradigmi di addestramento complessi (ad esempio, mid-training, SFT, apprendimento per rinforzo e loro combinazioni), esploriamo come spingere al limite un approccio SFT leggero e unico per i task SWE. SWE-Lego comprende tre blocchi costitutivi fondamentali, con i risultati chiave riassunti come segue: 1) il dataset SWE-Lego, una raccolta di 32k istanze di task di alta qualità e 18k traiettorie validate, che combina dati reali e sintetici per integrarsi reciprocamente in termini di qualità e quantità; 2) una procedura SFT raffinata con mascheramento degli errori e un curriculum basato sulla difficoltà, che migliora dimostrabilmente la qualità delle azioni e le prestazioni complessive. I risultati empirici mostrano che con questi due soli mattoni fondamentali, l'SFT può spingere i modelli SWE-Lego a prestazioni all'avanguardia tra i modelli open-source di dimensioni comparabili su SWE-bench Verified: SWE-Lego-Qwen3-8B raggiunge il 42,2% e SWE-Lego-Qwen3-32B raggiunge il 52,6%. 3) Valutiamo e miglioriamo ulteriormente il test-time scaling (TTS) costruito sulla base SFT. Basandosi su un verificatore ben addestrato, i modelli SWE-Lego possono essere significativamente potenziati--ad esempio, dal 42,2% al 49,6% e dal 52,6% al 58,8% con TTS@16 rispettivamente per i modelli da 8B e 32B.
La valutazione della novità è cruciale ma impegnosa nella revisione paritaria, poiché i revisori devono valutare i contributi rispetto a una letteratura vasta e in rapida evoluzione. Questo rapporto presenta OpenNovelty, un sistema agente basato su LLM per un'analisi trasparente e basata su evidenze della novità. Il sistema opera attraverso quattro fasi: (1) estrazione del compito fondamentale e delle affermazioni di contributo per generare query di recupero; (2) recupero dei lavori precedenti rilevanti basato sulle query estratte tramite un motore di ricerca semantico; (3) costruzione di una tassonomia gerarchica del lavoro relativo al compito fondamentale ed esecuzione di confronti a livello di contributo sul testo completo per ciascun contributo; e (4) sintesi di tutte le analisi in un rapporto strutturato sulla novità con citazioni esplicite e frammenti di evidenza. A differenza degli approcci ingenui basati su LLM, OpenNovelty basa tutte le valutazioni su articoli reali recuperati, garantendo giudizi verificabili. Implementiamo il nostro sistema su oltre 500 contributi per ICLR 2026, con tutti i rapporti pubblicamente disponibili sul nostro sito web, e un'analisi preliminare suggerisce che esso possa identificare lavori precedenti rilevanti, inclusi articoli strettamente correlati che gli autori potrebbero trascurare. OpenNovelty mira a potenziare la comunità di ricerca con uno strumento scalabile che promuova una revisione paritaria equa, coerente e supportata da evidenze.
Sebbene la stima della confidenza sia una direzione promettente per mitigare le allucinazioni nei Large Language Model (LLM), la ricerca attuale si concentra prevalentemente su contesti a turno singolo. La dinamica della confidenza del modello nelle conversazioni multi-turno, in cui il contesto si accumula e l'ambiguità viene risolta progressivamente, rimane in gran parte inesplorata. Una stima affidabile della confidenza in contesti multi-turno è fondamentale per molte applicazioni a valle, come gli agenti autonomi e i sistemi human-in-the-loop. Questo lavoro presenta il primo studio sistematico sulla stima della confidenza nelle interazioni multi-turno, stabilendo una cornice formale di valutazione basata su due desiderata chiave: la calibrazione per turno e la monotonicità della confidenza man mano che diventa disponibile più informazione. Per facilitare ciò, introduciamo nuove metriche, inclusa una versione normalizzata per la lunghezza dell'Expected Calibration Error (InfoECE), e un nuovo paradigma "Hinter-Guesser" per generare dataset di valutazione controllati. I nostri esperimenti rivelano che le tecniche di confidenza ampiamente utilizzate faticano a mantenere calibrazione e monotonicità nei dialoghi multi-turno. Proponiamo P(Sufficient), un probe basato sui logit che raggiunge una performance relativamente migliore, sebbene il problema sia lungi dall'essere risolto. Il nostro lavoro fornisce una metodologia fondamentale per sviluppare agenti conversazionali più affidabili e degni di fiducia.
Presentiamo Talk2Move, un framework di diffusione basato sull'apprendimento per rinforzo (RL) per la trasformazione spaziale di oggetti all'interno di scene, guidata da istruzioni testuali. La manipolazione spaziale di oggetti in una scena tramite linguaggio naturale rappresenta una sfida per i sistemi di generazione multimodale. Sebbene i metodi di manipolazione basati su testo esistenti possano modificare l'aspetto o lo stile, essi faticano a eseguire trasformazioni geometriche a livello di oggetto - come la traslazione, rotazione o ridimensionamento - a causa della scarsità di supervisione accoppiata e dei limiti dell'ottimizzazione a livello di pixel. Talk2Move utilizza l'ottimizzazione delle politiche relative al gruppo (GRPO) per esplorare azioni geometriche attraverso rollout generati a partire da immagini di input e leggere variazioni testuali, eliminando la necessità di dati accoppiati costosi. Un modello guidato da ricompense spaziali allinea le trasformazioni geometriche con la descrizione linguistica, mentre la valutazione off-policy dei passi e il campionamento attivo dei passi migliorano l'efficienza dell'apprendimento concentrandosi sulle fasi di trasformazione più informative. Inoltre, progettiamo ricompense spaziali centrate sull'oggetto che valutano direttamente il comportamento di spostamento, rotazione e scalatura, consentendo trasformazioni interpretabili e coerenti. Esperimenti su benchmark curati dimostrano che Talk2Move raggiunge trasformazioni di oggetti precise, consistenti e semanticamente fedeli, superando gli approcci di editing guidato da testo esistenti sia in accuratezza spaziale che in coerenza della scena.
Sebbene i LLM siano potenti modelli di embedding, la loro applicazione in contesti privi di addestramento presenta due sfide strutturali: l'attenzione causale impedisce ai token iniziali di accedere al contesto successivo e l'obiettivo di predizione del token successivo distorce le rappresentazioni verso la generazione piuttosto che la compressione semantica. Per affrontare queste limitazioni, proponiamo KV-Embedding, un framework che attiva il potere rappresentativo latente di LLM congelati. Il nostro metodo sfrutta l'osservazione che gli stati chiave-valore (KV) del token finale in ogni livello codificano una visione compressa della sequenza. Reindirizzando questi stati come prefisso preposto, consentiamo a tutti i token di accedere al contesto a livello di sequenza in un unico passaggio in avanti. Per garantire un'applicabilità indipendente dal modello, introduciamo una strategia di selezione automatica del livello basata sulla dimensionalità intrinseca. Le valutazioni su MTEB condotte sui modelli Qwen, Mistral e Llama mostrano che KV-Embedding supera le baseline esistenti senza addestramento fino al 10%, mantenendo al contempo prestazioni robuste su sequenze fino a 4.096 token. Questi risultati dimostrano che la manipolazione degli stati interni offre un'alternativa efficiente alla modifica dell'input, e ci auguriamo che questo lavoro incoraggi un'ulteriore esplorazione degli interni degli LLM per l'apprendimento di rappresentazioni.
Con l'implementazione di grandi modelli linguistici in applicazioni aziendali ad alto rischio, dalla sanità alla finanza, garantire l'adesione a politiche specifiche dell'organizzazione è diventato essenziale. Tuttavia, le valutazioni di sicurezza esistenti si concentrano esclusivamente su danni universali. Presentiamo COMPASS (Company/Organization Policy Alignment Assessment), il primo quadro sistematico per valutare se gli LLM rispettano le politiche aziendali/organizzative di allowlist e denylist. Applichiamo COMPASS a otto scenari industriali diversificati, generando e convalidando 5.920 query che testano sia la conformità routinaria che la robustezza adversarial attraverso casi limite strategicamente progettati. Valutando sette modelli all'avanguardia, riveliamo un'asimmetria fondamentale: i modelli gestiscono in modo affidabile le richieste legittime (>95% di accuratezza) ma falliscono catastroficamente nell'applicare i divieti, rifiutando solo il 13-40% delle violazioni adversarial della denylist. Questi risultati dimostrano che gli LLM attuali mancano della robustezza richiesta per implementazioni critiche per le politiche, stabilendo COMPASS come quadro di valutazione essenziale per la sicurezza dell'IA organizzativa.
Introduciamo CPPO, un metodo di ottimizzazione della politica percettiva contrastiva (Contrastive Perception Policy Optimization) per il fine-tuning di modelli visione-linguaggio (VLM). Sebbene l'apprendimento per rinforzo (RL) abbia fatto progredire il ragionamento nei modelli linguistici, estenderlo al ragionamento multimodale richiede il miglioramento sia degli aspetti percettivi che di quelli ragionativi. I lavori precedenti affrontano questa sfida principalmente con ricompense percettive esplicite, ma separare i token percettivi da quelli di ragionamento è difficile, richiedendo modelli LLM aggiuntivi, dati ground-truth, una forzata separazione della percezione dal ragionamento da parte del modello politico, o l'applicazione indiscriminata delle ricompense a tutti i token di output. CPPO risolve questo problema rilevando i token percettivi tramite gli spostamenti di entropia negli output del modello sotto immagini di input perturbate. CPPO estende quindi la funzione obiettivo dell'RL con una Perdita Percettiva Contrastiva (CPL, Contrastive Perception Loss) che impone coerenza sotto perturbazioni che preservano l'informazione e sensibilità sotto perturbazioni che la rimuovono. Gli esperimenti mostrano che CPPO supera i precedenti metodi basati su ricompense percettive, evitando al contempo modelli aggiuntivi, rendendo l'addestramento più efficiente e scalabile.
La ricostruzione di mesh umane da immagini multi-vista affronta una sfida fondamentale: i dataset del mondo reale contengono annotazioni di ground truth imperfette che influenzano negativamente l'addestramento dei modelli, mentre i dati sintetici con supervisione precisa soffrono del divario di dominio. In questo articolo, proponiamo DiffProxy, un framework innovativo che genera proxy umani multi-vista consistenti per la ricostruzione di mesh. Elemento centrale di DiffProxy è lo sfruttamento di prior generative basate sulla diffusione per colmare il divario tra l'addestramento su dati sintetici e la generalizzazione nel mondo reale. Le sue innovazioni chiave includono: (1) un meccanismo multi-condizionale per generare proxy umani multi-vista consistenti e allineati a livello di pixel; (2) un modulo di raffinamento delle mani che incorpora prompt visivi flessibili per migliorare i dettagli locali; e (3) un metodo di scaling a tempo di test consapevole dell'incertezza che aumenta la robustezza nei casi complessi durante l'ottimizzazione. Questi design garantiscono che il processo di ricostruzione della mesh benefici efficacemente sia del ground truth sintetico preciso che dei vantaggi generativi della pipeline basata sulla diffusione. Addestrato interamente su dati sintetici, DiffProxy raggiunge prestazioni allo stato dell'arte su cinque benchmark del mondo reale, dimostrando una forte generalizzazione zero-shot, specialmente in scenari complessi con occlusioni e viste parziali. Pagina del progetto: https://wrk226.github.io/DiffProxy.html
La segmentazione semantica semi-supervisionata di immagini di telerilevamento (RS) offre una soluzione promettente per alleviare l'onere dell'annotazione esaustiva, ma fondamentalmente incontra difficoltà con la deriva delle pseudo-etichette, un fenomeno in cui il bias di conferma porta all'accumulo di errori durante l'addestramento. In questo lavoro, proponiamo Co2S, un framework stabile per la segmentazione RS semi-supervisionata che fonde sinergicamente i priori di modelli vision-language e modelli auto-supervisionati. Nello specifico, costruiamo un'architettura eterogenea a doppio studente composta da due distinti modelli vision foundation basati su ViT, inizializzati con CLIP e DINOv3 pre-addestrati, per mitigare l'accumulo di errori e la deriva delle pseudo-etichette. Per incorporare efficacemente questi distinti priori, viene introdotto un meccanismo di co-guidanza semantica esplicita-implicita che utilizza embedding testuali e query apprendibili per fornire rispettivamente una guida a livello di classe esplicita e implicita, migliorando così congiuntamente la coerenza semantica. Inoltre, viene sviluppata una strategia di fusione collaborativa globale-locale delle feature per fondere efficacemente le informazioni contestuali globali catturate da CLIP con i dettagli locali prodotti da DINOv3, consentendo al modello di generare risultati di segmentazione altamente precisi. Esperimenti estesi su sei dataset popolari dimostrano la superiorità del metodo proposto, che raggiunge costantemente prestazioni all'avanguardia attraverso vari protocolli di partizione e scenari diversificati. La pagina del progetto è disponibile all'indirizzo https://xavierjiezou.github.io/Co2S/.
La segmentazione di immagini mediche con annotatori multipli è un importante problema di ricerca, ma richiede dataset annotati che sono costosi da raccogliere. L'imaging dermatoscopico delle lesioni cutanee consente a esperti umani e sistemi di intelligenza artificiale di osservare strutture morfologiche che altrimenti non sarebbero discernibili dalle normali fotografie cliniche. Tuttavia, attualmente non esistono dataset di segmentazione delle lesioni cutanee (SLS) pubblicamente disponibili su larga scala, con annotazioni multiple per immagini dermatoscopiche, che includano le etichette dei singoli annotatori. Presentiamo ISIC MultiAnnot++, un ampio dataset pubblico per la segmentazione multi-annotatore di lesioni cutanee, basato su immagini provenienti dall'Archivio ISIC. Il dataset finale contiene 17.684 maschere di segmentazione relative a 14.967 immagini dermatoscopiche, di cui 2.394 immagini presentano da 2 a 5 segmentazioni ciascuna, rendendolo il più grande dataset SLS pubblicamente disponibile. Inoltre, sono inclusi metadati relativi alla segmentazione, come il livello di competenza degli annotatori e lo strumento di segmentazione utilizzato, consentendo ricerche su temi quali la modellizzazione delle preferenze specifiche dell'annotatore per la segmentazione e l'analisi dei metadati degli annotatori. Forniamo un'analisi delle caratteristiche di questo dataset, partizioni di dati curate e maschere di segmentazione di consenso.
Man mano che gli agenti basati su Large Language Model (LLM) vengono sempre più spesso incaricati di prendere decisioni autonome ad alto rischio, la trasparenza dei loro processi di ragionamento è diventata un problema critico per la sicurezza. Sebbene il prompting a Catena di Pensiero (Chain-of-Thought, CoT) consenta agli agenti di generare tracce di ragionamento leggibili dall'uomo, non è ancora chiaro se queste tracce siano dei veri e propri driver generativi fedeli dell'output del modello o semplicemente delle razionalizzazioni post-hoc. Introduciamo Progetto Ariadne, un nuovo framework di XAI (Explainable AI) che utilizza Modelli Causali Strutturali (Structural Causal Models, SCM) e logica controfattuale per verificare l'integrità causale del ragionamento agenziale. A differenza dei metodi di interpretabilità esistenti che si basano sulla similarità testuale superficiale, Progetto Ariadne esegue interventi forti (do-calculus) sui nodi intermedi del ragionamento – invertendo sistematicamente la logica, negando le premesse e ribaltando affermazioni fattuali – per misurare la Sensibilità Causale (φ) della risposta finale. La nostra valutazione empirica sui modelli più all'avanguardia rivela un persistente Divario di Fedeltà (Faithfulness Gap). Definiamo e rileviamo una diffusa modalità di fallimento, denominata Disaccoppiamento Causale (Causal Decoupling), in cui gli agenti mostrano una densità di violazione (ρ) fino a 0,77 in domini fattuali e scientifici. In questi casi, gli agenti giungono a conclusioni identiche nonostante una logica interna contraddittoria, dimostrando che le loro tracce di ragionamento funzionano come un "Teatro del Ragionamento" (Reasoning Theater) mentre il processo decisionale è governato da prior parametrici latenti. I nostri risultati suggeriscono che le architetture agenziali attuali sono intrinsecamente prone a spiegazioni non fedeli, e proponiamo il Punteggio Ariadne (Ariadne Score) come nuovo benchmark per allineare la logica dichiarata con l'azione del modello.
Introduciamo la materiomusica come quadro generativo che collega le strutture gerarchiche della materia con la logica compositiva della musica. Attraverso proteine, ragnatele e dinamiche delle fiamme, i principi vibrazionali e architettonici ricorrono come gerarchie tonali, progressioni armoniche e forme musicali a lungo raggio. Utilizzando mappature reversibili, dagli spettri molecolari ai toni musicali e dalle reti tridimensionali a strumenti suonabili, mostriamo come il suono funzioni da sonda scientifica, un'inversione epistemica in cui l'ascolto diventa una modalità di visione e la composizione musicale diventa un progetto per la materia. Queste mappature scavano nel tempo profondo: pattern originati da vibrazioni molecolari di femtosecondi o storie evolutive miliardarie diventano udibili. Postuliamo che la novità nella scienza e nell'arte emerga quando i vincoli non possono essere soddisfatti all'interno dei gradi di libertà esistenti, forzando l'espansione dello spazio delle configurazioni vitali. L'imperfezione selettiva fornisce il meccanismo che ripristina l'equilibrio tra coerenza e adattabilità. Il supporto quantitativo proviene dall'enumerazione esaustiva di tutte le 2^12 scale musicali, rivelando che i sistemi culturalmente significativi si raggruppano in un corridoio a entropia e difetti intermedi, parallelo all'ottimo di Hall-Petch dove densità di difetti intermedie massimizzano la resistenza materiale. Iterare queste mappature crea collisioni produttive tra creatività umana e fisica, generando nuova informazione mentre le strutture musicali incontrano vincoli evolutivi. Mostriamo come modelli di IA basati su sciami compongano musica che esibisce firme strutturali umane come connettività small-world, integrazione modulare e coerenza a lungo raggio, suggerendo una via oltre l'interpolazione verso l'invenzione. Dimostriamo che scienza e arte sono atti generativi di costruzione del mondo sotto vincolo, con la vibrazione come grammatica condivisa che organizza la struttura attraverso le scale.
I modelli geo-fondamentali (GFM) si sono dimostrati efficaci in varie applicazioni downstream, tra cui la segmentazione semantica, la classificazione e i task di regressione. Tuttavia, nel caso del flood mapping utilizzando il dataset Sen1Flood11 come task downstream, i GFM faticano a superare la U-Net di baseline, evidenziando la limitazione del modello nel catturare le sfumature locali critiche. Per affrontare questo problema, presentiamo Prithvi-Complementary Adaptive Fusion Encoder (CAFE), che integra l'encoder pre-addestrato del GFM Prithvi con un ramo residuo CNN parallelo potenziato da moduli di attenzione convoluzionale (CAM). Prithvi-CAFE consente un fine-tuning rapido ed efficiente attraverso adattatori in Prithvi ed esegue una fusione multi-scala e multi-livello con le feature CNN, catturando i dettagli locali critici preservando al contempo le dipendenze a lungo raggio. Otteniamo risultati all'avanguardia su due dataset completi di flood mapping: Sen1Flood11 e FloodPlanet. Sui dati di test di Sen1Flood11, Prithvi-CAFE (IoU 83.41) supera il Prithvi originale (IoU 82.50) e altri principali GFM (TerraMind 82.90, DOFA 81.54, spectralGPT: 81.02). Il miglioramento è ancora più marcato sul sito di test hold-out, dove Prithvi-CAFE raggiunge un IoU di 81.37 rispetto alla U-Net baseline (70.57) e al Prithvi originale (72.42). Su FloodPlanet, Prithvi-CAFE supera anch'esso la U-Net baseline e altri GFM, raggiungendo un IoU di 64.70 rispetto a U-Net (60.14), Terramind (62.33), DOFA (59.15) e Prithvi 2.0 (61.91). Il nostro Prithvi-CAFE, semplice ma efficace, dimostra un forte potenziale per migliorare i task di segmentazione in cui dati multi-canale e multi-modali forniscono informazioni complementari e i dettagli locali sono critici. Il codice è rilasciato su https://github.com/Sk-2103/Prithvi-CAFE.
I modelli di diffusione text-to-image possono generare contenuti dannosi o protetti da copyright, motivando la ricerca sulla cancellazione concettuale. Tuttavia, gli approcci esistenti si concentrano principalmente sulla cancellazione di concetti dai prompt testuali, trascurando altre modalità di input che stanno diventando sempre più critiche in applicazioni reali come l'editing di immagini e la generazione personalizzata. Queste modalità possono diventare superfici di attacco, dove i concetti cancellati riemergono nonostante le difese. Per colmare questa lacuna, introduciamo M-ErasureBench, un nuovo framework di valutazione multimodale che confronta sistematicamente i metodi di cancellazione concettuale attraverso tre modalità di input: prompt testuali, embedding appresi e latenti invertiti. Per le ultime due, valutiamo sia l'accesso white-box che black-box, ottenendo cinque scenari di valutazione. La nostra analisi mostra che i metodi esistenti ottengono prestazioni di cancellazione elevate contro i prompt testuali, ma falliscono in gran parte con gli embedding appresi e i latenti invertiti, con un Tasso di Riproduzione del Concetto (CRR) superiore al 90% in condizioni white-box. Per affrontare queste vulnerabilità, proponiamo IRECE (Miglioramento della Robustezza al Tempo di Inferenza per la Cancellazione Concettuale), un modulo plug-and-play che localizza i concetti target tramite cross-attention e perturba i latenti associati durante la denoising. Gli esperimenti dimostrano che IRECE ripristina costantemente la robustezza, riducendo il CRR fino al 40% nello scenario più impegnativo di inversione latente white-box, preservando al contempo la qualità visiva. Per quanto a nostra conoscenza, M-ErasureBench fornisce il primo benchmark completo per la cancellazione concettuale al di là dei prompt testuali. Insieme a IRECE, il nostro benchmark offre salvaguardie pratiche per costruire modelli generativi protettivi più affidabili.