Articoli di ricerca IA selezionati quotidianamente con traduzioni
Una comprensione completa delle serie temporali rimane una sfida significativa per i Large Language Model (LLM). La ricerca attuale è ostacolata da definizioni di task e benchmark frammentati, con ambiguità intrinseche, che impediscono una valutazione rigorosa e lo sviluppo di modelli unificati di ragionamento su serie temporali (TSRM, Time Series Reasoning Models). Per colmare questa lacuna, formalizziamo il Ragionamento su Serie Temporali (TSR) attraverso una tassonomia a quattro livelli di crescente complessità cognitiva. Introduciamo HiTSR, un dataset gerarchico di ragionamento su serie temporali che comprende 83k campioni con diverse combinazioni di task e traiettorie verificate di ragionamento a catena (CoT, Chain-of-Thought). Sfruttando HiTSR, proponiamo LLaTiSA, un potente TSRM che integra pattern visualizzati con tabelle numeriche a calibrazione di precisione per potenziare la percezione temporale dei Vision-Language Model (VLM). Attraverso una strategia di fine-tuning curriculare multi-stadio, LLaTiSA raggiunge prestazioni superiori ed esibisce una robusta generalizzazione fuori distribuzione attraverso vari task TSR e scenari reali. Il nostro codice è disponibile all'indirizzo https://github.com/RainingNovember/LLaTiSA.
Modelli di generazione video interattivi come Genie, YUME, HY-World e Matrix-Game stanno progredendo rapidamente, ma ogni modello viene valutato sul proprio benchmark con scene e traiettorie private, rendendo impossibile un confronto equo tra modelli diversi. I benchmark pubblici esistenti offrono metriche utili come l'errore di traiettoria, punteggi estetici e giudizi basati su VLM, ma nessuno fornisce le condizioni di test standardizzate – scene identiche, sequenze di azioni identiche e un'interfaccia di controllo unificata – necessarie per rendere tali metriche comparabili tra modelli con input eterogenei. Presentiamo WorldMark, il primo benchmark che fornisce un terreno di confronto comune per i modelli mondo interattivi Image-to-Video. WorldMark contribuisce con: (1) un layer unificato di mappatura delle azioni che traduce un vocabolario condiviso di azioni in stile WASD nel formato di controllo nativo di ciascun modello, consentendo un confronto diretto su scene e traiettorie identiche per sei modelli principali; (2) una suite di test gerarchica di 500 casi di valutazione che copre punti di vista in prima e terza persona, scene fotorealistiche e stilizzate, e tre livelli di difficoltà da Facile a Difficile della durata di 20-60 secondi; e (3) un toolkit di valutazione modulare per Qualità Visiva, Allineamento del Controllo e Coerenza del Mondo, progettato in modo che i ricercatori possano riutilizzare i nostri input standardizzati integrando le proprie metriche con l'evolversi del campo. Rilasceremo tutti i dati, il codice di valutazione e gli output dei modelli per facilitare la ricerca futura. Oltre alle metriche offline, lanciamo World Model Arena (warena.ai), una piattaforma online dove chiunque può mettere alla prova i principali modelli mondo in battaglie affiancate e seguire la classifica in tempo reale.
Il ridimensionamento dei modelli fondazionali umanoidi è limitato dalla scarsità di dati robotici. Sebbene i dati egocentrici umani massicci offrano un'alternativa scalabile, colmare il divario cross-embodiment rimane una sfida fondamentale a causa delle discrepanze cinematiche. Introduciamo UniT (Unified Latent Action Tokenizer via Visual Anchoring), un framework che stabilisce un linguaggio fisico unificato per il trasferimento da umano a umanoide. Basandosi sul principio che cinematiche eterogenee condividono conseguenze visive universali, UniT utilizza un meccanismo di cross-ricostruzione a tre rami: le azioni predicono la visione per ancorare la cinematica a risultati fisici, mentre la visione ricostruisce le azioni per filtrare i fattori visivi confondenti irrilevanti. Contemporaneamente, un ramo di fusione sinergizza queste modalità purificate in uno spazio latente discreto condiviso di intenzioni fisiche indipendenti dall'embodiment. Convalidiamo UniT in due paradigmi: 1) Apprendimento di Politiche (VLA-UniT): Predicendo questi token unificati, sfrutta efficacemente dati umani diversificati per ottenere un'efficienza dei dati allo stato dell'arte e una robusta generalizzazione fuori distribuzione (OOD) sia su benchmark di simulazione umanoide che su implementazioni nel mondo reale, dimostrando notevolmente il trasferimento zero-shot di compiti. 2) Modellazione del Mondo (WM-UniT): Allineando le dinamiche cross-embodiment tramite i token unificati come condizioni, realizza un trasferimento diretto di azioni da umano a umanoide. Questo allineamento garantisce che i dati umani si traducano perfettamente in una maggiore controllabilità delle azioni per la generazione di video umanoidi. In definitiva, inducendo una rappresentazione cross-embodiment altamente allineata (verificata empiricamente da visualizzazioni t-SNE che rivelano la convergenza di feature umane e umanoidi in una varietà condivisa), UniT offre un percorso scalabile per distillare la vasta conoscenza umana in capacità umanoidi a scopo generale.
La stilizzazione creativa del volto mira a rappresentare ritratti in diversi stili visivi come fumetti, schizzi e dipinti, preservando al contempo l'identità riconoscibile. Tuttavia, gli attuali encoder d'identità, generalmente addestrati e calibrati su fotografie naturali, mostrano una marcata fragilità in contesti di stilizzazione. Spesso scambiano variazioni di texture o palette cromatiche per alterazioni identitarie, o non riescono a rilevare esagerazioni geometriche. Ciò rivela l'assenza di un framework style-agnostic per valutare e supervisionare la coerenza identitaria attraverso stili e intensità diverse. Per colmare questa lacuna, presentiamo StyleID, un dataset e framework di valutazione consapevole della percezione umana per l'identità facciale sotto stilizzazione. StyleID comprende due dataset: (i) StyleBench-H, un benchmark che raccoglie giudizi umani di verifica identitaria su stilizzazioni basate su diffusion e flow-matching a diverse intensità stilistiche, e (ii) StyleBench-S, un set di supervisione derivato da curve psicometriche di forza riconoscitiva ottenute attraverso esperimenti controllati 2AFC (two-alternative forced-choice). Sfruttando StyleBench-S, ottimizziamo encoder semantici esistenti per allineare i loro ordinamenti di similarità con la percezione umana attraverso stili e intensità. Gli esperimenti dimostrano che i nostri modelli calibrati raggiungono una correlazione significativamente più alta con i giudizi umani e una maggiore robustezza per ritratti disegnati da artisti fuori dominio. Tutti i nostri dataset, codice e modelli preaddestrati sono disponibili pubblicamente su https://kwanyun.github.io/StyleID_page/
Gli ambienti interattivi a lungo orizzonte costituiscono un banco di prova per valutare le capacità di utilizzo delle abilità degli agenti. Questi ambienti richiedono ragionamenti a più fasi, la concatenazione di multiple abilità attraverso numerosi step temporali e un processo decisionale robusto in condizioni di ricompense ritardate e osservabilità parziale. I giochi rappresentano un ottimo banco di prova per valutare l'utilizzo delle abilità degli agenti in tali ambienti. I Large Language Model (LLM) offrono un'alternativa promettente come agenti giocatori, ma spesso incontrano difficoltà nel prendere decisioni coerenti su orizzonti lunghi poiché mancano di un meccanismo per scoprire, conservare e riutilizzare abilità strutturate tra diversi episodi. Presentiamo COSPLAY, un framework di co-evoluzione in cui un agente decisionale LLM recupera abilità da un archivio di competenze apprendibile per guidare le azioni, mentre una pipeline di abilità gestita da un agente scopre competenze riutilizzabili dalle esecuzioni non etichettate dell'agente per formare un archivio. Il nostro framework migliora sia l'agente decisionale, permettendogli di apprendere un migliore recupero delle abilità e una generazione di azioni più efficace, mentre l'agente dell'archivio di competenze estrae, affina e aggiorna continuamente le abilità insieme ai loro contratti. Esperimenti condotti in sei ambienti di gioco dimostrano che COSPLAY, implementato con un modello base da 8B, raggiunge un miglioramento medio della ricompensa superiore al 25,1% rispetto a quattro baseline LLM all'avanguardia su benchmark di giochi per un singolo giocatore, rimanendo allo stesso tempo competitivo in giochi di ragionamento sociale multigiocatore.
Come possiamo determinare se un video è stato accelerato o rallentato? Come possiamo generare video a diverse velocità? Sebbene i video siano centrali nella ricerca moderna sulla visione artificiale, è stata prestata poca attenzione alla percezione e al controllo dello scorrere del tempo. In questo articolo, studiamo il tempo come concetto visivo apprendibile e sviluppiamo modelli per ragionare e manipolare il flusso temporale nei video. Sfruttiamo innanzitutto i segnali multimodali e la struttura temporale naturalmente presenti nei video per apprendere, in modo auto-supervisionato, a rilevare i cambiamenti di velocità e stimare la velocità di riproduzione. Mostriamo poi come questi modelli appresi di ragionamento temporale ci permettano di selezionare il più grande dataset di video al ralenti esistente, partendo da fonti rumorose e non controllate. Queste riprese al rallentatore, tipicamente girate con telecamere ad alta velocità, contengono dettagli temporali sostanzialmente più ricchi rispetto ai video standard. Utilizzando questi dati, sviluppiamo ulteriormente modelli capaci di controllo temporale, inclusa la generazione di video condizionata dalla velocità, che produce movimenti a una velocità di riproduzione specificata, e la super-risoluzione temporale, che trasforma video a basso fps e sfocati in sequenze ad alto fps con dettagli temporali fini. I nostri risultati evidenziano il tempo come una dimensione percettiva manipolabile nell'apprendimento video, aprendo le porte alla generazione di video temporalmente controllabile, al rilevamento forense temporale e potenzialmente a modelli del mondo più ricchi che comprendono come gli eventi si svolgono nel tempo.
Gli agenti autonomi per interfacce grafiche affrontano due sfide fondamentali: l'arresto precoce, in cui gli agenti dichiarano prematuramente il successo senza prove verificabili, e i loop ripetitivi, in cui gli agenti ciclano attraverso le stesse azioni fallimentari senza riuscire a recuperare. Presentiamo VLAA-GUI, un framework modulare per agenti GUI costruito attorno a tre componenti integrate che guidano il sistema su quando Fermarsi, Recuperare e Cercare. In primo luogo, un Verificatore di Completezza obbligatorio impone criteri di successo osservabili nell'interfaccia utente e una verifica ad ogni passo finale, con un verificatore a livello di agente che esamina incrociando le affermazioni di completamento con regole decisionali, respingendo quelle prive di evidenza visiva diretta. In secondo luogo, un Interrompi-Loop obbligatorio fornisce un filtraggio multi-livello: cambiando la modalità di interazione dopo ripetuti fallimenti, forzando cambi di strategia dopo la ricorrenza persistente dello stato dello schermo e collegando i segnali di riflessione a cambi di strategia. In terzo luogo, un Agente di Ricerca on-demand cerca online flussi di lavoro non familiari interrogando direttamente un LLM capace con abilità di ricerca, restituendo i risultati in testo semplice. Integriamo inoltre un Agente di Programmazione per azioni intensive di codice e un Agente di Grounding per un grounding preciso delle azioni, entrambi invocati on-demand quando necessario. Valutiamo VLAA-GUI su cinque backbone di primo livello, inclusi Opus 4.5, 4.6 e Gemini 3.1 Pro, su due benchmark con task Linux e Windows, raggiungendo le prestazioni migliori su entrambi (77,5% su OSWorld e 61,0% su WindowsAgentArena). Notevolmente, tre dei cinque backbone superano le prestazioni umane (72,4%) su OSWorld in un singolo passaggio. Studi di ablazione mostrano che tutte e tre le componenti proposte migliorano consistentemente un backbone forte, mentre un backbone più debole beneficia maggiormente di questi strumenti quando il budget di step è sufficiente. Un'ulteriore analisi mostra anche che l'Interrompi-Loop quasi dimezza gli step sprecati per i modelli inclini ai loop.
La distillazione della conoscenza (KD) è un paradigma potente per comprimere i grandi modelli linguistici (LLM), la cui efficacia dipende da scelte interconnesse di direzione di divergenza, strategia di ottimizzazione e regime dei dati. Scomponiamo la progettazione dei metodi KD esistenti e presentiamo una visione unificata che stabilisce connessioni tra di essi, riformulando la KD come un obiettivo di verosimiglianza logaritmica ponderata a livello di token. Proponiamo inoltre la Distillazione Ibrida delle Politiche (HPD), che integra i vantaggi complementari della KL forward e reverse per bilanciare la copertura dei modi e la ricerca dei modi, e combina dati off-policy con un campionamento on-policy approssimato e leggero. Convalidiamo l'HPD su ragionamenti matematici a generazione lunga, nonché su compiti di dialogo e codice a generazione corta, dimostrando una migliore stabilità di ottimizzazione, efficienza computazionale e prestazioni finali attraverso diverse famiglie e scale di modelli. Il codice relativo a questo lavoro è disponibile all'indirizzo https://github.com/zwhong714/Hybrid-Policy-Distillation.
La rilevazione e mitigazione in tempo reale delle anomalie tecniche sono fondamentali per servizi cloud-native su larga scala, dove anche pochi minuti di inattività possono causare ingenti perdite finanziarie e minare la fiducia degli utenti. Sebbene gli incidenti segnalati dai clienti rappresentino un segnale cruciale per individuare rischi sfuggiti al monitoraggio, l'estrazione di informazioni fruibili da questi dati rimane complessa a causa dell'elevato rumore, dell'alta velocità di trasmissione e della complessità semantica dei diversi business. In questo articolo presentiamo TingIS, un sistema end-to-end progettato per l'individuazione di incidenti di livello enterprise. Il cuore di TingIS è un motore di collegamento eventi multi-stadio che combina tecniche di indicizzazione efficienti con Large Language Model (LLM) per prendere decisioni informate sulla fusione degli eventi, consentendo l'estrazione stabile di incidenti azionabili partendo da poche descrizioni utente eterogenee. Questo motore è integrato da un meccanismo di instradamento a cascata per l'attribuzione precisa al business e una pipeline di riduzione del rumore multidimensionale che incorpora conoscenze di dominio, pattern statistici e filtri comportamentali. Implementato in un ambiente di produzione con picchi di oltre 2.000 messaggi al minuto e 300.000 messaggi giornalieri, TingIS raggiunge una latenza P90 degli alert di 3,5 minuti e un tasso di rilevamento del 95% per gli incidenti ad alta priorità. Benchmark costruiti su dati reali dimostrano che TingIS supera significativamente i metodi baseline in accuratezza di routing, qualità del clustering e rapporto segnale-rumore.
Proponiamo EditCrafter, un metodo di editing di immagini ad alta risoluzione che opera senza ottimizzazione, sfruttando modelli di diffusione testo-immagine (T2I) pre-addestrati per elaborare immagini a risoluzioni significativamente superiori a quelle utilizzate durante l'addestramento. Sfruttare i prior generativi dei modelli di diffusione T2I su larga scala consente lo sviluppo di una vasta gamma di nuove applicazioni di generazione e modifica. Sebbene siano stati proposti numerosi metodi di editing basati su modelli di diffusione che mostrano risultati di alta qualità, questi sono difficili da applicare a immagini con proporzioni arbitrarie o risoluzioni più elevate poiché funzionano solo alle risoluzioni di addestramento (512x512 o 1024x1024). Applicare ingenuamente l'editing a patch fallisce, producendo strutture oggettuali irrealistiche e ripetizioni. Per affrontare queste sfide, introduciamo EditCrafter, una pipeline di editing semplice ma efficace. EditCrafter opera eseguendo prima un'inversione a tasselli, che preserva l'identità originale dell'immagine ad alta risoluzione in input. Proponiamo inoltre una guida classifier-free vincolata al varietà con smorzamento del rumore (NDCFG++), specificamente studiata per l'editing di immagini ad alta risoluzione a partire dai latenti invertiti. I nostri esperimenti mostrano che EditCrafter può ottenere risultati di editing impressionanti su varie risoluzioni senza fine-tuning o ottimizzazione.
Presentiamo Omni, un modello multimodale unificato addestrato nativamente su diverse modalità, inclusi testo, immagini, video, geometria 3D e rappresentazioni latenti. Rileviamo che tale addestramento abilita lo Sviluppo Contestuale, dove il modello ragiona esplicitamente attraverso multiple rappresentazioni modali prima di produrre previsioni. Questo processo consente al modello di aggregare informazioni complementari tra modalità eterogenee, facilitando un'approssimazione più fedele della varietà condivisa di conoscenza multimodale e migliorando la fedeltà del ragionamento a valle. Di conseguenza, Omni raggiunge prestazioni solide sia su benchmark di generazione che di comprensione multimodale, dimostrando al contempo capacità avanzate di ragionamento multimodale, inclusa la generazione contestuale di testo, immagini, video e geometria 3D.
Presentiamo Vista4D, un framework robusto e flessibile per il re-shooting video che ancorà il video di input e le telecamere target in una nuvola di punti 4D. Nello specifico, dato un video in input, il nostro metodo risintetizza la scena con le stesse dinamiche da una diversa traiettoria e punto di vista della telecamera. I metodi esistenti di re-shooting video spesso incontrano difficoltà con gli artefatti della stima della profondità nei video dinamici del mondo reale, fallendo inoltre nel preservare l'aspetto del contenuto e nel mantenere un controllo preciso della telecamera per traiettorie nuove e complesse. Costruiamo una rappresentazione a nuvola di punti ancorata in 4D con segmentazione dei pixel statici e ricostruzione 4D per preservare esplicitamente il contenuto visto e fornire segnali di telecamera ricchi, e addestriamo il sistema con dati dinamici multiview ricostruiti per garantire robustezza contro gli artefatti della nuvola di punti durante l'inferenza nel mondo reale. I nostri risultati dimostrano un miglioramento nella consistenza 4D, nel controllo della telecamera e nella qualità visiva rispetto ai baseline state-of-the-art su una varietà di video e percorsi di telecamera. Inoltre, il nostro metodo si generalizza per applicazioni nel mondo reale come l'espansione di scene dinamiche e la ricomposizione di scene 4D. Visita la nostra pagina del progetto per risultati, codice e modelli: https://eyeline-labs.github.io/Vista4D
Negli ultimi anni, sono stati compiuti progressi significativi sia nella generazione di immagini che nel rilevamento di immagini generate. Nonostante il loro sviluppo rapido, ma in gran parte indipendente, questi due campi hanno evoluto paradigmi architetturali distinti: il primo si basa prevalentemente su reti generative, mentre il secondo predilige framework discriminatori. Una tendenza recente in entrambi i domini è l'uso di informazioni avversarie per migliorare le prestazioni, rivelando un potenziale di sinergia. Tuttavia, la significativa divergenza architetturale tra di essi presenta sfide considerevoli. Allontanandoci dagli approcci precedenti, proponiamo UniGenDet: un framework unificato generativo-discriminativo per la Generazione di immagini e il Rilevamento di immagini generate in co-evoluzione. Per colmare il divario tra i compiti, progettiamo un meccanismo di self-attention multimodale simbiotico e un algoritmo di fine-tuning unificato. Questa sinergia consente al compito di generazione di migliorare l'interpretabilità dell'identificazione dell'autenticità, mentre i criteri di autenticità guidano la creazione di immagini con fedeltà più elevata. Inoltre, introduciamo un meccanismo di allineamento generativo informato dal rilevatore per facilitare uno scambio di informazioni senza soluzione di continuità. Esperimenti estesi su più dataset dimostrano che il nostro metodo raggiunge prestazioni all'avanguardia. Codice: https://github.com/Zhangyr2022/UniGenDet{https://github.com/Zhangyr2022/UniGenDet}.
Mentre i Large Language Model (LLM) eccellono nella generazione di codice a livello di funzione, compiti a livello di progetto come la generazione di siti web multipagina funzionali e esteticamente gradevoli rimangono estremamente impegnativi. I lavori esistenti sono spesso limitati a siti web statici a pagina singola, mentre i framework agentici tipicamente si basano su esecuzioni multi-turn con modelli proprietari, portando a costi sostanziali in token, alta latenza e integrazioni fragili. Addestrare un piccolo LLM end-to-end con reinforcement learning (RL) è un'alternativa promettente, ma affronta un collo di bottiglia critico nella progettazione di ricompense affidabili e computazionalmente fattibili per la generazione di siti web. A differenza dei compiti di codifica a file singolo che possono essere verificati con test unitari, la generazione di siti web richiede la valutazione di aspetti estetici intrinsecamente soggettivi, interazioni tra pagine e correttezza funzionale. A tal fine, proponiamo WebGen-R1, un framework RL end-to-end specificamente progettato per la generazione di siti web a livello di progetto. Introduciamo prima un paradigma di generazione strutturata guidato da scaffold che vincola il vasto spazio d'azione aperto e preserva l'integrità architetturale. Successivamente, progettiamo una nuova ricompensa multimodale a cascata che combina in modo fluido garanzie strutturali con feedback funzionale basato sull'esecuzione e supervisione estetica basata sulla visione. Esperimenti estensivi dimostrano che il nostro WebGen-R1 trasforma sostanzialmente un modello base da 7B, che generava siti web quasi non funzionanti, in uno in grado di produrre siti web multipagina distribuibili e allineati esteticamente. Notevolmente, il nostro WebGen-R1 non solo supera costantemente modelli open-source pesantemente scalati (fino a 72B), ma rivaleggia anche con lo state-of-the-art DeepSeek-R1 (671B) nel successo funzionale, superandolo sostanzialmente nel rendering valido e nell'allineamento estetico. Questi risultati posizionano WebGen-R1 come un percorso percorribile per scalare piccoli modelli open dalla generazione di codice a livello di funzione alla generazione di applicazioni web a livello di progetto.
La modellazione generativa congiunta immagine-caratteristiche è recentemente emersa come strategia efficace per migliorare l'addestramento di modelli diffusion accoppiando latenti VAE di basso livello con caratteristiche semantiche di alto livello estratte da encoder visivi pre-addestrati. Tuttavia, gli approcci esistenti si basano su uno spazio di rappresentazione fisso, costruito indipendentemente dall'obiettivo generativo e mantenuto invariato durante l'addestramento. Sosteniamo che lo spazio di rappresentazione che guida il processo diffusion debba a sua volta adattarsi al compito generativo. A tal fine, proponiamo Coevolving Representation Diffusion (CoReDi), un framework in cui lo spazio di rappresentazione semantica evolve durante l'addestramento apprendendo una proiezione lineare leggera congiuntamente al modello diffusion. Sebbene l'ottimizzazione ingenua di questa proiezione porti a soluzioni degenerate, dimostriamo che una coevoluzione stabile può essere ottenuta attraverso una combinazione di target stop-gradient, normalizzazione e regolarizzazione mirata che previene il collasso delle caratteristiche. Questa formulazione consente allo spazio semantico di specializzarsi progressivamente per le esigenze della sintesi d'immagine, migliorandone la complementarità con i latenti immagine. Applichiamo CoReDi sia alla diffusione su latenti VAE che alla diffusione in spazio-pixel, dimostrando che rappresentazioni semantiche adattive migliorano la modellazione generativa in entrambi gli scenari. Gli esperimenti mostrano che CoReDi raggiunge una convergenza più rapida e una qualità del campione superiore rispetto ai modelli diffusion congiunti che operano in spazi di rappresentazione fissi.
I Large Language Model (LLM) hanno dimostrato una notevole fluidità e versatilità in un'ampia gamma di compiti di NLP, ma rimangono inclini a imprecisioni fattuali e allucinazioni. Questa limitazione comporta rischi significativi in domini ad alto rischio come l'assistenza sanitaria, il diritto e la comunicazione scientifica, dove l'affidabilità e la verificabilità sono fondamentali. In questo articolo, introduciamo DAVinCI, un framework di Doppia Attribuzione e Verifica progettato per migliorare l'affidabilità fattuale e l'interpretabilità degli output degli LLM. DAVinCI opera in due fasi: (i) attribuisce le affermazioni generate a componenti interni del modello e a fonti esterne; (ii) verifica ogni affermazione utilizzando un ragionamento basato sull'entailment e una calibrazione della confidenza. Valutiamo DAVinCI su diversi dataset, tra cui FEVER e CLIMATE-FEVER, e confrontiamo le sue prestazioni con baseline standard di sola verifica. I nostri risultati mostrano che DAVinCI migliora significativamente l'accuratezza della classificazione, la precisione dell'attribuzione, il richiamo e l'F1-score del 5-20%. Attraverso un ampio studio di ablazione, isoliamo i contributi della selezione degli span di evidenza, delle soglie di ricalibrazione e della qualità del retrieval. Rilasciamo inoltre un'implementazione modulare di DAVinCI che può essere integrata nelle pipeline LLM esistenti. Colmando il divario tra attribuzione e verifica, DAVinCI offre un percorso scalabile verso sistemi di IA verificabili e affidabili. Questo lavoro contribuisce al crescente sforzo per rendere gli LLM non solo potenti, ma anche responsabili.
I modelli di fondamento per l'elettroencefalografia (EEG) hanno dimostrato un forte potenziale nell'apprendere rappresentazioni generalizzabili da dati neurali su larga scala, tuttavia il loro dispiegamento clinico è ostacolato da cambiamenti di distribuzione tra contesti clinici, dispositivi e popolazioni. L'adattamento al tempo di test (TTA) offre una soluzione promettente, consentendo ai modelli di adattarsi a dati target non etichettati durante l'inferenza senza accesso ai dati sorgente, una proprietà preziosa in ambito sanitario, vincolato da normative sulla privacy e da dati etichettati limitati. Tuttavia, la sua efficacia per l'EEG rimane in gran parte inesplorata. In questo lavoro, introduciamo NeuroAdapt-Bench, un benchmark sistematico per valutare i metodi di adattamento al tempo di test sui modelli di fondamento EEG sotto cambiamenti di distribuzione realistici. Valutiamo approcci TTA rappresentativi da altri domini su molteplici modelli di fondamento pre-addestrati, vari compiti downstream e dataset eterogenei che coprono cambiamenti in-distribuzione, out-of-distribuzione e cambiamenti di modalità estremi (ad esempio, Ear-EEG). I nostri risultati mostrano che i metodi TTA standard producono guadagni inconsistenti e spesso degradano le prestazioni, con approcci basati sul gradiente particolarmente inclini a pesanti degradazioni. Al contrario, i metodi privi di ottimizzazione dimostrano una maggiore stabilità e miglioramenti più affidabili. Questi risultati evidenziano i limiti delle tecniche TTA esistenti nell'EEG, forniscono una guida per lo sviluppo futuro e sottolineano la necessità di strategie di adattamento specifiche per il dominio.
L'apprendimento di rappresentazioni robuste dello stile autoriale è cruciale per l'attribuzione di paternità e il rilevamento di testo generato dall'IA. Tuttavia, i metodi esistenti spesso si scontrano con il problema dell'entanglement contenuto-stile, in cui i modelli apprendono correlazioni spurie tra gli stili di scrittura degli autori e i temi trattati, portando a una scarsa generalizzazione tra diversi domini. Per affrontare questa sfida, proponiamo Explainable Authorship Variational Autoencoder (EAVAE), un nuovo framework che separa esplicitamente lo stile dal contenuto attraverso una separazione architetturale by-design. EAVAE addestra preliminarmente gli encoder di stile utilizzando l'apprendimento contrastivo supervisionato su dati di paternità diversificati, per poi affinare il modello con un'architettura Variational Autoencoder (VAE) che utilizza encoder separati per le rappresentazioni di stile e contenuto. La separazione viene applicata attraverso un nuovo discriminatore che non solo distingue se coppie di rappresentazioni di stile/contenuto appartengono allo stesso autore o a fonti di contenuto diverse, ma genera anche una spiegazione in linguaggio naturale per la sua decisione, mitigando simultaneamente le informazioni confondenti e migliorando l'interpretabilità. Esperimenti estensivi dimostrano l'efficacia di EAVAE. Nell'attribuzione di paternità, otteniamo prestazioni all'avanguardia su vari dataset, tra cui Amazon Reviews, PAN21 e HRS. Per il rilevamento di testo generato dall'IA, EAVAE eccelle nell'apprendimento con pochi esempi sul dataset M4. I repository di codice e dati sono disponibili online: https://github.com/hieum98/avae https://huggingface.co/collections/Hieuman/document-level-authorship-datasets.
I modelli Mixture-of-Experts (MoE), oggi popolari per scalare la capacità a velocità di inferenza fissa, attivano esperti diversi per quasi ogni token. Quando un modello supera la memoria GPU disponibile, questa alternanza continua può rendere inefficaci ottimizzazioni come l'offloading e il pre-fetching. Sosteniamo che il framework delle opzioni nell'apprendimento per rinforzo sia perfettamente adatto ad affrontare questo problema e proponiamo layer mixture-of-experts temporalmente estesi. Basandoci sul framework option-critic con costi di deliberazione, aggiungiamo un controller a ogni strato che impara quando cambiare l'insieme di esperti e quali caricare. Applicando questo metodo a gpt-oss-20b con adattatori low-rank e una ricompensa di auto-distillazione, la nostra tecnica riduce la frequenza di commutazione da oltre il 50% a meno del 5%, mantenendo fino al 90% dell'accuratezza del modello base su MATH, MMLU e MMMLU. Ciò dimostra che anche modelli pre-addestrati esistenti possono essere convertiti in MoE temporalmente estesi con un addestramento leggero, dove il costo di deliberazione consente ai trainer di modelli di bilanciare il tasso di commutazione con le capacità. Speriamo che questo apra una strada principiata, fondata sul framework delle opzioni, per un servizio efficiente in termini di memoria e un apprendimento continuo in modelli MoE in continua crescita.
Le capacità di conoscenza del mondo e di ragionamento dei modelli linguistici di grandi dimensioni (LLM) basati su testo stanno progredendo rapidamente, eppure gli approcci attuali alla comprensione del movimento umano, inclusi il question answering e la descrizione del movimento, non hanno sfruttato appieno queste potenzialità. I metodi esistenti basati su LLM tipicamente apprendono l'allineamento movimento-linguaggio attraverso encoder dedicati che proiettano le caratteristiche del movimento nello spazio di embedding dell'LLM, rimanendo vincolati dalla rappresentazione e dall'allineamento cross-modale. Ispirati dall'analisi biomeccanica, in cui gli angoli articolari e la cinematica delle parti del corpo hanno a lungo servito come linguaggio descrittivo preciso per il movimento umano, proponiamo Structured Motion Description (SMD), un approccio deterministico e basato su regole che converte sequenze di posizioni articolari in descrizioni strutturate in linguaggio naturale degli angoli articolari, dei movimenti delle parti del corpo e della traiettoria globale. Rappresentando il movimento come testo, SMD consente agli LLM di applicare la loro conoscenza pre-addestrata delle parti del corpo, delle direzioni spaziali e della semantica del movimento direttamente al ragionamento sul movimento, senza richiedere encoder appresi o moduli di allineamento. Dimostriamo che questo approccio supera i risultati state-of-the-art sia nel question answering sul movimento (66.7% su BABEL-QA, 90.1% su HuMMan-QA) che nella descrizione del movimento (R@1 di 0.584, CIDEr di 53.16 su HumanML3D), superando tutti i metodi precedenti. SMD offre inoltre vantaggi pratici: lo stesso input testuale funziona su diversi LLM con solo un adattamento LoRA leggero (validato su 8 LLM di 6 famiglie di modelli), e la sua rappresentazione leggibile dall'uomo permette un'analisi dell'attenzione interpretabile sulle descrizioni del movimento. Codice, dati e adattatori LoRA pre-addestrati sono disponibili su https://yaozhang182.github.io/motion-smd/.
La personalizzazione dei modelli linguistici attraverso un'incorporazione efficace della cronologia delle interazioni utente rimane una sfida centrale nello sviluppo di sistemi di IA adattivi. Sebbene i grandi modelli linguistici (LLM), combinati con la Generazione Aumentata dal Recupero (RAG), abbiano migliorato l'accuratezza fattuale, essi spesso mancano di una memoria strutturata e non riescono a scalare in interazioni complesse e a lungo termine. Per affrontare questo problema, proponiamo un framework flessibile di memoria esterna basato su un grafo della conoscenza che viene costruito e aggiornato automaticamente dall'LLM. Basandoci sull'architettura AriGraph, introduciamo una nuova progettazione di grafo ibrido che supporta sia archi standard sia due tipi di iper-archi, consentendo rappresentazioni semantiche e temporali ricche e dinamiche. Il nostro framework supporta inoltre meccanismi di recupero diversificati, inclusi l'algoritmo A*, l'attraversamento WaterCircles, la ricerca a fascio e metodi ibridi, rendendolo adattabile a diversi dataset e capacità degli LLM. Valutiamo il nostro sistema sui benchmark TriviaQA, HotpotQA e DiaASQ e dimostriamo che diverse configurazioni di memoria e recupero producono prestazioni ottimali a seconda del compito. Inoltre, estendiamo il benchmark DiaASQ con annotazioni temporali e affermazioni internamente contraddittorie, mostrando che il nostro sistema rimane robusto ed efficace nella gestione delle dipendenze temporali e del ragionamento consapevole del contesto.
I modelli multimodali di grandi dimensioni sono sempre più utilizzati come nucleo di ragionamento per agenti embodied che operano in ambienti 3D, ma rimangono soggetti a allucinazioni che possono produrre decisioni non sicure e non fondate. I metodi esistenti di mitigazione delle allucinazioni al momento dell'inferenza si concentrano prevalentemente su contesti visivo-linguistici 2D e non si trasferiscono al ragionamento embodied in 3D, dove gli errori derivano dalla presenza di oggetti, dal layout spaziale e dal grounding geometrico piuttosto che da incoerenze a livello di pixel. Introduciamo 3D-VCD, il primo framework di decoding contrastivo visivo al momento dell'inferenza per la mitigazione delle allucinazioni negli agenti embodied 3D. 3D-VCD costruisce un grafo di scena 3D distorto applicando perturbazioni semantiche e geometriche a rappresentazioni incentrate sugli oggetti, come sostituzioni di categorie e corruzioni di coordinate o estensioni. Contrastando le previsioni sotto i contesti 3D originali e distorti, il nostro metodo sopprime i token che sono insensibili all'evidenza fondata della scena e che sono quindi probabilmente guidati da prior linguistiche. Valutiamo 3D-VCD sui benchmark 3D-POPE e HEAL e dimostriamo che migliora costantemente il ragionamento fondato senza alcuna riaddestramento, stabilendo il decoding contrastivo al momento dell'inferenza su rappresentazioni 3D strutturate come una via efficace e pratica verso un'intelligenza embodied più affidabile.