Articoli di ricerca IA selezionati quotidianamente con traduzioni
La preparazione dei dati mira a de-rumorizzare dataset grezzi, scoprire relazioni tra dataset ed estrarre insight preziosi da essi, operazioni essenziali per un'ampia gamma di applicazioni data-centric. Guidata (i) dalla crescente domanda di dati pronti per l'uso applicativo (ad es., per analisi, visualizzazione, decision-making), (ii) dalle tecniche di LLM sempre più potenti e (iii) dall'emergere di infrastrutture che facilitano la costruzione flessibile di agenti (ad es., utilizzando Databricks Unity Catalog), i metodi potenziati dagli LLM stanno rapidamente diventando un paradigma trasformativo e potenzialmente dominante per la preparazione dei dati. Esaminando centinaia di lavori recenti, questo articolo presenta una revisione sistematica di questo panorama in evoluzione, concentrandosi sull'uso delle tecniche LLM per preparare dati per vari task downstream. In primo luogo, caratterizziamo il cambiamento paradigmatico fondamentale, dalle pipeline rule-based e model-specific ai flussi di lavoro di preparazione prompt-driven, context-aware e agentici. Successivamente, introduciamo una tassonomia task-centric che organizza il campo in tre task principali: data cleaning (ad es., standardizzazione, trattamento errori, imputazione), data integration (ad es., entity matching, schema matching) e data enrichment (ad es., annotazione dati, profiling). Per ogni task, esaminiamo le tecniche rappresentative ed evidenziamo i rispettivi punti di forza (ad es., migliore generalizzazione, comprensione semantica) e limitazioni (ad es., il costo proibitivo del scaling degli LLM, le allucinazioni persistenti anche in agenti avanzati, la discrepanza tra metodi avanzati e valutazione debole). Inoltre, analizziamo i dataset e le metriche di valutazione comunemente utilizzati (parte empirica). Infine, discutiamo le open research challenge e delineiamo una roadmap prospettica che enfatizza sistemi scalabili LLM-dati, design principiati per flussi di lavoro agentici affidabili e protocolli di valutazione robusti.
Recentemente, la frontiera delle capacità dei Large Language Model (LLM) si è spostata dalla generazione di codice a singolo turno all'ingegneria del software agentiva, un paradigma in cui i modelli navigano, modificano e testano in modo autonomo repository complessi. Sebbene i metodi di post-addestramento siano diventati l'approccio de facto per gli agenti di codice, l'**agentic mid-training** (MT) su dati su larga scala che riflettono autentici flussi di lavoro agentivi rimane criticamente poco esplorato a causa dei notevoli requisiti di risorse, nonostante offra un percorso più scalabile per instillare comportamenti agentivi fondamentali rispetto all'affidarsi esclusivamente a costosi apprendimenti per rinforzo. Una sfida centrale nel realizzare un agentic mid-training efficace è la discrepanza distributiva tra i dati di addestramento statici e l'ambiente dinamico e ricco di feedback dello sviluppo reale. Per affrontare ciò, presentiamo uno studio sistematico sull'agentic mid-training, stabilendo sia i principi di sintesi dei dati che la metodologia di addestramento per uno sviluppo efficace degli agenti su larga scala. Centrale nel nostro approccio sono i **dati agent-native** - una supervisione composta da due tipi complementari di traiettorie: **traiettorie contestualmente native** che preservano il flusso completo di informazioni che un agente esperisce, offrendo ampia copertura e diversità; e **traiettorie ambientalmente native** raccolte da repository eseguibili in cui le osservazioni derivano da effettive invocazioni di strumenti ed esecuzioni di test, fornendo profondità e autenticità interattiva. Verifichiamo le capacità agentive del modello su `SWE-Bench Verified`. Dimostriamo la nostra superiorità rispetto alla precedente ricetta open di mid-training per l'ingegneria del software `Kimi-Dev` in due impostazioni di post-addestramento con un modello base allineato e un'impalcatura agentiva, pur utilizzando meno della metà dei token di mid-training (73,1 miliardi). Oltre al vantaggio relativo, i nostri modelli migliori da 32B e 72B raggiungono rispettivamente tassi di risoluzione del **56,1%** e del **58,5%**, che sono...
I recenti progressi nella generazione video hanno prodotto modelli in grado di sintetizzare contenuti visivi straordinari a partire da semplici prompt testuali. Tuttavia, questi modelli faticano a generare narrazioni lunghe e coerenti da concetti di alto livello come i dialoghi, rivelando un "divario semantico" tra un'idea creativa e la sua esecuzione cinematografica. Per colmare questa lacuna, introduciamo un nuovo framework agente end-to-end per la generazione di video cinematografici a partire da dialoghi. Cuore del nostro framework è ScripterAgent, un modello addestrato a tradurre dialoghi generici in una sceneggiatura cinematografica granulare ed eseguibile. Per abilitare ciò, abbiamo costruito ScriptBench, un nuovo benchmark su larga scala con un ricco contesto multimodale, annotato tramite una pipeline guidata da esperti. La sceneggiatura generata guida poi DirectorAgent, che orchestra modelli video all'avanguardia utilizzando una strategia di generazione continua tra le scene per garantire coerenza su lunghi orizzonti. La nostra valutazione completa, che include un CriticAgent alimentato dall'IA e una nuova metrica di Allineamento Visivo-Sceneggiatura (VSA), dimostra che il nostro framework migliora significativamente la fedeltà alla sceneggiatura e la coerenza temporale in tutti i modelli video testati. Inoltre, la nostra analisi rivela un compromesso cruciale negli attuali modelli SOTA tra spettacolarità visiva e rigorosa aderenza alla sceneggiatura, fornendo spunti preziosi per il futuro della produzione cinematografica automatizzata.
Un modello può imparare a superare il proprio plateau di apprendimento? I metodi di apprendimento per rinforzo per il fine-tuning di modelli di ragionamento di grandi dimensioni si bloccano su dataset con tassi di successo iniziali bassi, e quindi con segnali di training scarsi. Investigiamo una questione fondamentale: un LLM preaddestrato può sfruttare la conoscenza latente per generare un curriculum automatizzato per problemi che non è in grado di risolvere? Per esplorare ciò, progettiamo SOAR: un framework di automiglioramento concepito per far emergere questi segnali pedagogici attraverso il meta-RL. Una copia "insegnante" del modello propone problemi sintetici per una copia "studente", e viene premiata in base al miglioramento di quest'ultima su un piccolo sottoinsieme di problemi difficili. Elemento cruciale, SOAR ancorà il curriculum al progresso misurato dello studente, piuttosto che a ricompense intrinseche surrogate. Il nostro studio sui sottoinsiemi più difficili di benchmark matematici (0/128 successi) rivela tre risultati fondamentali. Primo, dimostriamo che è possibile realizzare un meta-RL bi-livello che sblocca l'apprendimento con ricompense binarie e sparse, affinando una capacità latente dei modelli preaddestrati di generare utili "tappe intermedie". Secondo, le ricompense ancorate allo studente superano gli schemi di ricompensa intrinseca usati in precedenti lavori di self-play per LLM, evitando in modo affidabile l'instabilità e il collasso della diversità che tipicamente li caratterizzano. Terzo, l'analisi delle domande generate rivela che la qualità strutturale e la chiara formulazione sono più critiche per il progresso dell'apprendimento rispetto alla correttezza della soluzione. I nostri risultati suggeriscono che la capacità di generare utili tappe intermedie non richiede la preesistente abilità di risolvere effettivamente i problemi difficili, tracciando così un percorso metodologico per fuggire dai plateau di ragionamento senza dati aggiuntivi curati.
Sebbene i dati sintetici si siano dimostrati efficaci per migliorare il ragionamento scientifico nel dominio testuale, il ragionamento multimodale rimane limitato dalla difficoltà di sintetizzare immagini scientificamente rigorose. I modelli Text-to-Image (T2I) esistenti spesso producono output visivamente plausibili ma scientificamente scorretti, risultando in una persistente divergenza logico-visiva che ne limita il valore per il ragionamento a valle. Sulla scia dei recenti progressi nei modelli T2I di nuova generazione, conduciamo uno studio sistematico sulla sintesi di immagini scientifiche, analizzando i paradigmi di generazione, la valutazione e l'utilizzo downstream. Analizziamo sia la generazione diretta basata sui pixel che la sintesi programmatica, e proponiamo ImgCoder, un framework guidato dalla logica che segue un flusso di lavoro esplicito "comprendi - pianifica - programma" per migliorare la precisione strutturale. Per valutare rigorosamente la correttezza scientifica, introduciamo SciGenBench, che valuta le immagini generate in base all'utilità informativa e alla validità logica. La nostra valutazione rivela modalità di fallimento sistematiche nei modelli basati sui pixel ed evidenzia un fondamentale compromesso tra espressività e precisione. Infine, dimostriamo che il fine-tuning di Large Multimodal Models (LMMs) su immagini scientifiche sintetiche e rigorosamente verificate produce miglioramenti consistenti nel ragionamento, con potenziali trend di scalabilità analoghi al dominio testuale, convalidando la sintesi scientifica ad alta fedeltà come un percorso percorribile per sbloccare capacità massive di ragionamento multimodale.
La complessità quadratica dei meccanismi di attenzione standard rappresenta un significativo collo di bottiglia per la scalabilità dei grandi modelli linguistici (LLM) negli scenari a contesto lungo. Sebbene le strategie di attenzione ibrida, che combinano attenzione sparsa e completa all'interno di un singolo modello, offrano una soluzione valida, esse tipicamente impiegano rapporti di calcolo statici (ovvero proporzioni fisse tra attenzione sparsa e completa) e non si adattano alle variabili sensibilità alla sparsità dei task downstream durante l'inferenza. Per affrontare questo problema, proponiamo Elastic Attention, che consente al modello di regolare dinamicamente la propria sparsità complessiva in base all'input. Questo risultato è ottenuto integrando un leggero Attention Router nel modello preaddestrato esistente, che assegna dinamicamente ogni testa di attenzione a diverse modalità di calcolo. Con soltanto 12 ore di addestramento su 8 GPU A800, il nostro metodo consente ai modelli di raggiungere sia prestazioni solide che un'inferenza efficiente. Esperimenti condotti su tre benchmark a contesto lungo, utilizzando LLM ampiamente diffusi, dimostrano la superiorità del nostro metodo.
Il campo della generazione di immagini è attualmente diviso tra modelli autoregressivi (AR) che operano su token discreti e modelli di diffusione che utilizzano latenti continui. Questa divisione, radicata nella distinzione tra VQ-VAE e VAE, ostacola la modellizzazione unificata e il benchmarking equo. La Quantizzazione Scalare Finita (FSQ) offre un ponte teorico, tuttavia la FSQ standard soffre di un difetto critico: la sua quantizzazione a intervalli uguali può causare un collasso delle attivazioni. Questo disallineamento impone un compromesso tra fedeltà di ricostruzione ed efficienza informativa. In questo lavoro, risolviamo questo dilemma semplicemente sostituendo la funzione di attivazione nella FSQ originale con una mappatura di allineamento distributivo per imporre un prior uniforme. Denominata iFSQ, questa semplice strategia richiede solo una riga di codice ma garantisce matematicamente sia l'utilizzo ottimale dei bin che la precisione di ricostruzione. Sfruttando iFSQ come benchmark controllato, scopriamo due intuizioni chiave: (1) L'equilibrio ottimale tra rappresentazioni discrete e continue si colloca a circa 4 bit per dimensione. (2) Sotto identici vincoli di ricostruzione, i modelli AR mostrano una convergenza iniziale rapida, mentre i modelli di diffusione raggiungono un limite di performance superiore, suggerendo che un ordinamento sequenziale rigido possa limitare i limiti superiori della qualità di generazione. Infine, estendiamo la nostra analisi adattando l'Allineamento della Rappresentazione (REPA) ai modelli AR, ottenendo LlamaGen-REPA. Il codice è disponibile all'indirizzo https://github.com/Tencent-Hunyuan/iFSQ.
Sebbene la valutazione degli agenti si sia spostata verso compiti a lungo termine, la maggior parte dei benchmark continua a enfatizzare un ragionamento locale e a livello di step, piuttosto che l'ottimizzazione vincolata globale (ad esempio, budget di tempo e denaro) che richiede una genuina capacità di pianificazione. Nel frattempo, gli attuali benchmark di pianificazione per LLM rappresentano in modo insufficiente la raccolta attiva di informazioni e i vincoli locali granulari tipici degli scenari del mondo reale. Per affrontare questa lacuna, introduciamo DeepPlanning, un benchmark impegnativo per la pianificazione pratica di agenti a lungo termine. Esso include attività di pianificazione di viaggi di più giorni e di acquisto di più prodotti che richiedono acquisizione proattiva di informazioni, ragionamento vincolato locale e ottimizzazione vincolata globale. Le valutazioni su DeepPlanning mostrano che persino i migliori LLM agentistici hanno difficoltà con questi problemi, evidenziando l'importanza di modelli di ragionamento esplicito affidabili e dell'uso parallelo di strumenti per raggiungere migliori compromessi tra efficacia ed efficienza. L'analisi degli errori indica inoltre direzioni promettenti per il miglioramento degli LLM agentistici su orizzonti di pianificazione lunghi. Rendiamo open-source il codice e i dati per supportare la ricerca futura.
La percezione visiva spaziale è un requisito fondamentale in applicazioni del mondo fisico come la guida autonoma e la manipolazione robotica, spinte dalla necessità di interagire con ambienti 3D. La cattura di profondità metrica allineata ai pixel tramite telecamere RGB-D sarebbe la soluzione più praticabile, ma si scontra spesso con ostacoli posti dalle limitazioni hardware e da condizioni di imaging complesse, specialmente in presenza di superfici speculari o senza texture. In questo lavoro, sosteniamo che le imprecisioni dei sensori di profondità possano essere considerate come segnali "mascherati" che riflettono intrinsecamente ambiguità geometriche sottostanti. Basandoci su questa motivazione, presentiamo LingBot-Depth, un modello di completamento della profondità che sfrutta il contesto visivo per affinare le mappe di profondità attraverso la modellazione della profondità mascherata e incorpora una pipeline di curatela automatica dei dati per un addestramento scalabile. È incoraggiante osservare come il nostro modello superi telecamere RGB-D di alto livello in termini sia di precisione della profondità che di copertura pixel. I risultati sperimentali su una serie di task downstream suggeriscono inoltre che LingBot-Depth offre una rappresentazione latente allineata attraverso le modalità RGB e profondità. Rilasciamo codice, checkpoint e 3M coppie RGB-profondità (inclusi 2M di dati reali e 1M di dati simulati) alla comunità della percezione spaziale.
I generatori video moderni continuano a lottare con dinamiche fisiche complesse, spesso risultando carenti in realismo fisico. Gli approcci esistenti affrontano questo problema utilizzando verificatori esterni o addestramento aggiuntivo su dati aumentati, soluzioni computazionalmente costose e comunque limitate nella capacità di catturare movimenti di fine granularità. In questo lavoro, presentiamo il *self-refining video sampling*, un metodo semplice che utilizza un generatore video pre-addestrato su dataset su larga scala come proprio raffinatore interno. Interpretando il generatore come un autoencoder denoiser, abilitiamo un raffinamento iterativo in-loop al momento dell'inferenza, senza alcun verificatore esterno o addestramento aggiuntivo. Introduciamo inoltre una strategia di raffinamento *uncertainty-aware* che perfeziona selettivamente le regioni in base all'auto-consistenza, prevenendo così artefatti causati da un eccessivo raffinamento. Esperimenti condotti su generatori video all'avanguardia dimostrano miglioramenti significativi nella coerenza del movimento e nell'allineamento fisico, raggiungendo una preferenza umana superiore al 70% rispetto al campionatore predefinito e a quello basato su *guidance*.
Questo rapporto presenta VibeVoice-ASR, un framework generale per la comprensione del parlato basato su VibeVoice, progettato per affrontare le persistenti sfide della frammentazione del contesto e della complessità multi-relatore nell'audio di lunga durata (ad esempio, riunioni, podcast), che permangono nonostante i recenti progressi nel riconoscimento vocale per audio brevi. A differenza degli approcci tradizionali a pipeline che si basano sul frammentamento dell'audio, VibeVoice-ASR supporta l'elaborazione in un'unica passata per audio fino a 60 minuti. Esso unifica il Riconoscimento Vocale Automatico, la Diarizzazione del Parlato e la Marcatura Temporale in un'unica attività di generazione end-to-end. Inoltre, VibeVoice-ASR supporta oltre 50 lingue, non richiede un'impostazione linguistica esplicita e gestisce nativamente il code-switching all'interno e tra le espressioni. Inoltre, introduciamo un meccanismo di iniezione del contesto basato su prompt che consente agli utenti di fornire contesto personalizzato, migliorando significativamente l'accuratezza nella terminologia specifica di dominio e nella disambiguazione di caratteri polifonici.
L'avvento di assistenti personali IA sempre attivi, resi possibili da dispositivi indossabili a utilizzo giornaliero come gli occhiali intelligenti, richiede un nuovo livello di comprensione contestuale, che vada oltre eventi brevi e isolati per abbracciare il flusso continuo e longitudinale di video in prima persona. Realizzare questa visione richiede progressi nella comprensione video a lungo termine, dove i sistemi devono interpretare e ricordare informazioni visive e audio che si estendono per giorni o addirittura settimane. I metodi esistenti, inclusi i grandi modelli linguistici e la generazione aumentata tramite recupero di informazioni, sono limitati da finestre contestuali ristrette e mancano della capacità di eseguire ragionamenti compositivi e multi-hop su flussi video molto lunghi. In questo lavoro, affrontiamo queste sfide attraverso EGAgent, un framework agentico potenziato incentrato su grafi della scena entità, che rappresentano persone, luoghi, oggetti e le loro relazioni nel tempo. Il nostro sistema fornisce a un agente di pianificazione strumenti per la ricerca strutturata e il ragionamento su questi grafi, nonché capacità ibride di ricerca visiva e audio, consentendo un ragionamento dettagliato, cross-modale e temporalmente coerente. Esperimenti sui dataset EgoLifeQA e Video-MME (Long) dimostrano che il nostro metodo raggiunge prestazioni allo stato dell'arte su EgoLifeQA (57,5%) e prestazioni competitive su Video-MME (Long) (74,1%) per compiti complessi di comprensione video longitudinale.
La percezione e l'interazione nel mondo reale sono intrinsecamente multimodali, comprendendo non solo il linguaggio ma anche la visione e la parola, il che motiva lo sviluppo di MLLM "Omni" che supportano sia input che output multimodali. Sebbene sia emersa una serie di MLLM omni, la maggior parte dei sistemi esistenti si affida ancora a componenti specialistiche aggiuntive per ottenere la generazione multimodale, limitando la semplicità dell'addestramento e dell'inferenza unificati. La modellazione autoregressiva (AR), con un unico flusso di token, un unico obiettivo di next-token e un unico decoder, rappresenta una base elegante e scalabile nel dominio testuale. Motivati da ciò, presentiamo AR-Omni, un modello unificato any-to-any nel paradigma autoregressivo privo di decoder specialistici. AR-Omni supporta la generazione autoregressiva di testo e immagini, nonché la generazione di parlato in streaming, tutto all'interno di un unico decoder Trasformatore. Affrontiamo inoltre tre problemi pratici nella modellazione AR unificata: lo squilibrio di modalità attraverso la ritaratura della loss consapevole del compito, la fedeltà visiva mediante una loss di allineamento percettivo leggera a livello di token per i token immagine, e i compromessi stabilità-creatività attraverso un meccanismo di decodifica a stati finiti. Empiricamente, AR-Omni raggiunge un'elevata qualità attraverso tre modalità mantenendo al contempo prestazioni in tempo reale, conseguendo un fattore di tempo reale di 0.88 per la generazione del parlato.
I modelli di embedding generici hanno dimostrato prestazioni solide nel recupero di testo, ma rimangono subottimali per il recupero di tabelle, dove contenuti altamente strutturati causano compressione semantica e una mancata corrispondenza (mismatch) tra query e tabella. Recenti metodi di recupero aumentato basati su LLM mitigano questo problema generando query sintetiche, tuttavia spesso si basano su una selezione euristica di tabelle parziali e raramente sfruttano queste query sintetiche come supervisione per migliorare il modello di embedding. Introduciamo CGPT, un framework di addestramento che potenzia il recupero di tabelle attraverso una supervisione generata da LLM. CGPT costruisce tabelle parziali semanticamente diversificate clusterizzando le istanze di tabella utilizzando K-means e campionando tra i cluster per ampliare la copertura semantica. Un LLM genera quindi query sintetiche per queste tabelle parziali, che vengono utilizzate in un fine-tuning contrastivo con negativi difficili (hard-negative) per affinare il modello di embedding. Esperimenti condotti su quattro benchmark pubblici (MimoTable, OTTQA, FetaQA ed E2E-WTQ) mostrano che CGPT supera costantemente i metodi di recupero baseline, incluso QGpT, con un miglioramento medio di R@1 del 16,54 percento. In uno scenario unificato di corpus multi-dominio, CGPT dimostra inoltre una forte generalizzazione cross-dominio e rimane efficace anche quando vengono utilizzati LLM più piccoli per la generazione di query sintetiche. Questi risultati indicano che la costruzione di tabelle parziali guidata semanticamente, combinata con l'addestramento contrastivo da supervisione generata da LLM, fornisce un paradigma efficace e scalabile per il recupero di tabelle su larga scala. Il nostro codice è disponibile all'indirizzo https://github.com/yumeow0122/CGPT.
Gli agenti LLM generalisti vengono spesso addestrati in modo post-hoc su un insieme ristretto di ambienti, ma vengono poi impiegati in domini molto più ampi e non visti durante l'addestramento. In questo lavoro, investigiamo la sfida dell'addestramento post-hoc di agenti quando i domini di test finale sono sconosciuti. Nello specifico, analizziamo quali proprietà degli ambienti di apprendimento per rinforzo (RL) e quali scelte di modellazione abbiano la maggiore influenza sulle prestazioni fuori dominio. In primo luogo, identifichiamo due assi ambientali che si correlano fortemente con la generalizzazione cross-dominio: (i) la ricchezza informativa dello stato, ovvero la quantità di informazioni che l'agente deve elaborare dallo stato, e (ii) la complessità di pianificazione, stimata tramite la raggiungibilità dell'obiettivo e la lunghezza della traiettoria sotto una politica di base. È importante notare che il realismo del dominio e la similarità a livello testuale non sono i fattori primari; ad esempio, il semplice dominio a griglia Sokoban porta a una generalizzazione ancora più forte in SciWorld rispetto al più realistico ALFWorld. Motivati da questi risultati, dimostriamo inoltre che aumentare la sola ricchezza informativa dello stato può già migliorare efficacemente la robustezza cross-dominio. Proponiamo una tecnica di randomizzazione, a basso overhead e ampiamente applicabile: aggiungere piccole quantità di caratteristiche distraenti e irrilevanti per l'obiettivo allo stato per renderlo più ricco senza alterare il compito. Oltre alle proprietà legate all'ambiente, esaminiamo anche diverse scelte di modellazione: (a) un riscaldamento con SFT o un addestramento intermedio aiuta a prevenire la dimenticanza catastrofica durante il RL, ma mina la generalizzazione ai domini non inclusi nel mix di dati dell'addestramento intermedio; e (b) l'attivazione del pensiero passo-passo durante il RL, sebbene non migliori sempre le prestazioni in dominio, gioca un ruolo cruciale nel preservare la generalizzazione.
Sfruttando la distillazione multi-docente, i backbone visivi agglomerativi forniscono un modello studente unificato che conserva e migliora le capacità distintive di molteplici insegnanti. In questo report tecnico, descriviamo l'ultima release della famiglia di modelli C-RADIO, C-RADIOv4, che si basa su AM-RADIO/RADIOv2.5 nel design, offrendo significativi miglioramenti su compiti downstream chiave a parità di complessità computazionale. Rilasciamo le varianti del modello -SO400M (412M parametri) e -H (631M), entrambe addestrate con un insieme aggiornato di insegnanti: SigLIP2, DINOv3 e SAM3. Oltre ai miglioramenti sulle metriche fondamentali e alle nuove capacità derivanti dall'imitazione di SAM3, la famiglia di modelli C-RADIOv4 migliora ulteriormente il supporto per qualsiasi risoluzione, ripristina l'opzione ViTDet per un'efficienza drasticamente migliorata ad alta risoluzione ed è accompagnata da una licenza permissiva.
I dati delle serie temporali sono onnipresenti negli scenari del mondo reale e cruciali per applicazioni critiche che spaziano dalla gestione energetica al controllo del traffico. Di conseguenza, la capacità di ragionare sulle serie temporali è un'abilità fondamentale per i modelli generalisti per risolvere problemi pratici. Tuttavia, questa dimensione è notevolmente assente dai benchmark esistenti per i modelli generalisti. Per colmare questa lacuna, introduciamo TSRBench, un benchmark multimodale completo progettato per testare a fondo l'intero spettro delle capacità di ragionamento sulle serie temporali. TSRBench presenta: i) un insieme diversificato di 4125 problemi provenienti da 14 domini, categorizzati in 4 dimensioni principali: Percezione, Ragionamento, Previsione e Presa di Decisione. ii) 15 task delle 4 dimensioni che valutano capacità di ragionamento essenziali (ad esempio, il ragionamento numerico). Attraverso esperimenti estesi, abbiamo valutato oltre 30 tra i principali LLM proprietari e open-source, VLM e TSLLM all'interno di TSRBench. I nostri risultati rivelano che: i) le leggi di scala valgono per la percezione e il ragionamento, ma si interrompono per la previsione; ii) un forte ragionamento non garantisce previsioni accurate basate sul contesto, indicando un disaccoppiamento tra comprensione semantica e previsione numerica; e iii) nonostante la natura complementare delle rappresentazioni testuali e visive delle serie temporali come input, gli attuali modelli multimodali non riescono a fondere efficacemente tali informazioni per ottenere guadagni prestazionali reciproci. TSRBench fornisce una piattaforma di valutazione standardizzata che non solo evidenzia le sfide esistenti, ma offre anche spunti preziosi per far progredire i modelli generalisti. Il nostro codice e dataset sono disponibili su https://tsrbench.github.io/.
I modelli di generazione video su larga scala hanno dimostrato una coerenza fisica emergente, posizionandosi come potenziali modelli del mondo. Tuttavia, persiste un divario tra le architetture video contemporanee "senza stato" e le teorie classiche sui modelli del mondo centrate sullo stato. Questo lavoro colma tale divario proponendo una nuova tassonomia incentrata su due pilastri: Costruzione dello Stato e Modellazione della Dinamica. Classifichiamo la costruzione dello stato in paradigmi impliciti (gestione del contesto) ed espliciti (compressione latente), mentre la modellazione della dinamica viene analizzata attraverso l'integrazione della conoscenza e la riformulazione architetturale. Inoltre, sosteniamo una transizione nella valutazione dalla fedeltà visiva a benchmark funzionali, testando la persistenza fisica e il ragionamento causale. Concludiamo identificando due frontiere critiche: potenziare la persistenza tramite memoria data-driven e fedeltà compressa, e far progredire la causalità attraverso il disaccoppiamento dei fattori latenti e l'integrazione di prior di ragionamento. Affrontando queste sfide, il campo può evolversi dalla generazione di video visivamente plausibili alla costruzione di simulatori del mondo robusti e a scopo generale.
La generazione video rappresenta una pietra angolare per la costruzione di modelli del mondo, dove l'inferenza contestuale multimodale costituisce il test definitivo delle capacità. A tal fine, presentiamo SkyReels-V3, un modello di generazione video condizionata, basato su un framework unificato di apprendimento contestuale multimodale con Trasformatori a diffusione. Il modello SkyReels-V3 supporta tre paradigmi generativi fondamentali all'interno di un'unica architettura: sintesi video da immagini di riferimento, estensione video-da-video e generazione video guidata da audio. (i) Il modello video da immagini di riferimento è progettato per produrre video ad alta fedeltà con una forte preservazione dell'identità del soggetto, coerenza temporale e consistenza narrativa. Per migliorare l'aderenza al riferimento e la stabilità compositiva, abbiamo progettato una pipeline completa di elaborazione dei dati che sfrutta l'abbinamento incrociato tra frame, l'editing di immagini e la riscrittura semantica, mitigando efficacemente gli artefatti da copia-incolla. Durante l'addestramento, viene impiegata una strategia ibrida immagine-video combinata con un'ottimizzazione congiunta a multi-risoluzione per migliorare la generalizzazione e la robustezza in scenari diversi. (ii) Il modello di estensione video integra la modellazione della coerenza spaziotemporale con la comprensione video su larga scala, consentendo sia una continuazione seamless in singola ripresa sia transizioni intelligenti multi-ripresa con pattern cinematografici professionali. (iii) Il modello di avatar parlante supporta la generazione video condizionata da audio a livello di minuto, addestrando pattern di inserimento del primo e ultimo fotogramma e ricostruendo paradigmi di inferenza a frame chiave. Sulla base di un'assicurata qualità visiva, la sincronizzazione di audio e video è stata ottimizzata. Valutazioni estensive dimostrano che SkyReels-V3 raggiunge prestazioni state-of-the-art o quasi state-of-the-art su metriche chiave, inclusa la qualità visiva, l'aderenza alle istruzioni e metriche di aspetti specifici, avvicinandosi ai principali sistemi closed-source. Github: https://github.com/SkyworkAI/SkyReels-V3.
Il recupero di tabelle è il compito di recuperare le tabelle più rilevanti da corpora su larga scala date query in linguaggio naturale. Tuttavia, le discrepanze strutturali e semantiche tra testo non strutturato e tabelle strutturate rendono l'allineamento degli embedding particolarmente impegnativo. Metodi recenti come QGpT tentano di arricchire la semantica delle tabelle generando query sintetiche, ma si basano comunque su campionamenti parziali grossolani e semplici strategie di fusione, che limitano la diversità semantica e ostacolano un efficace allineamento query-tabella. Proponiamo STAR (Semantic Table Representation), un framework leggero che migliora la rappresentazione semantica delle tabelle attraverso clustering semantico e fusione pesata. STAR applica prima un clustering K-means consapevole degli header per raggruppare righe semanticamente simili e seleziona istanze centroidi rappresentative per costruire una tabella parziale diversificata. Successivamente, genera query sintetiche specifiche per cluster per coprire in modo completo lo spazio semantico della tabella. Infine, STAR impiega strategie di fusione pesata per integrare gli embedding di tabelle e query, consentendo un allineamento semantico granulare. Questo design permette a STAR di catturare informazioni complementari da fonti strutturate e testuali, migliorando l'espressività delle rappresentazioni tabellari. Esperimenti su cinque benchmark mostrano che STAR raggiunge Recall costantemente più alti di QGpT su tutti i dataset, dimostrando l'efficacia del clustering semantico e della fusione pesata adattiva per una robusta rappresentazione tabellare. Il nostro codice è disponibile all'indirizzo https://github.com/adsl135789/STAR.
Nonostante la crescente adozione di grandi modelli linguistici (LLM) nei flussi di lavoro della ricerca scientifica, il supporto automatizzato per la replica accademica, una fase cruciale della comunicazione accademica e della revisione paritaria, rimane in gran parte inesplorato. Gli approcci esistenti si basano tipicamente su LLM standard o su pipeline semplici, che faticano nella comprensione di contesti lunghi e spesso non riescono a produrre risposte mirate e persuasive. In questo articolo, proponiamo DRPG, un framework agente per la generazione automatica di repliche accademiche che opera attraverso quattro fasi: scomporre le revisioni in critiche atomiche, recuperare evidenze rilevanti dall'articolo, pianificare le strategie di replica e generare le risposte di conseguenza. In particolare, il Pianificatore in DRPG raggiunge un'accuratezza superiore al 98% nell'identificare la direzione di replica più fattibile. Esperimenti su dati provenienti da conferenze di alto livello dimostrano che DRPG supera significativamente le pipeline di replica esistenti e raggiunge prestazioni superiori alla media umana utilizzando solo un modello da 8B. La nostra analisi dimostra ulteriormente l'efficacia del design del pianificatore e il suo valore nel fornire suggerimenti multi-prospettici e spiegabili. Abbiamo anche mostrato che DRPG funziona bene in un contesto multi-round più complesso. Questi risultati evidenziano l'efficacia di DRPG e il suo potenziale nel fornire contenuti di replica di alta qualità e nel supportare la scalabilità delle discussioni accademiche. I codici per questo lavoro sono disponibili all'indirizzo https://github.com/ulab-uiuc/DRPG-RebuttalAgent.
Molti modelli Visione-Linguaggio-Azione (VLA) appiattiscono le patch di immagine in una sequenza di token 1D, indebolendo gli indizi spaziali 2D necessari per una manipolazione precisa. Introduciamo IVRA, un metodo leggero, che non richiede training, che migliora la comprensione spaziale sfruttando gli indizi di affinità già disponibili nell'encoder visivo integrato del modello, senza necessitare di encoder esterni o riaddestramento. IVRA inietta selettivamente questi segnali di affinità in un layer del language model in cui risiedono le feature a livello di istanza. Questo intervento in fase di inferenza riallinea le interazioni tra token visivi e preserva meglio la struttura geometrica, mantenendo fissi tutti i parametri del modello. Dimostriamo la generalità di IVRA applicandolo a diverse architetture VLA (LLaRA, OpenVLA e FLOWER) su benchmark simulati che coprono sia la manipolazione 2D che 3D (VIMA e LIBERO) e su vari compiti con robot reali. Su VIMA 2D, IVRA migliora il successo medio del +4,2% rispetto al baseline LLaRA in un regime a bassi dati. Su LIBERO 3D, produce guadagni consistenti rispetto ai baseline OpenVLA e FLOWER, inclusi miglioramenti quando l'accuratezza del baseline è quasi satura (dal 96,3% al 97,1%). Tutti i codici e i modelli saranno rilasciati pubblicamente. Le visualizzazioni sono disponibili su: jongwoopark7978.github.io/IVRA
Gli agenti di ricerca approfondita, progettati per rispondere a domande complesse che richiedono ragionamenti su più documenti, possono accelerare significativamente il processo di ricerca di informazioni. Raccogliere annotazioni umane per questa applicazione risulta economicamente proibitivo a causa delle traiettorie di esplorazione lunghe e complesse. Proponiamo una pipeline agentica che genera automaticamente coppie domanda-risposta di alta qualità e a difficoltà controllata per un determinato corpus e un livello di difficoltà target. La nostra pipeline, SAGE, consiste in un generatore di dati che propone coppie QA e un agente di ricerca che tenta di risolvere la domanda generata fornendo feedback esecutivo al generatore. I due componenti interagiscono per più round per affinare iterativamente le coppie domanda-risposta finché non soddisfano il livello di difficoltà target. La nostra valutazione intrinseca mostra che SAGE genera domande che richiedono strategie di ragionamento diversificate, aumentando significativamente la correttezza e la difficoltà dei dati generati. La nostra valutazione estrinseca dimostra un miglioramento delle prestazioni relativo fino al 23% su benchmark popolari di ricerca approfondita addestrando gli agenti con i nostri dati sintetici. Esperimenti aggiuntivi mostrano che agenti addestrati sui nostri dati possono adattarsi dal recupero su corpus fisso alla Ricerca Google durante l'inferenza, senza ulteriore addestramento.
I sistemi agenti convenzionali spesso incontrano difficoltà in ambienti aperti, dove le distribuzioni dei compiti subiscono una deriva continua e la supervisione esterna è scarsa. La loro dipendenza da set di strumenti statici o da addestramento offline non riesce a tenere il passo con queste dinamiche, lasciando i confini delle capacità del sistema rigidi e sconosciuti. Per affrontare questo problema, proponiamo il paradigma di Auto-Evoluzione in Situ. Questo approccio tratta le interazioni sequenziali con i compiti come un flusso continuo di esperienza, consentendo al sistema di distillare il feedback esecutivo a breve termine in capacità riutilizzabili a lungo termine, senza accesso a etichette di verità fondamentale. All'interno di questo quadro, identifichiamo l'evoluzione degli strumenti come il percorso critico per l'espansione delle capacità, poiché fornisce segnali di feedback binari e verificabili. All'interno di questo quadro, sviluppiamo Yunjue Agent, un sistema che sintetizza, ottimizza e riutilizza iterativamente gli strumenti per affrontare le sfide emergenti. Per ottimizzare l'efficienza evolutiva, introduciamo ulteriormente una strategia di Evoluzione in Batch Parallelo. Valutazioni empiriche su cinque benchmark diversi in uno scenario di partenza zero dimostrano significativi miglioramenti delle prestazioni rispetto a baseline proprietarie. Inoltre, valutazioni complementari con partenza calda confermano che la conoscenza generale accumulata può essere trasferita senza soluzione di continuità a nuovi domini. Infine, proponiamo una nuova metrica per monitorare la convergenza evolutiva, che funge da analogo della loss di addestramento nell'ottimizzazione convenzionale. Rendiamo open-source il nostro codice base, le tracce di sistema e gli strumenti evoluti per facilitare la ricerca futura sull'intelligenza resiliente e auto-evolutiva.
Uno degli aspetti più convincenti dei modelli linguistici di diffusione discreta globale è la loro capacità contestuale bidirezionale globale. Tuttavia, gli studi esistenti sulla diffusione basata su blocchi tendono a introdurre prior autoregressivi che, sebbene offrano vantaggi, possono far perdere ai modelli questa coerenza globale a livello macro. Per riconquistare la comprensione contestuale globale preservando i vantaggi del paradigma semi-autoregressivo, proponiamo Diffusion in Diffusion, un framework "bozza-poi-affina" progettato per superare i problemi di irreversibilità e miopia intrinseci ai modelli di diffusione a blocchi. Il nostro approccio impiega prima la diffusione a blocchi per generare bozze rapide utilizzando piccoli blocchi, per poi affinare queste bozze attraverso una diffusione bidirezionale globale con un campo recettivo bidirezionale più ampio. Utilizziamo il remasking della confidenza degli snapshot per identificare i token più critici che richiedono modifiche e applichiamo l'addestramento a scala mista per espandere le capacità globali del modello di diffusione a blocchi. I risultati empirici dimostrano che il nostro approccio stabilisce un nuovo punto di riferimento per i modelli di diffusione discreta sul dataset OpenWebText. Utilizzando solo il 26% del budget di fine-tuning dei modelli di riferimento, riduciamo la perplessità generativa da 25,7 a 21,9, riducendo significativamente il divario prestazionale con i modelli autoregressivi.
La gestione efficiente della cache chiave-valore (KV) è cruciale per la distribuzione pratica dei grandi modelli linguistici (LLM), tuttavia le tecniche di compressione esistenti spesso comportano un compromesso tra degrado delle prestazioni e sovraccarico computazionale. Proponiamo un nuovo metodo di rimozione (eviction) della cache KV basato su gate per LLM con pesi congelati, che raggiunge alti rapporti di compressione con un costo computazionale trascurabile. Il nostro approccio introduce moduli di gating leggeri basati su sink-attention per identificare e conservare le coppie KV critiche, e si integra perfettamente sia nella fase di prefill che in quella di decoding. L'algoritmo di addestramento dei gate proposto si basa su passi in avanti (forward passes) di un LLM, evitando la costosa retropropagazione, pur raggiungendo una forte generalizzazione del compito attraverso un obiettivo di ricostruzione agnostico rispetto al task. Esperimenti estesi sulle famiglie Qwen2.5-1M, Qwen3 e Gemma3 mostrano che il nostro metodo mantiene prestazioni quasi-lossless rimuovendo fino al 70% della cache KV. I risultati sono coerenti su un'ampia gamma di compiti, inclusa la comprensione di contesti lunghi, la comprensione del codice e il ragionamento matematico, dimostrando la generalità del nostro approccio.
L'allineamento dei Large Language Model (LLM) mira ad allineare gli output con le preferenze umane, e l'allineamento personalizzato adatta ulteriormente i modelli ai singoli utenti. Ciò si basa su modelli di ricompensa personalizzati che catturano le preferenze specifiche dell'utente e forniscono automaticamente un feedback individualizzato. Tuttavia, lo sviluppo di questi modelli affronta due sfide critiche: la scarsità di feedback da parte dei singoli utenti e la necessità di un adattamento efficiente a utenti non visti. Sosteniamo che affrontare questi vincoli richieda un cambio di paradigma, passando dall'adattamento ai dati per apprendere le preferenze degli utenti all'apprendimento del processo di adattamento delle preferenze. Per realizzare ciò, proponiamo il Meta Reward Modeling (MRM), che riformula la modellazione della ricompensa personalizzata come un problema di meta-apprendimento. Nello specifico, rappresentiamo il modello di ricompensa di ciascun utente come una combinazione ponderata di funzioni di ricompensa di base, e ottimizziamo l'inizializzazione di questi pesi utilizzando un framework in stile Model-Agnostic Meta-Learning (MAML) per supportare un rapido adattamento con feedback limitati. Per garantire robustezza, introduciamo l'Obiettivo di Personalizzazione Robusta (RPO), che pone maggiore enfasi sugli utenti difficili da apprendere durante la meta-ottimizzazione. Esperimenti estesi su dataset di preferenze personalizzate convalidano che MRM migliora la personalizzazione con pochi esempi, aumenta la robustezza dell'utente e supera costantemente i metodi di base.
Il code-switching è una pratica diffusa tra la maggioranza multilingue mondiale, eppure pochi benchmark ne riflettono accuratamente la complessità nella comunicazione quotidiana. Presentiamo PingPong, un benchmark per dialoghi naturali di code-switching tra più interlocutori, che copre cinque variazioni di combinazioni linguistiche, alcune delle quali trilingui. Il nostro dataset è composto da conversazioni create da esseri umani tra 2 e 4 partecipanti, che presentano strutture autentiche e multi-thread in cui le risposte fanno spesso riferimento a punti molto precedenti del dialogo. Dimostriamo che i nostri dati sono significativamente più naturali e strutturalmente diversificati rispetto alle alternative generate automaticamente, offrendo una maggiore variazione nella lunghezza dei messaggi, nella dominanza del parlante e nella distanza di risposta. Sulla base di questi dialoghi, definiamo tre task downstream: Question Answering, Riassunto del Dialogo e Classificazione per Argomenti. Le valutazioni di diversi modelli linguistici all'avanguardia su PingPong rivelano che le prestazioni rimangono limitate sugli input con code-switching, sottolineando l'urgente necessità di sistemi di NLP più robusti in grado di affrontare le complessità del discorso multilingue nel mondo reale.
I modelli Mixture-of-Experts (MoE) sono tipicamente pre-addestrati con vincoli espliciti di bilanciamento del carico per garantire un routing degli esperti statisticamente bilanciato. Nonostante ciò, osserviamo che anche modelli MoE ben addestrati presentano un routing significativamente squilibrato. Questo comportamento è probabilmente naturale - e persino desiderabile - poiché un routing squilibrato consente ai modelli di concentrare la conoscenza dominio-specifica all'interno di un sottoinsieme di esperti. L'Expert Parallelism (EP) è progettato per scalare i modelli MoE distribuendo gli esperti su più dispositivi, ma si basa su un'associazione meno discussa di routing bilanciato. In condizioni di squilibrio estremo, l'EP può convogliare un numero sproporzionato di token verso un piccolo numero di esperti, portando a guasti legati al calcolo e alla memoria su dispositivi sovraccarichi durante il post-training o l'inferenza, dove il bilanciamento esplicito del carico è spesso inapplicabile. Proponiamo il Least-Loaded Expert Parallelism (LLEP), un nuovo algoritmo EP che reindirizza dinamicamente i token in eccesso e i relativi parametri degli esperti dai dispositivi sovraccarichi a quelli sottoutilizzati. Ciò garantisce che tutti i dispositivi completino il proprio carico di lavoro entro la latenza collettiva minima, rispettando i vincoli di memoria. Su diverse scale di modelli, LLEP raggiunge un speedup fino a 5x e una riduzione di 4x nell'utilizzo di memoria di picco rispetto all'EP standard. Ciò consente un post-training e un'inferenza più veloci e con maggiore produttività, con un miglioramento di ~1.9x per gpt-oss-120b. Supportiamo il nostro metodo con un'ampia analisi teorica e valutazioni empiriche complete, inclusi studi di ablazione. Questi risultati illuminano i compromessi chiave e abilitano un framework principiato per la regolazione degli iper-parametri specifici per l'hardware al fine di raggiungere prestazioni ottimali.
La trascrizione accurata e la diarizzazione degli interlocutori nelle interazioni verbali bambino-adulto sono cruciali per la ricerca clinica e dello sviluppo. Tuttavia, l'annotazione manuale è dispendiosa in termini di tempo e difficile da scalare. I sistemi automatizzati esistenti si basano tipicamente su pipeline in cascata per la diarizzazione e il riconoscimento del parlato, che possono portare a propagazione degli errori. Questo articolo presenta un framework end-to-end unificato che estende l'architettura encoder-decoder di Whisper per modellare congiuntamente l'ASR e la diarizzazione dei ruoli parlante bambino/adulto. L'approccio proposto integra: (i) uno schema di addestramento con output serializzato che emette etichette del parlante e timestamp di inizio/fine, (ii) un modulo di diarizzazione leggero a livello di frame che migliora le rappresentazioni encoder discriminative per il parlante, (iii) una soppressione del silenzio guidata dalla diarizzazione per una maggiore precisione temporale, e (iv) una procedura di decoding forzato basata su macchina a stati che garantisce output strutturalmente validi. Valutazioni complete su due dataset dimostrano miglioramenti consistenti e sostanziali rispetto a due baseline a cascata, raggiungendo tassi di errore sulle parole in conversazioni multi-parlante più bassi e un'accuratezza di diarizzazione competitiva sia per i modelli Whisper-small che Whisper-large. Questi risultati evidenziano l'efficacia e l'utilità pratica del framework di modellazione congiunta proposto per generare trascrizioni affidabili, con attribuzione del parlante, delle interazioni bambino-adulto su larga scala. Il codice e i pesi del modello sono pubblicamente disponibili.
Man mano che i Modelli Linguistici Multimodali di grandi dimensioni (MLLM) acquisiscono capacità di ragionamento più avanzate per gestire istruzioni complesse che coinvolgono più immagini, questo progresso potrebbe comportare nuovi rischi per la sicurezza. Analizziamo questo problema introducendo MIR-SafetyBench, il primo benchmark incentrato sulla sicurezza del ragionamento multimodale su immagini multiple, composto da 2.676 istanze organizzate secondo una tassonomia di 9 relazioni tra immagini. Le nostre valutazioni estensive su 19 MLLM rivelano una tendenza preoccupante: i modelli con capacità di ragionamento multi-immagine più avanzate possono risultare più vulnerabili su MIR-SafetyBench. Oltre ai tassi di successo degli attacchi, riscontriamo che molte risposte classificate come sicure sono superficiali, spesso guidate da incomprensioni o da repliche evasive e non impegnative. Inoltre, osserviamo che le generazioni non sicure presentano in media un'entropia dell'attenzione inferiore rispetto a quelle sicure. Questa firma interna suggerisce un possibile rischio che i modelli possano concentrarsi eccessivamente sulla risoluzione del compito trascurando i vincoli di sicurezza. Il nostro codice e i dati sono disponibili su https://github.com/thu-coai/MIR-SafetyBench.
Gli agenti di ricerca basati su LLM (Large Language Models) sono sempre più utilizzati per attività di ricerca di informazioni multi-step, eppure la comunità IR (Information Retrieval) manca di una comprensione empirica di come si sviluppano le sessioni di ricerca agentive e di come le evidenze recuperate vengano utilizzate. Questo articolo presenta un'analisi su larga scala dei log della ricerca agentiva, basata su 14.44 milioni di richieste di ricerca (3.97 milioni di sessioni) raccolte da DeepResearchGym, ovvero un'API di ricerca open-source a cui accedono client agentivi esterni. Organizziamo i log in sessioni, assegniamo intenti a livello di sessione ed etichette di riformulazione delle query passo-passo utilizzando annotazioni basate su LLM, e proponiamo il Tasso di Adozione dei Termini guidato dal Contesto (Context-driven Term Adoption Rate, CTAR) per quantificare se i termini di query introdotti di recente siano riconducibili a evidenze recuperate in precedenza. Le nostre analisi rivelano modelli comportamentali distintivi. In primo luogo, oltre il 90% delle sessioni multi-turn contiene al massimo dieci passi, e l'89% degli intervalli tra i passi è inferiore a un minuto. In secondo luogo, il comportamento varia in base all'intento. Le sessioni di ricerca di fatti mostrano un'elevata ripetizione che aumenta nel tempo, mentre le sessioni che richiedono ragionamento mantengono un'esplorazione più ampia. In terzo luogo, gli agenti riutilizzano le evidenze attraverso i passi. In media, il 54% dei termini di query introdotti di recente appare nel contesto delle evidenze accumulate, con contributi provenienti da passi precedenti oltre al recupero più recente. I risultati suggeriscono che la ricerca agentiva potrebbe trarre vantaggio da un arresto anticipato consapevole della ripetizione, budget di recupero adattivi all'intento e un tracking esplicito del contesto tra i passi. Prevediamo di rilasciare i log anonimizzati per supportare la ricerca futura.
Le matrici di attenzione sono fondamentali per la ricerca sui transformer, supportando un'ampia gamma di applicazioni tra cui interpretabilità, visualizzazione, manipolazione e distillazione. Tuttavia, la maggior parte delle analisi esistenti si concentra su singole teste o livelli di attenzione, non riuscendo a cogliere il comportamento globale del modello. Sebbene precedenti sforzi abbiano esteso le formulazioni dell'attenzione su più teste mediante medie e moltiplicazioni di matrici o abbiano incorporato componenti come normalizzazione e FFN, manca ancora una rappresentazione unificata e completa che inglobi tutti i blocchi del transformer. Colmiamo questa lacuna introducendo TensorLens, una formulazione innovativa che cattura l'intero transformer come un unico operatore lineare dipendente dall'input, espresso attraverso un tensore di interazione-attenzione di ordine superiore. Questo tensore codifica congiuntamente attenzione, FFN, attivazioni, normalizzazioni e connessioni residue, offrendo una rappresentazione lineare teoricamente coerente ed espressiva del calcolo del modello. TensorLens ha solide basi teoriche e la nostra validazione empirica mostra che produce rappresentazioni più ricche rispetto ai precedenti metodi di aggregazione dell'attenzione. I nostri esperimenti dimostrano che il tensore di attenzione può servire come base solida per sviluppare strumenti finalizzati all'interpretabilità e alla comprensione del modello. Il nostro codice è allegato come materiale supplementare.
La progettazione di interfacce utente (UI) è una fase cruciale nel lancio di prodotti, nella creazione di portfolio o nella personalizzazione di progetti, tuttavia gli utenti finali privi di competenze progettuali spesso faticano ad articolare le proprie intenzioni e a fidarsi delle scelte di design. Gli strumenti esistenti basati sugli esempi promuovono o un'ampia esplorazione, che può causare sovraccarico e deriva progettuale, o richiedono l'adattamento di un singolo esempio, rischiando la fissazione del design. Presentiamo UI Remix, un sistema interattivo che supporta la progettazione di UI mobili attraverso un flusso di lavoro progettuale guidato da esempi. Basato su un modello di generazione aumentata da recupero multimodale (MMRAG), UI Remix consente la ricerca iterativa, la selezione e l'adattamento di esempi sia a livello globale (intera interfaccia) che locale (componente). Per favorire la fiducia, presenta indicatori di trasparenza della fonte come valutazioni, conteggi di download e informazioni sullo sviluppatore. In uno studio empirico con 24 utenti finali, UI Remix ha migliorato significativamente la capacità dei partecipanti di raggiungere i propri obiettivi progettuali, ha facilitato un'iterazione efficace e ha incoraggiato l'esplorazione di design alternativi. I partecipanti hanno anche riferito che gli indicatori di trasparenza della fonte hanno aumentato la loro fiducia nell'adattare gli esempi. I nostri risultati suggeriscono nuove direzioni per sistemi guidati da esempi e assistiti dall'IA che consentono agli utenti finali di progettare con maggiore controllo, fiducia e apertura all'esplorazione.
I modelli linguistici di grandi dimensioni sono sempre più ottimizzati per il ragionamento approfondito, privilegiando la corretta esecuzione di compiti complessi rispetto alla conversazione generica. Indaghiamo se questa focalizzazione sul calcolo crei una "visione a tunnel" che ignora la sicurezza in situazioni critiche. Introduciamo MortalMATH, un benchmark di 150 scenari in cui gli utenti richiedono aiuto con l'algebra mentre descrivono emergenze sempre più pericolose per la vita (ad esempio, sintomi di ictus, caduta libera). Rileviamo una netta divisione comportamentale: i modelli generalisti (come Llama-3.1) rifiutano con successo il problema matematico per affrontare il pericolo. Al contrario, i modelli specializzati nel ragionamento (come Qwen-3-32b e GPT-5-nano) spesso ignorano completamente l'emergenza, mantenendo tassi di completamento del compito superiori al 95% mentre l'utente descrive di stare morendo. Inoltre, il tempo computazionale richiesto per il ragionamento introduce ritardi pericolosi: fino a 15 secondi prima che venga offerto un eventuale aiuto. Questi risultati suggeriscono che l'addestramento di modelli a perseguire incessantemente risposte corrette possa portare involontariamente a disimparare gli istinti di sopravvivenza necessari per un impiego sicuro.
L'apprendimento per rinforzo (RL) ha mostrato risultati promettenti nel controllo attivo del flusso (AFC), ma i progressi in questo campo rimangono difficili da valutare poiché gli studi esistenti si basano su schemi di osservazione e attuazione eterogenei, configurazioni numeriche e protocolli di valutazione diversi. I benchmark AFC attuali tentano di affrontare questi problemi, ma dipendono fortemente da risolutori computazionali di fluidodinamica (CFD) esterni, non sono completamente differenziabili e offrono un supporto limitato per scenari 3D e multi-agente. Per superare queste limitazioni, presentiamo FluidGym, la prima suite di benchmark autonoma e completamente differenziabile per il RL nell'AFC. Sviluppata interamente in PyTorch sul risolutore PICT accelerato da GPU, FluidGym opera in un unico stack Python, non richiede software CFD esterno e fornisce protocolli di valutazione standardizzati. Presentiamo risultati baseline con PPO e SAC e rendiamo disponibili tutti gli ambienti, i dataset e i modelli addestrati come risorse pubbliche. FluidGym consente un confronto sistematico dei metodi di controllo, stabilisce una base scalabile per la futura ricerca nel controllo del flusso basato sull'apprendimento ed è disponibile all'indirizzo https://github.com/safe-autonomous-systems/fluidgym.
La compressione visiva dei token è ampiamente adottata per migliorare l'efficienza inferenziale dei Large Vision-Language Models (LVLM), consentendone l'implementazione in scenari con vincoli di latenza e risorse. Tuttavia, i lavori esistenti si sono concentrati principalmente su efficienza e prestazioni, mentre le implicazioni per la sicurezza della compressione visiva dei token rimangono in gran parte inesplorate. In questo lavoro, riveliamo per la prima volta che la compressione visiva dei token degrada sostanzialmente la robustezza degli LVLM: modelli che sono robusti in condizioni di inferenza non compressa diventano altamente vulnerabili una volta abilitata la compressione. Queste vulnerabilità sono state-specifiche; le modalità di fallimento emergono solo nell'ambiente compresso e scompaiono completamente quando la compressione è disabilitata, rendendole particolarmente nascoste e difficili da diagnosticare. Analizzando le fasi chiave del processo di compressione, identifichiamo l'instabilità nella classificazione d'importanza dei token come causa primaria di questa degradazione della robustezza. Piccole perturbazioni impercettibili possono alterare significativamente le classificazioni dei token, portando il meccanismo di compressione a scartare erroneamente informazioni cruciali per il compito e causando infine il fallimento del modello. Motivati da questa osservazione, proponiamo un Attacco Consapevole della Compressione (CAA) per studiare e sfruttare sistematicamente questa vulnerabilità. Il CAA mira direttamente al meccanismo di selezione dei token e induce fallimenti esclusivamente in condizioni di inferenza compressa. Estendiamo ulteriormente questo approccio a scenari black-box più realistici e introduciamo il Transfer CAA, dove né il modello target né la configurazione di compressione sono accessibili. Valutiamo inoltre potenziali difese e riscontriamo che offrono solo una protezione limitata. Esperimenti estesi su modelli, dataset e metodi di compressione dimostrano che la compressione visiva dei token mina significativamente la robustezza, rivelando un compromesso efficienza-sicurezza precedentemente trascurato.
L'affidabilità dei Large Language Model (LLM) in domini ad alto rischio come la sanità, il diritto e la scoperta scientifica è spesso compromessa dalle allucinazioni. Questi fallimenti tipicamente originano da due fonti: allucinazioni guidate dai dati e allucinazioni guidate dal ragionamento. Tuttavia, i metodi di rilevamento esistenti affrontano generalmente solo una fonte e si basano su euristiche specifiche per il compito, limitandone la generalizzazione a scenari complessi. Per superare queste limitazioni, introduciamo l'Hallucination Risk Bound, un quadro teorico unificato che scompone formalmente il rischio di allucinazione in componenti guidate dai dati e guidate dal ragionamento, collegate rispettivamente a disallineamenti durante la fase di addestramento e a instabilità durante l'inferenza. Questo fornisce una base principiata per analizzare come le allucinazioni emergono ed evolvono. Basandoci su questa fondazione, introduciamo HalluGuard, un punteggio basato sull'NTK che sfrutta la geometria indotta e le rappresentazioni catturate dall'NTK per identificare congiuntamente le allucinazioni guidate dai dati e quelle guidate dal ragionamento. Valutiamo HalluGuard su 10 benchmark diversificati, 11 baseline competitive e 9 popolari architetture di LLM, raggiungendo costantemente prestazioni all'avanguardia nel rilevamento di diverse forme di allucinazioni nei LLM.
RouteMoA migliora le prestazioni degli LLM attraverso una collaborazione a livelli, ma la sua topologia densa aumenta costi e latenza. I metodi esistenti impiegano giudici LLM per filtrare le risposte, ma richiedono comunque che tutti i modelli eseguano l'inferenza prima del giudizio, non riuscendo a ridurre efficacemente i costi. Manca inoltre un criterio di selezione dei modelli e si riscontrano difficoltà con pool di modelli ampi, dove l'inferenza completa è costosa e può superare i limiti del contesto. Per ovviare a ciò, proponiamo RouteMoA, un framework efficiente mixture-of-agents con instradamento dinamico. Utilizza un valutatore leggero per una selezione iniziale, prevedendo le prestazioni a grana grossa dalla query, restringendo i candidati a un sottoinsieme ad alto potenziale senza inferenza. Una miscela di giudici affina poi questi punteggi attraverso autovalutazioni e valutazioni incrociate leggere basate sugli output dei modelli esistenti, fornendo una correzione posteriorsenza ulteriore inferenza. Infine, un meccanismo di ranking seleziona i modelli bilanciando prestazioni, costo e latenza. RouteMoA supera il MoA in vari task e dimensioni del pool di modelli, riducendo i costi dell'89.8% e la latenza del 63.6% nel pool di modelli su larga scala.
Il morphing 3D texturizzato mira a generare transizioni fluide e plausibili tra due asset 3D, preservando sia la coerenza strutturale che l'aspetto granulare. Questa capacità è cruciale non solo per far progredire la ricerca sulla generazione 3D, ma anche per applicazioni pratiche nell'animazione, editing e creazione di contenuti digitali. Gli approcci esistenti operano direttamente sulla geometria, limitandosi al morphing della sola forma e trascurando le texture, oppure estendono strategie di interpolazione 2D al 3D, causando spesso ambiguità semantica, disallineamento strutturale e sfocatura delle texture. Queste sfide sottolineano la necessità di preservare congiuntamente la coerenza geometrica, l'allineamento delle texture e la robustezza durante l'intero processo di transizione. Per affrontare ciò, proponiamo Interp3D, un nuovo framework per il morphing 3D texturizzato che non richiede addestramento. Esso sfrutta priorità generative e adotta un principio di allineamento progressivo per garantire sia la fedeltà geometrica che la coerenza delle texture. Partendo da un'interpolazione semanticamente allineata nello spazio delle condizioni, Interp3D applica la coerenza strutturale tramite l'interpolazione strutturale guidata da SLAT (Structured Latent), e infine trasferisce i dettagli dell'aspetto attraverso una fusione granulare delle texture. Per valutazioni complete, abbiamo costruito un dataset dedicato, Interp3DData, con livelli di difficoltà graduati e valutato i risultati generativi in termini di fedeltà, fluidità della transizione e plausibilità. Sia le metriche quantitative che gli studi umani dimostrano i significativi vantaggi del nostro approccio rispetto ai metodi precedenti. Il codice sorgente è disponibile all'indirizzo https://github.com/xiaolul2/Interp3D.