Articoli di ricerca IA selezionati quotidianamente con traduzioni
Lo sviluppo di agenti nativi per l'uso del computer (CUA) rappresenta un significativo balzo in avanti nel campo dell'IA multimodale. Tuttavia, il loro potenziale è attualmente limitato dai vincoli del ridimensionamento su dati statici. I paradigmi esistenti, che si basano principalmente sull'imitazione passiva di dataset statici, faticano a catturare le intricate dinamiche causali intrinseche nei task informatici di lungo periodo. In questo lavoro, introduciamo EvoCUA, un modello agente nativo per l'uso del computer. A differenza dell'imitazione statica, EvoCUA integra la generazione dei dati e l'ottimizzazione delle policy in un ciclo evolutivo autosostenibile. Per mitigare la scarsità di dati, sviluppiamo un motore di sintesi verificabile che genera autonomamente task diversificati accoppiati a validatori eseguibili. Per consentire l'acquisizione di esperienza su larga scala, progettiamo un'infrastruttura scalabile che orchestra decine di migliaia di esecuzioni asincrone in ambienti sandbox. Basandoci su queste traiettorie massive, proponiamo una strategia di apprendimento evolutivo iterativo per internalizzare efficientemente questa esperienza. Questo meccanismo regola dinamicamente gli aggiornamenti delle policy identificando i limiti delle capacità – rafforzando le routine di successo mentre trasforma le traiettorie di fallimento in una ricca supervisione attraverso l'analisi degli errori e l'autocorrezione. Le valutazioni empiriche sul benchmark OSWorld dimostrano che EvoCUA raggiunge un tasso di successo del 56,7%, stabilendo un nuovo state-of-the-art open-source. Degno di nota, EvoCUA supera significativamente il precedente miglior modello open-source, OpenCUA-72B (45,0%), e supera modelli closed-weights leader come UI-TARS-2 (53,1%). Crucialmente, i nostri risultati sottolineano la generalizzabilità di questo approccio: il paradigma evolutivo guidato dall'apprendimento dall'esperienza produce guadagni prestazionali consistenti attraverso modelli di fondazione di varie dimensioni, stabilendo un percorso robusto e scalabile per far avanzare le capacità degli agenti nativi.
Introduciamo LLM-in-Sandbox, che consente ai LLM di esplorare all'interno di una sandbox di codice (ovvero un computer virtuale), per elicitare intelligenza generale in domini non di codice. Dimostriamo innanzitutto che LLM potenti, senza addestramento aggiuntivo, mostrano capacità di generalizzazione per sfruttare la sandbox di codice per compiti non di codice. Ad esempio, i LLM accedono spontaneamente a risorse esterne per acquisire nuove conoscenze, sfruttano il file system per gestire contesti lunghi ed eseguono script per soddisfare i requisiti di formattazione. Mostriamo inoltre che queste capacità agentiche possono essere potenziate tramite LLM-in-Sandbox Reinforcement Learning (LLM-in-Sandbox-RL), che utilizza solo dati non agentici per addestrare modelli all'esplorazione della sandbox. Gli esperimenti dimostrano che LLM-in-Sandbox, sia in contesti senza addestramento che post-addestramento, raggiunge una robusta generalizzazione che spazia dalla matematica alla fisica, alla chimica, alla biomedicina, alla comprensione di contesti lunghi e al seguire istruzioni. Infine, analizziamo l'efficienza di LLM-in-Sandbox da prospettive computazionali e di sistema, e lo rendiamo open-source come pacchetto Python per facilitare il deployment nel mondo reale.
I recenti progressi nei Modelli Linguistici Multimodali di Grande Dimensione (MLLM) hanno dimostrato un miglioramento significativo nella comprensione video offline. Tuttavia, estendere queste capacità a flussi video in tempo reale rimane una sfida, poiché i modelli esistenti faticano a mantenere simultaneamente prestazioni di comprensione stabili, risposte in tempo reale e un basso utilizzo di memoria GPU. Per affrontare questa sfida, proponiamo HERMES, una nuova architettura senza fase di addestramento per la comprensione accurata e in tempo reale di flussi video. Basandoci su un'analisi meccanicistica dell'attenzione, concettualizziamo la cache KV come un framework di memoria gerarchico che incapsula le informazioni video attraverso molteplici granularità. Durante l'inferenza, HERMES riutilizza una cache KV compatta, consentendo una comprensione efficiente del flusso in condizioni di risorse limitate. È importante notare che HERMES non richiede calcoli ausiliari all'arrivo delle query dell'utente, garantendo così risposte in tempo reale per interazioni con flussi video continui, raggiungendo un TTFT fino a 10 volte più veloce rispetto ai precedenti SOTA. Anche riducendo i token video fino al 68% rispetto al campionamento uniforme, HERMES raggiunge un'accuratezza superiore o comparabile su tutti i benchmark, con guadagni fino all'11,4% su dataset di streaming.
I modelli linguistici basati su diffusione (dLLM) infrangono il rigido vincolo sinistra-destra dei tradizionali LLM, consentendo la generazione di token in ordini arbitrari. Intuitivamente, questa flessibilità implica uno spazio delle soluzioni che sovrainsieme strettamente la traiettoria autoregressiva fissa, sbloccando teoricamente un potenziale di ragionamento superiore per compiti generali come la matematica e la codifica. Di conseguenza, numerosi lavori hanno utilizzato l'apprendimento per rinforzo (RL) per elicitare la capacità di ragionamento dei dLLM. In questo articolo, riveliamo una realtà controintuitiva: la generazione di ordine arbitrario, nella sua forma attuale, restringe piuttosto che espandere il confine del ragionamento dei dLLM. Troviamo che i dLLM tendono a sfruttare questa flessibilità d'ordine per aggirare token ad alta incertezza che sono cruciali per l'esplorazione, portando a un collasso prematuro dello spazio delle soluzioni. Questa osservazione sfida la premessa degli approcci RL esistenti per i dLLM, dove complessità considerevoli, come la gestione di traiettorie combinatorie e verosimiglianze intrattabili, sono spesso dedicate a preservare questa flessibilità. Dimostriamo che un ragionamento efficace è meglio elicitato rinunciando intenzionalmente all'ordine arbitrario e applicando invece la standard Group Relative Policy Optimization (GRPO). Il nostro approccio, JustGRPO, è minimalista ma sorprendentemente efficace (ad esempio, 89.1% di accuratezza su GSM8K) pur conservando pienamente la capacità di decodifica parallela dei dLLM. Pagina del progetto: https://nzl-thu.github.io/the-flexibility-trap
In questo rapporto presentiamo la serie Qwen3-TTS, una famiglia di modelli avanzati di sintesi vocale multilingue, controllabili, robusti e in streaming. Qwen3-TTS supporta la clonazione vocale all'avanguardia in 3 secondi e il controllo basato su descrizioni, consentendo sia la creazione di voci completamente nuove sia una manipolazione fine del parlato generato. Addestrato su oltre 5 milioni di ore di dati vocali in 10 lingue, Qwen3-TTS adotta un'architettura LM a doppio binario per la sintesi in tempo reale, abbinata a due tokenizzatori vocali: 1) Qwen-TTS-Tokenizer-25Hz è un codec a libro di codice singolo che enfatizza il contenuto semantico, offrendo un'integrazione senza soluzione di continuità con Qwen-Audio e abilitando la ricostruzione della forma d'onda in streaming tramite un DiT a blocchi. 2) Qwen-TTS-Tokenizer-12Hz raggiunge una riduzione estrema del bitrate e uno streaming a latenza ultra-bassa, permettendo l'emissione immediata del primo pacchetto (97 ms) grazie al suo design a libro di codice multiplo a 12,5 Hz con 16 strati e a un ConvNet causale leggero. Esperimenti estensivi indicano prestazioni all'avanguardia su vari benchmark oggettivi e soggettivi (ad es., set di test multilingue per TTS, InstructTTSEval e il nostro set di test per parlato lungo). Per facilitare la ricerca e lo sviluppo nella comunità, rilasciamo sia i tokenizzatori che i modelli con licenza Apache 2.0.
I modelli Vision-Language-Action (VLA) hanno dimostrato potenzialità nella manipolazione robotica, ma spesso faticano a generalizzare verso nuove istruzioni o scenari complessi multi-task. Identifichiamo una patologia critica negli attuali paradigmi di addestramento, in cui la raccolta di dati guidata dall'obiettivo crea un bias nel dataset. In tali dataset, le istruzioni linguistiche sono altamente prevedibili dalle sole osservazioni visive, causando l'annullamento dell'informazione mutua condizionale tra istruzioni e azioni, un fenomeno che definiamo Collasso dell'Informazione. Di conseguenza, i modelli degenerano in policy puramente visive che ignorano i vincoli linguistici e falliscono in contesti di distribuzione non corrispondente (out-of-distribution, OOD). Per affrontare questo problema, proponiamo BayesianVLA, un framework innovativo che impone l'aderenza alle istruzioni tramite una scomposizione bayesiana. Introducendo Latent Action Queries apprendibili, costruiamo un'architettura a doppio ramo per stimare sia un prior puramente visivo p(a|v) che un posterior condizionato al linguaggio π(a|v,ℓ). Ottimizziamo quindi la policy per massimizzare l'Informazione Mutua Puntuale Condizionale (Pointwise Mutual Information, PMI) tra azioni e istruzioni. Questo obiettivo penalizza efficacemente la scorciatoia visiva e premia le azioni che spiegano esplicitamente il comando linguistico. Senza richiedere nuovi dati, BayesianVLA migliora significativamente la generalizzazione. Esperimenti estensivi su SimplerEnv e RoboCasa dimostrano miglioramenti sostanziali, incluso un +11.3% sul complesso benchmark OOD di SimplerEnv, convalidando la capacità del nostro approccio di ancorare robustamente il linguaggio nell'azione.
I modelli linguistici basati su diffusione (DLLM) offrono una generazione non sequenziale, a blocchi, e un riutilizzo dei dati più ricco rispetto ai modelli autoregressivi (AR), ma gli attuali DLLM per codice rimangono ancora indietro rispetto a solidi baseline AR con budget comparabili. Rivalutiamo questo scenario in uno studio controllato e introduciamo Stable-DiffCoder, un modello di codice a diffusione di blocchi che riutilizza l'architettura, i dati e la pipeline di addestramento di Seed-Coder. Per abilitare un apprendimento efficiente della conoscenza e un addestramento stabile, incorporiamo una fase di pre-addestramento continuo (CPT) a diffusione di blocchi, potenziata da un riscaldamento personalizzato e da una pianificazione del rumore ritagliata per blocchi. A parità di dati e architettura, Stable-DiffCoder supera complessivamente la sua controparte AR su un'ampia suite di benchmark di codice. Inoltre, basandosi solo sulle fasi di CPT e fine-tuning supervisionato, Stable-DiffCoder raggiunge prestazioni più forti di un'ampia gamma di modelli AR e DLLM da ~8B, dimostrando che l'addestramento basato su diffusione può migliorare la qualità della modellazione del codice oltre il solo addestramento AR. Inoltre, la modellazione a ordine arbitrario basata su diffusione migliora la modellazione strutturata del codice per l'editing e il ragionamento e, attraverso l'aumento dei dati, avvantaggia i linguaggi di programmazione a risorse limitate.
Gli Autoencoder di Rappresentazione (RAE) hanno dimostrato vantaggi distinti nella modellazione di diffusione su ImageNet addestrandosi in spazi latenti semantici ad alta dimensionalità. In questo lavoro, investigiamo se questo framework può scalare alla generazione testo-immagine (T2I) su larga scala e libera da vincoli. Inizialmente scaliamo i decoder RAE sul codificatore di rappresentazione congelato (SigLIP-2) oltre ImageNet addestrandoli su dati web, sintetici e di rendering testuale, riscontrando che sebbene la scala migliori la fedeltà generale, una composizione dei dati mirata è essenziale per domini specifici come il testo. Successivamente, sottoponiamo a rigorosi test di stress le scelte progettuali dei RAE originariamente proposte per ImageNet. La nostra analisi rivela che il ridimensionamento semplifica il framework: sebbene la pianificazione del rumore dipendente dalla dimensione rimanga critica, complessità architetturali come teste di diffusione ampie e decodifica aumentata con rumore offrono benefici trascurabili su larga scala. Basandoci su questo framework semplificato, conduciamo un confronto controllato tra RAE e il VAE FLUX allo stato dell'arte attraverso scale di transformer di diffusione da 0,5 a 9,8 miliardi di parametri. I RAE superano costantemente i VAE durante il pre-addestramento su tutte le scale del modello. Inoltre, durante il fine-tuning su dataset di alta qualità, i modelli basati su VAE vanno incontro a un overfitting catastrofico dopo 64 epoche, mentre i modelli RAE rimangono stabili fino a 256 epoche e raggiungono prestazioni costantemente migliori. In tutti gli esperimenti, i modelli di diffusione basati su RAE dimostrano una convergenza più rapida e una migliore qualità di generazione, stabilendo i RAE come una base più semplice e solida rispetto ai VAE per la generazione T2I su larga scala. Inoltre, poiché sia la comprensione che la generazione visiva possono operare in uno spazio di rappresentazione condiviso, il modello multimodale può ragionare direttamente sui latenti generati, aprendo nuove possibilità per modelli unificati.
Come possiamo utilizzare l'IA per scoprire un nuovo stato dell'arte per un problema scientifico? I lavori precedenti sul ridimensionamento al momento del test, come AlphaEvolve, eseguono la ricerca interrogando un LLM congelato. Noi eseguiamo l'apprendimento per rinforzo al momento del test, in modo che l'LLM possa continuare ad addestrarsi, ma ora con esperienza specifica per il problema di test. Questa forma di apprendimento continuo è piuttosto speciale, perché il suo obiettivo è produrre una grande soluzione piuttosto che molte buone soluzioni in media, e risolvere proprio questo problema specifico piuttosto che generalizzare ad altri problemi. Pertanto, il nostro obiettivo di apprendimento e la subroutine di ricerca sono progettati per dare priorità alle soluzioni più promettenti. Chiamiamo questo metodo *Test-Time Training to Discover* (TTT-Discover). Seguendo i lavori precedenti, ci concentriamo su problemi con ricompense continue. Riportiamo i risultati per ogni problema affrontato, in ambiti come matematica, ingegneria di kernel GPU, progettazione di algoritmi e biologia. TTT-Discover stabilisce il nuovo stato dell'arte in quasi tutti: (i) il problema della minima sovrapposizione di Erdős e una disuguaglianza di autocorrelazione; (ii) una competizione di kernel GPUMode (fino a 2 volte più veloce dello stato dell'arte precedente); (iii) precedenti competizioni algoritmiche AtCoder; e (iv) problema di riduzione del rumore nell'analisi a cellula singola. Le nostre soluzioni sono state revisionate da esperti o dagli organizzatori. Tutti i nostri risultati sono ottenuti con un modello aperto, OpenAI gpt-oss-120b, e possono essere riprodotti con il nostro codice pubblicamente disponibile, a differenza dei migliori risultati precedenti che richiedevano modelli frontier chiusi. Le nostre esecuzioni di addestramento al momento del test sono eseguite utilizzando Tinker, un'API di Thinking Machines, con un costo di poche centinaia di dollari per problema.
Le capacità a livello di pixel sono essenziali per costruire sistemi intelligenti interattivi. Tuttavia, i modelli linguistici multimodali (MLLM) con elaborazione pixel-wise rimangono difficili da scalare a causa di encoder a livello di regione complessi, decoder di segmentazione specializzati e obiettivi di addestramento incompatibili. Per affrontare queste sfide, presentiamo SAMTok, un tokenizzatore di maschere discreto che converte qualsiasi maschera di regione in due token speciali e ricostruisce la maschera utilizzando questi token con alta fedeltà. Trattando le maschere come nuovi token linguistici, SAMTok consente ai MLLM di base (come la serie QwenVL) di apprendere capacità pixel-wise attraverso la standard predizione del token successivo e un semplice apprendimento per rinforzo, senza modifiche architetturali e progettazione di loss specializzate. SAMTok si basa su SAM2 ed è addestrato su 209 milioni di maschere diverse utilizzando un encoder di maschere e un quantizzatore vettoriale residuo per produrre token discreti, compatti e ricchi di informazioni. Con 5 milioni di campioni di dati SAMTok-formattati per la comprensione e generazione di maschere, QwenVL-SAMTok ottiene risultati allo stato dell'arte o comparabili in attività di captioning regionale, VQA regionale, conversazione fondata, segmentazione referenziale, analisi di scene graph e segmentazione interattiva multi-round. Introduciamo inoltre una ricompensa basata sulla corrispondenza della risposta testuale che abilita un efficiente apprendimento per rinforzo per la generazione di maschere, fornendo miglioramenti sostanziali sui benchmark GRES e GCG. I nostri risultati dimostrano un paradigma scalabile e semplice per dotare i MLLM di solide capacità pixel-wise. Il nostro codice e i nostri modelli sono disponibili.
Gli agenti di IA potrebbero presto diventare capaci di completare autonomamente compiti di valore a lungo termine in diversi domini. Gli attuali benchmark non misurano compiti del mondo reale, oppure non sono sufficientemente difficili per valutare significativamente i modelli all'avanguardia. A tal fine, presentiamo Terminal-Bench 2.0: un benchmark rigoroso accuratamente curato, composto da 89 attività in ambienti terminale informatici ispirati a problemi provenienti da flussi di lavoro reali. Ogni attività presenta un ambiente unico, una soluzione scritta da esseri umani e test completi per la verifica. Dimostriamo che i modelli e gli agenti all'avanguardia ottengono un punteggio inferiore al 65% sul benchmark e conduciamo un'analisi degli errori per identificare le aree di miglioramento per modelli e agenti. Pubbliciamo il dataset e il sistema di valutazione per assistere sviluppatori e ricercatori nei lavori futuri all'indirizzo https://www.tbench.ai/.
Questo articolo presenta una famiglia di encoder visivi avanzati, denominata OpenVision 3, che apprende una rappresentazione visiva unificata e singola in grado di servire sia la comprensione che la generazione di immagini. La nostra architettura di base è semplice: alimentiamo i latenti immagine compressi da un VAE a un encoder ViT e addestriamo il suo output per supportare due ruoli complementari. In primo luogo, l'output dell'encoder viene passato al decoder ViT-VAE per ricostruire l'immagine originale, incoraggiando la rappresentazione a catturare la struttura generativa. In secondo luogo, la stessa rappresentazione viene ottimizzata con obiettivi di contrastive learning e image-captioning, rafforzando le caratteristiche semantiche. Ottimizzando congiuntamente i segnali guidati dalla ricostruzione e dalla semantica in uno spazio latente condiviso, l'encoder apprende rappresentazioni che sinergizzano e generalizzano bene in entrambi i regimi. Convalidiamo questo design unificato attraverso valutazioni estensive a valle con l'encoder congelato. Per la comprensione multimodale, inseriamo l'encoder nel framework LLaVA-1.5: esso performa in modo comparabile a un encoder visivo CLIP standard (ad esempio, 62.4 vs 62.2 su SeedBench e 83.7 vs 82.9 su POPE). Per la generazione, lo testiamo nel framework RAE: il nostro supera sostanzialmente l'encoder standard basato su CLIP (ad esempio, gFID: 1.89 vs 2.54 su ImageNet). Speriamo che questo lavoro possa stimolare future ricerche sulla modellizzazione unificata.
Le prestazioni dei moderni sistemi di intelligenza artificiale sono fondamentalmente limitate dalla qualità dei loro kernel sottostanti, che traducono la semantica algoritmica di alto livello in operazioni hardware di basso livello. Il raggiungimento di kernel quasi ottimali richiede una comprensione a livello esperto delle architetture hardware e dei modelli di programmazione, rendendo l'ingegneria dei kernel un processo critico ma notoriamente dispendioso in termini di tempo e non scalabile. I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) e negli agenti basati su LLM hanno aperto nuove possibilità per automatizzare la generazione e l'ottimizzazione dei kernel. Gli LLM sono adatti a comprimere la conoscenza esperta sui kernel che è difficile da formalizzare, mentre i sistemi agentistici consentono un'ulteriore ottimizzazione scalabile trasformando lo sviluppo dei kernel in un ciclo iterativo guidato dal feedback. In questo ambito sono stati compiuti rapidi progressi. Tuttavia, il campo rimane frammentato, privo di una prospettiva sistematica per la generazione di kernel guidata da LLM. Questa rassegna colma tale lacuna fornendo una panoramica strutturata degli approcci esistenti, spaziando dai metodi basati su LLM ai flussi di lavoro di ottimizzazione agentistica, e sistematizzando la compilazione dei dataset e dei benchmark che sostengono l'apprendimento e la valutazione in questo dominio. Inoltre, vengono delineate le principali sfide aperte e le future direzioni di ricerca, con l'obiettivo di stabilire un riferimento completo per la prossima generazione di ottimizzazione automatica dei kernel. Per monitorare questo campo, manteniamo un repository GitHub open-source all'indirizzo https://github.com/flagos-ai/awesome-LLM-driven-kernel-generation.
La generalizzazione dei modelli di video matting a video del mondo reale rimane una sfida significativa a causa della scarsità di dati etichettati. Per affrontare questo problema, presentiamo Video Mask-to-Matte Model (VideoMaMa), che converte maschere di segmentazione approssimative in alpha matte pixel-accurati, sfruttando modelli di diffusione video pre-addestrati. VideoMaMa dimostra una forte generalizzazione zero-shot su filmati reali, nonostante sia addestrato esclusivamente su dati sintetici. Basandoci su questa capacità, sviluppiamo una pipeline scalabile di pseudo-etichettatura per il video matting su larga scala e costruiamo il dataset Matting Anything in Video (MA-V), che fornisce annotazioni di matting di alta qualità per oltre 50.000 video del mondo reale che abbracciano scene e movimenti diversificati. Per validare l'efficacia di questo dataset, ottimizziamo il modello SAM2 su MA-V per ottenere SAM2-Matte, che supera lo stesso modello addestrato su dataset di matting esistenti in termini di robustezza su video in condizioni reali. Questi risultati sottolineano l'importanza del video matting pseudo-etichettato su larga scala e dimostrano come i priori generativi e i segnali di segmentazione accessibili possano guidare progressi scalabili nella ricerca sul video matting.
I modelli recenti di generazione video dimostrano una straordinaria capacità di catturare interazioni fisiche complesse e l'evoluzione della scena nel tempo. Per sfruttare i loro prerequisiti spazio-temporali, i lavori di robotica hanno adattato i modelli video per l'apprendimento di politiche, ma introducono complessità richiedendo multiple fasi di post-addestramento e nuovi componenti architetturali per la generazione di azioni. In questo lavoro, introduciamo Cosmos Policy, un approccio semplice per adattare un grande modello video pre-addestrato (Cosmos-Predict2) in una politica robotica efficace attraverso una singola fase di post-addestramento sui dati dimostrativi del robot raccolti sulla piattaforma target, senza modifiche architetturali. Cosmos Policy impara a generare direttamente le azioni del robot codificate come frame latenti all'interno del processo di diffusione latente del modello video, sfruttando i prerequisiti pre-addestrati del modello e il suo algoritmo di apprendimento centrale per catturare distribuzioni di azioni complesse. Inoltre, Cosmos Policy genera immagini dello stato futuro e valori (ricompense cumulative attese), che sono similmente codificati come frame latenti, abilitando una pianificazione in fase di test delle traiettorie di azione con una maggiore probabilità di successo. Nelle nostre valutazioni, Cosmos Policy raggiunge prestazioni all'avanguardia sui benchmark di simulazione LIBERO e RoboCasa (rispettivamente tassi di successo medi del 98,5% e 67,1%) e il punteggio medio più alto in impegnativi compiti di manipolazione bimanuale nel mondo reale, superando forti politiche di diffusione addestrate da zero, politiche basate su modelli video e modelli visione-linguaggio-azione all'avanguardia messi a punto sulle stesse dimostrazioni robotiche. Inoltre, dati i dati di rollout della politica, Cosmos Policy può apprendere dall'esperienza per affinare il suo modello del mondo e la funzione valore e sfruttare la pianificazione basata su modello per ottenere tassi di successo ancora più elevati in compiti impegnativi. Rilasciamo codice, modelli e dati di addestramento su https://research.nvidia.com/labs/dir/cosmos-policy/
Il Recupero di Immagini Composte (CIR) è un compito fondamentale e complesso nella comprensione multimodale. I benchmark CIR attuali presentano tipicamente categorie di query limitate e non riescono a cogliere le diverse esigenze degli scenari del mondo reale. Per colmare questa lacuna valutativa, sfruttiamo l'editing di immagini per ottenere un controllo preciso sui tipi di modifica e sui contenuti, abilitando una pipeline per la sintesi di query attraverso un ampio spettro di categorie. Utilizzando questa pipeline, costruiamo EDIR, un nuovo benchmark CIR granulare. EDIR comprende 5.000 query di alta qualità strutturate in cinque categorie principali e quindici sottocategorie. La nostra valutazione completa di 13 modelli di embedding multimodale rivela un significativo divario di capacità; anche i modelli all'avanguardia (ad esempio, RzenEmbed e GME) faticano a performare in modo coerente attraverso tutte le sottocategorie, evidenziando la natura rigorosa del nostro benchmark. Attraverso un'analisi comparativa, scopriamo ulteriormente limitazioni intrinseche nei benchmark esistenti, come bias modali e copertura categoriale insufficiente. Inoltre, un esperimento di training in-domain dimostra la fattibilità del nostro benchmark. Questo esperimento chiarisce le sfide del compito distinguendo tra categorie risolvibili con dati mirati e quelle che espongono limitazioni intrinseche delle architetture modelli attuali.
La generazione di oggetti 3D animati è al centro di molte applicazioni, ma la maggior parte dei lavori più avanzati è tipicamente difficile da applicare nella pratica a causa della loro configurazione limitata, dei lunghi tempi di esecuzione o della qualità non ottimale. Introduciamo ActionMesh, un modello generativo che predice mesh 3D "in azione" pronte per la produzione in modo feed-forward. Traendo ispirazione dai primi modelli video, la nostra intuizione chiave è modificare i modelli di diffusione 3D esistenti per includere un asse temporale, dando vita a un framework che abbiamo denominato "diffusione 3D temporale". Nello specifico, prima adattiamo la fase di diffusione 3D per generare una sequenza di latenti sincronizzati che rappresentano forme 3D variabili nel tempo e indipendenti. Secondo, progettiamo un autoencoder 3D temporale che traduce una sequenza di forme indipendenti nelle corrispondenti deformazioni di una forma di riferimento predefinita, permettendoci di costruire un'animazione. Combinando questi due componenti, ActionMesh genera mesh 3D animate da diversi input, come un video monoculare, una descrizione testuale o persino una mesh 3D con una prompt testuale che ne descrive l'animazione. Inoltre, rispetto agli approcci precedenti, il nostro metodo è veloce e produce risultati privi di rig, con topologia consistente, consentendo quindi rapide iterazioni e applicazioni seamless come la texturizzazione e il retargeting. Valutiamo il nostro modello su benchmark standard video-to-4D (Consistent4D, Objaverse) e riportiamo prestazioni all'avanguardia sia in accuratezza geometrica che in consistenza temporale, dimostrando che il nostro modello può fornire mesh 3D animate con velocità e qualità senza precedenti.
La stima dello stato di avanzamento di un compito richiede un ragionamento sulle dinamiche a lungo orizzonte piuttosto che il riconoscimento di contenuti visivi statici. Sebbene i moderni Modelli Visione-Linguaggio (VLM) eccellano nel descrivere ciò che è visibile, non è ancora chiaro se possano dedurre quanto un compito sia progredito a partire da osservazioni parziali. A tal fine, introduciamo Progress-Bench, un benchmark per valutare sistematicamente il ragionamento sull'avanzamento nei VLM. Oltre al benchmarking, esploriamo ulteriormente un paradigma di ragionamento sull'avanzamento ispirato all'uomo e articolato in due fasi, attraverso sia un approccio *training-free* basato su *prompting* sia un approccio basato su addestramento che utilizza il dataset curato ProgressLM-45K. Esperimenti su 14 VLM mostrano che la maggior parte dei modelli non è ancora pronta per la stima dello stato di avanzamento, mostrando sensibilità alla modalità di dimostrazione e ai cambiamenti di punto di vista, oltre a una scarsa gestione dei casi non risolvibili. Sebbene il *prompting* *training-free* che impone un ragionamento strutturato sull'avanzamento produca miglioramenti limitati e dipendenti dal modello, il modello addestrato ProgressLM-3B ottiene miglioramenti consistenti anche con una scala ridotta, nonostante sia stato addestrato su un insieme di compiti completamente disgiunto da quelli di valutazione. Ulteriori analisi rivelano modelli caratteristici di errore e chiariscono quando e perché il ragionamento sull'avanzamento ha successo o fallisce.
Sebbene gli agenti di IA abbiano dimostrato capacità impressionanti nel ragionamento a lungo termine, la loro affidabilità è gravemente compromessa dalla "Spirale di Allucinazione", in cui errori epistemici iniziali si propagano in modo irreversibile. I metodi esistenti affrontano un dilemma: i metodi di quantificazione dell'incertezza (UQ) tipicamente agiscono come sensori passivi, limitandosi a diagnosticare i rischi senza affrontarli, mentre i meccanismi di autoriflessione soffrono di correzioni continue o senza scopo. Per colmare questa lacuna, proponiamo un quadro unificato di Quantificazione Attiva dell'Incertezza Agente (AUQ) a Doppio Processo, che trasforma l'incertezza verbalizzata in segnali di controllo attivi e bidirezionali. La nostra architettura comprende due meccanismi complementari: il Sistema 1 (Memoria Consapevole dell'Incertezza, UAM), che propaga implicitamente la fiducia verbalizzata e le spiegazioni semantiche per prevenire decisioni cieche; e il Sistema 2 (Riflessione Consapevole dell'Incertezza, UAR), che utilizza queste spiegazioni come indizi razionali per innescare una risoluzione mirata al momento dell'inferenza solo quando necessario. Ciò consente all'agente di bilanciare dinamicamente un'esecuzione efficiente e una deliberazione approfondita. Esperimenti estensivi su benchmark a circuito chiuso e su compiti di ricerca approfondita aperti dimostrano che il nostro approccio, che non richiede addestramento, raggiunge prestazioni superiori e una calibrazione a livello di traiettoria. Riteniamo che questo quadro metodologico AUQ rappresenti un passo significativo verso agenti affidabili.
La conversione di immagini e video prospettici in panorami a 360° abilita la generazione immersiva di mondi 3D. Gli approcci esistenti spesso si basano su un allineamento geometrico esplicito tra lo spazio prospettico e quello di proiezione equirettangolare (ERP). Tuttavia, ciò richiede metadati della fotocamera noti, limitando l'applicazione a dati "in-the-wild" dove tale calibrazione è tipicamente assente o rumorosa. Proponiamo 360Anything, un framework *geometry-free* basato su transformer di diffusione pre-addestrati. Trattando l'input prospettico e il panorama target semplicemente come sequenze di token, 360Anything apprende la mappatura prospettico-equirettangolare in modo puramente data-driven, eliminando la necessità di informazioni sulla fotocamera. Il nostro approccio raggiunge prestazioni allo stato dell'arte sia nella generazione di immagini che di video da prospettico a 360°, superando i lavori precedenti che utilizzano informazioni di ground-truth della fotocamera. Identifichiamo inoltre la causa principale degli artefatti di giunzione ai bordi dell'ERP nel *zero-padding* dell'encoder VAE e introduciamo la Codifica Latente Circolare per facilitare una generazione senza soluzione di continuità. Infine, mostriamo risultati competitivi in benchmark *zero-shot* per la stima del campo visivo (FoV) e dell'orientamento della fotocamera, dimostrando la profonda comprensione geometrica di 360Anything e la sua più ampia utilità nelle attività di computer vision. Risultati aggiuntivi sono disponibili su https://360anything.github.io/.
Gli agenti di IA stanno progredendo rapidamente da modelli linguistici passivi a sistemi autonomi che eseguono compiti complessi e multi-step. Tuttavia, la loro eccessiva sicurezza negli errori rimane una barriera fondamentale per il dispiegamento in contesti ad alto rischio. I metodi di calibrazione esistenti, concepiti per output statici a turno singolo, non possono affrontare le sfide uniche dei sistemi agentici, come errori che si accumulano lungo le traiettorie, l'incertezza derivante da strumenti esterni e le modalità di fallimento opache. Per affrontare queste sfide, introduciamo per la prima volta il problema della Calibrazione della Fiducia Agente e proponiamo la Calibrazione Olistica della Traiettoria (HTC), un nuovo framework diagnostico che estrae ricche caratteristiche a livello di processo, che vanno dalle dinamiche macro alla stabilità micro, lungo l'intera traiettoria di un agente. Sostenuto da un modello semplice e interpretabile, HTC supera costantemente baseline robuste sia in calibrazione che in discriminazione, attraverso otto benchmark, molteplici LLM e diversi framework agentici. Oltre alle prestazioni, HTC offre tre progressi essenziali: fornisce interpretabilità rivelando i segnali dietro il fallimento, abilita la trasferibilità applicandosi tra domini senza riaddestramento e raggiunge la generalizzazione attraverso un Calibratore Agente Generale (GAC) che ottiene la migliore calibrazione (ECE più basso) sul benchmark fuori dominio GAIA. Nel complesso, questi contributi stabiliscono un nuovo paradigma di calibrazione della fiducia centrato sul processo, fornendo un framework per diagnosticare e migliorare l'affidabilità degli agenti di IA.
La generalizzazione dei Modelli Linguistici Multimodali di grandi dimensioni (MLLM) a nuovi domini video è essenziale per il dispiegamento nel mondo reale, ma rimane una sfida a causa della scarsità di dati etichettati. Sebbene l'Apprendimento In-Contesto (ICL) offra un percorso di adattamento senza addestramento, i metodi standard si basano su ampi pool di dati annotati, spesso impraticabili in ambienti specializzati come contesti industriali o chirurgici, poiché richiedono le annotazioni di esperti. Per colmare questa lacuna, introduciamo VIOLA (Video In-cOntext Learning with minimal Annotation), un framework efficiente nell'uso delle etichette che sinergizza una supervisione esperta minima con dati non etichettati abbondanti. In primo luogo, per massimizzare l'efficienza di un budget di annotazione rigoroso, proponiamo un campionamento ponderato per densità e incertezza. A differenza delle strategie standard di diversità o incertezza che rischiano di selezionare outlier visivi, il nostro metodo sfrutta la stima della densità per identificare campioni che sono simultaneamente diversificati, rappresentativi e informativi. In secondo luogo, per utilizzare i restanti dati non etichettati senza propagare rumore, costruiamo un pool ibrido e introduciamo un retrieval consapevole della confidenza e un prompting consapevole della confidenza. Questi meccanismi modellano esplicitamente l'affidabilità dell'etichetta, recuperando dimostrazioni basate su un punteggio composito di similarità e confidenza, consentendo allo stesso tempo all'MLLM di distinguere in modo adattivo tra verità fondamentali verificate e pseudo-etichette rumorose. Esperimenti estensivi su nove benchmark diversi utilizzando quattro MLLM dimostrano che il nostro framework supera significativamente varie baseline in scenari a risorse limitate, raggiungendo un adattamento robusto con costi di annotazione minimi.
Sebbene i Large Language Model (LLM) mostrino capacità notevoli, la loro inaffidabilità rimane una barriera critica per il dispiegamento in domini ad alto rischio. Questa rassegna traccia un'evoluzione funzionale nell'affrontare questa sfida: l'evoluzione dell'incertezza da metrica diagnostica passiva a segnale di controllo attivo che guida il comportamento del modello in tempo reale. Dimostriamo come l'incertezza venga sfruttata come segnale di controllo attivo su tre frontieri: nel ragionamento avanzato per ottimizzare il calcolo e innescare l'autocorrezione; negli agenti autonomi per governare le decisioni metacognitive sull'uso di strumenti e la ricerca di informazioni; e nell'apprendimento per rinforzo per mitigare il reward hacking e abilitare il miglioramento autonomo tramite ricompense intrinseche. Radicando questi progressi in quadri teorici emergenti come i metodi bayesiani e la Conformal Prediction, forniamo una prospettiva unificata su questa tendenza trasformativa. Questa rassegna fornisce una panoramica completa, un'analisi critica e modelli di progettazione pratici, sostenendo che padroneggiare la nuova tendenza dell'incertezza sia essenziale per costruire la prossima generazione di IA scalabili, affidabili e degne di fiducia.
I modelli linguistici di grandi dimensioni (LLM) sono sempre più utilizzati come simulatori umani, sia per valutare sistemi conversazionali che per generare dati di fine-tuning. Tuttavia, prompt ingenui del tipo "agisci-come-un-utente" spesso producono espressioni verbose e irrealistiche, sottolineando la necessità di una valutazione rigorosa dei cosiddetti agenti proxy utente. Presentiamo MIRRORBENCH, un framework di benchmarking riproducibile ed estensibile che valuta i proxy utente esclusivamente sulla loro capacità di produrre espressioni utente simili a quelle umane in diverse attività conversazionali, esplicitamente disaccoppiata dal successo del task a valle. MIRRORBENCH include un motore di esecuzione modulare con interfacce tipate, registri guidati da metadati, supporto multi-backend, caching e robusta osservabilità. Il sistema supporta proxy utente, dataset, task e metriche pluggable, consentendo ai ricercatori di valutare simulatori arbitrari sotto un'infrastruttura uniforme e consapevole della varianza. Includiamo tre metriche di diversità lessicale (MATTR, K di YULE e HD-D) e tre metriche basate su giudici LLM (GTEval, Indistinguibilità a Coppie e Rubrica-e-Ragionamento). Su quattro dataset aperti, MIRRORBENCH fornisce risultati consapevoli della varianza e rivela lacune sistematiche tra i proxy utente e gli utenti umani reali. Il framework è open source e include una semplice interfaccia a riga di comando per eseguire esperimenti, gestire configurazioni e cache e generare report. Il framework è accessibile all'indirizzo https://github.com/SAP/mirrorbench.
Presentiamo dla-ideal-solver, un framework ad alte prestazioni per la simulazione dell'Aggregazione Limitata dalla Diffusione (DLA) bidimensionale utilizzando Python accelerato con Numba. Sfruttando la compilazione just-in-time (JIT), otteniamo una velocità computazionale paragonabile a quella delle implementazioni statiche legacy, pur mantenendo un'elevata flessibilità a livello di programmazione. Investigiamo l'instabilità della crescita laplaciana al variare delle geometrie di iniezione e delle concentrazioni dei camminatori. La nostra analisi conferma la robustezza della dimensione frattale standard D_f ≈ 1,71 per regimi diluiti, in linea con la classe di universalità di Witten-Sander. Tuttavia, riportiamo una transizione distinta verso una crescita compatta di tipo Eden (D_f ≈ 1,87) in ambienti ad alta densità, attribuita alla saturazione della lunghezza di schermatura. Oltre al consueto scaling massa-raggio, impieghiamo le dimensioni generalizzate di Rényi e metriche di lacunosità per quantificare il carattere monofrattale e l'eterogeneità spaziale degli aggregati. Questo lavoro stabilisce un banco di prova riproducibile e open-source per esplorare le transizioni di fase nella meccanica statistica fuori equilibrio.
Implementiamo e testiamo su hardware quantistico IBM la famiglia di circuiti proposta da Violaris per stimare i testimoni operativi di comunicazione inter-ramo, definiti come correlazioni nei record di misura classici prodotti da circuiti compilati nello stile dell'amico di Wigner. Realizziamo un'istanza a cinque qubit del protocollo come schema di trasferimento di messaggi tra registri all'interno di un singolo circuito, anziché come segnalazione fisica, e ne valutiamo il comportamento sotto l'effetto di rumore realistico del dispositivo e dei vincoli di compilazione. Il circuito codifica un'evoluzione condizionata al ramo di un sottosistema osservatore, le cui dinamiche dipendono da un qubit di controllo, seguita da un'operazione di trasferimento controllata che investiga le correlazioni tra contesti di misura condizionati. Eseguendo sul backend ibm_fez con 20000 shot, osserviamo una visibilità basata sulla popolazione di 0.877, testimoni di coerenza di 0.840 e -0.811 lungo assi ortogonali, e un modulo sensibile alla fase di circa 1.17. Sebbene la metrica di visibilità sia insensibile ad alcune classi di sfasamento, i testimoni di coerenza forniscono una sensibilità complementare al rumore fuori diagonale. Questo lavoro non verifica né discrimina tra le diverse interpretazioni della meccanica quantistica. Fornisce invece una pipeline operativa riproducibile di vincoli per valutare la rilevabilità di canali non ideali rispetto al rumore calibrato del dispositivo.
Man mano che i modelli linguistici di grandi dimensioni (LLM) diventano sempre più comuni nelle applicazioni educative, cresce l'esigenza di metodi basati su evidenze per progettare e valutare i prompt per LLM che producano output personalizzati e allineati da un punto di vista pedagogico. Questo studio presenta un approccio sistematico e generalizzabile per valutare i prompt, dimostrato attraverso un'analisi delle domande di follow-up generate da LLM in un'attività di dialogo strutturato. Sono stati progettati e testati sei modelli di prompt. I modelli incorporavano pattern consolidati di prompt engineering, con ciascun prompt che enfatizzava distinte strategie pedagogiche. I modelli di prompt sono stati confrontati attraverso una struttura di valutazione di tipo torneo che può essere adattata ad altre applicazioni educative. Il torneo ha utilizzato il sistema di valutazione Glicko2 con otto giudici che hanno valutato coppie di domande secondo tre dimensioni: formato, supporto al dialogo e appropriatezza per i discenti. I dati sono stati raccolti da 120 interazioni autentiche degli utenti in tre diversi contesti educativi. I risultati hanno mostrato che un singolo prompt relativo alla lettura strategica ha superato gli altri modelli, con probabilità di vittoria che variavano dal 81% al 100% nei confronti a coppie. Questo prompt combinava i pattern del "persona" e del "context manager" ed era progettato per supportare strategie di apprendimento metacognitive come l'apprendimento autodiretto. La metodologia illustra come i ricercatori di tecnologia educativa possano valutare e migliorare sistematicamente i progetti dei prompt, passando da un prompt engineering ad hoc a uno sviluppo dei prompt basato su evidenze per applicazioni educative.