Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli probabilistici di diffusione hanno dimostrato prestazioni notevoli in un'ampia gamma di compiti generativi. Tuttavia, abbiamo osservato che questi modelli soffrono spesso di un bias Rapporto Segnale-Rumore-timestep (SNR-t). Questo bias si riferisce al disallineamento tra l'SNR del campione di denoising e il suo corrispondente timestep durante la fase di inferenza. Nello specifico, durante l'addestramento, l'SNR di un campione è strettamente accoppiato con il suo timestep. Tuttavia, questa corrispondenza viene interrotta durante l'inferenza, portando a un accumulo di errori e compromettendo la qualità della generazione. Forniamo prove empiriche complete e un'analisi teorica per comprovare questo fenomeno e proponiamo un metodo di correzione differenziale semplice ma efficace per mitigare il bias SNR-t. Riconoscendo che i modelli di diffusione tipicamente ricostruiscono le componenti a bassa frequenza prima di concentrarsi sui dettagli ad alta frequenza durante il processo inverso di denoising, scomponiamo i campioni in varie componenti di frequenza e applichiamo la correzione differenziale a ciascuna componente individualmente. Esperimenti estensivi mostrano che il nostro approccio migliora significativamente la qualità della generazione di vari modelli di diffusione (IDDPM, ADM, DDIM, A-DPM, EA-DPM, EDM, PFGM++ e FLUX) su dataset di varie risoluzioni con un overhead computazionale trascurabile. Il codice è disponibile all'indirizzo https://github.com/AMAP-ML/DCW.
Le Deep Neural Network (DNN) possono essere compromesse in modo catastrofico alterando solo una manciata di bit dei parametri. Introduciamo Deep Neural Lesion (DNL), un metodo senza dati e senza ottimizzazione che individua i parametri critici, e una variante potenziata single-pass, 1P-DNL, che affina questa selezione con un singolo passaggio in avanti e all'indietro su input casuali. Dimostriamo che questa vulnerabilità interessa molteplici domini, inclusi la classificazione di immagini, l'object detection, l'instance segmentation e i modelli linguistici di ragionamento di grandi dimensioni. Nella classificazione di immagini, l'inversione di soli due bit di segno in ResNet-50 su ImageNet riduce l'accuratezza del 99,8%. Nell'object detection e nell'instance segmentation, l'inversione di uno o due bit di segno nella backbone azzera l'AP di detection e di maschera COCO per i modelli Mask R-CNN e YOLOv8-seg. Nella modellazione linguistica, due inversioni di segno in diversi esperti riducono l'accuratezza di Qwen3-30B-A3B-Thinking dal 78% allo 0%. Mostriamo inoltre che proteggere selettivamente una piccola frazione dei bit di segno vulnerabili fornisce una difesa pratica contro tali attacchi.
I Modelli Linguistici Multimodali di Grande Dimensione (MLLM) fungono da assistenti quotidiani per milioni di persone. Tuttavia, la loro capacità di generare risposte allineate alle preferenze individuali rimane limitata. Gli approcci precedenti consentono solo una personalizzazione statica e a turno singolo attraverso l'aumento dell'input o l'allineamento dell'output, fallendo quindi nel cogliere le preferenze e la personalità degli utenti in evoluzione nel tempo (vedi Fig.1). In questo articolo, introduciamo PersonaVLM, un innovativo framework di agente multimodale personalizzato progettato per la personalizzazione a lungo termine. Esso trasforma un MLLM generico in un assistente personalizzato integrando tre capacità chiave: (a) Ricordo: Estrae e riassume proattivamente memorie multimodali cronologiche dalle interazioni, consolidandole in un database personalizzato. (b) Ragionamento: Svolge ragionamenti multi-turno recuperando e integrando memorie rilevanti dal database. (c) Allineamento della Risposta: Inferisce la personalità in evoluzione dell'utente durante le interazioni a lungo termine per garantire che gli output rimangano allineati con le sue caratteristiche uniche. Per la valutazione, istituiamo Persona-MME, un benchmark completo comprendente oltre 2.000 casi di interazione curati, progettato per valutare la personalizzazione a lungo termine degli MLLM attraverso sette aspetti chiave e 14 task granulari. Esperimenti estensivi convalidano l'efficacia del nostro metodo, che migliora la baseline del 22.4% (Persona-MME) e del 9.8% (PERSONAMEM) sotto un contesto di 128k, superando rispettivamente GPT-4o del 5.2% e del 2.0%. Pagina del progetto: https://PersonaVLM.github.io.
I sistemi di Generazione Aumentata dal Recupero (RAG) dipendono in modo critico da strategie efficaci di suddivisione dei documenti per bilanciare qualità del recupero, latenza e costo operativo. Gli approcci tradizionali di suddivisione, come quella a dimensione fissa, basata su regole o completamente agenziale, soffrono spesso di elevato consumo di token, generazione ridondante di testo, scalabilità limitata e scarsa capacità di debug, specialmente per l'ingestione di contenuti web su larga scala. In questo articolo, proponiamo il Web Retrieval-Aware Chunking (W-RAC), un nuovo framework di suddivisione efficiente in termini di costi, progettato specificamente per documenti di origine web. W-RAC disaccoppia l'estrazione del testo dalla pianificazione semantica dei chunk rappresentando il contenuto web analizzato come unità strutturate e indirizzabili tramite ID, e sfruttando i grandi modelli linguistici (LLM) solo per decisioni di raggruppamento consapevoli del recupero, anziché per la generazione di testo. Ciò riduce significativamente l'uso di token, elimina i rischi di allucinazione e migliora l'osservabilità del sistema. L'analisi sperimentale e il confronto architetturale dimostrano che W-RAC raggiunge prestazioni di recupero paragonabili o migliori rispetto agli approcci di suddivisione tradizionali, riducendo al contempo i costi LLM legati alla suddivisione di un ordine di grandezza.
In questo lavoro presentiamo Qwen3.5-Omni, il più recente progresso della famiglia di modelli Qwen-Omni. Rappresentando un'evoluzione significativa rispetto al suo predecessore, Qwen3.5-Omni scala fino a centinaia di miliardi di parametri e supporta una lunghezza di contesto di 256k. Sfruttando un dataset massiccio composto da coppie eterogenee testo-immagine e oltre 100 milioni di ore di contenuti audiovisivi, il modello dimostra robuste capacità omni-modali. Qwen3.5-Omni-plus raggiunge risultati allo stato dell'arte (SOTA) su 215 sotto-attività e benchmark di comprensione, ragionamento e interazione audio e audiovisiva, superando Gemini-3.1 Pro in compiti audio chiave e eguagliandolo nella comprensione audiovisiva complessiva. Architetturalmente, Qwen3.5-Omni utilizza un framework Hybrid Attention Mixture-of-Experts (MoE) sia per il Thinker che per il Talker, consentendo un'inferenza efficiente su sequenze lunghe. Il modello facilita un'interazione sofisticata, supportando la comprensione audio per oltre 10 ore e video 720P per 400 secondi (a 1 FPS). Per affrontare l'innata instabilità e innaturalità nella sintesi vocale in streaming, spesso causata dalle discrepanze di efficienza di codifica tra i tokenizzatori di testo e parlato, introduciamo ARIA. ARIA allinea dinamicamente le unità di testo e parlato, migliorando significativamente la stabilità e la prosodia del parlato conversazionale con un impatto minimo sulla latenza. Inoltre, Qwen3.5-Omni espande i confini linguistici, supportando la comprensione multilingue e la generazione vocale in 10 lingue con sfumature emotive simili a quelle umane. Infine, Qwen3.5-Omni mostra capacità superiori di grounding audiovisivo, generando didascalie strutturate a livello di script con una precisa sincronizzazione temporale e una segmentazione automatica della scena. Notevolmente, abbiamo osservato l'emergere di una nuova capacità nei modelli omnimodali: eseguire direttamente attività di coding basandosi su istruzioni audiovisive, che abbiamo denominato Audio-Visual Vibe Coding.
Il ragionamento parallelo potenzia i Large Reasoning Models (LRM) ma comporta costi proibitivi a causa di percorsi infruttuosi generati da errori precoci. Per mitigare questo problema, la potatura dei percorsi a livello di prefisso è essenziale, ma la ricerca esistente rimane frammentata senza un quadro standardizzato. In questo lavoro, proponiamo la prima tassonomia sistematica della potatura dei percorsi, classificando i metodi in base alla fonte del segnale (interna vs. esterna) e alla apprendibilità (apprendibile vs. non apprendibile). Questa classificazione rivela il potenziale inesplorato dei metodi interni apprendibili, motivando la nostra proposta di STOP (Super Token for Pruning). Valutazioni estensive su LRM con parametri da 1,5 a 20 miliardi dimostrano che STOP raggiunge un'efficacia e un'efficienza superiori rispetto ai baseline esistenti. Inoltre, convalidiamo rigorosamente la scalabilità di STOP sotto diversi budget computazionali - ad esempio, aumentando l'accuratezza di GPT-OSS-20B su AIME25 dall'84% a quasi il 90% a budget computazionali fissi. Infine, distilliamo i nostri risultati in linee guida empiriche formalizzate per facilitare la distribuzione ottimale nel mondo reale. Codice, dati e modelli sono disponibili su https://bijiaxihh.github.io/STOP.
La tokenizzazione è un componente chiave dei modelli generativi autoregressivi (AR), che converte i dati grezzi in unità più gestibili per la modellazione. Tipicamente, i token descrivono informazioni locali, come regioni di pixel nelle immagini o segmenti di parole nel testo, e la generazione AR prevede questi token in un ordine fisso. Una domanda rilevante è se le strutture dei token influenzino la capacità di guidare la generazione attraverso la ricerca al momento del test, dove multiple generazioni candidate vengono esplorate e valutate da un verificatore. Utilizzando la generazione di immagini come banco di prova, ipotizziamo che i recenti tokenizer con ordine 1D e struttura coarse-to-fine possano essere più adatti alla ricerca rispetto alle classiche strutture a griglia 2D. Ciò si basa sul fatto che gli stati intermedi nelle sequenze coarse-to-fine possiedono un significato semantico che i verificatori possono valutare in modo affidabile, consentendo una guida efficace durante la generazione. Attraverso esperimenti controllati, scopriamo che i modelli AR addestrati su token ordinati coarse-to-fine mostrano un miglioramento nel comportamento di scalabilità al momento del test rispetto alle controparti basate su griglia. Inoltre, dimostriamo che, grazie alla struttura ordinata, la ricerca pura al momento del test sulle sequenze di token (cioè senza addestrare un modello AR) può eseguire una generazione testo-immagine senza addestramento quando guidata da un verificatore immagine-testo. Oltre a ciò, studiamo sistematicamente come gli algoritmi di ricerca classici (best-of-N, beam search, lookahead search) interagiscano con diverse strutture di token, nonché il ruolo di diversi verificatori e prior AR. I nostri risultati evidenziano l'impatto della struttura dei token sulla scalabilità durante l'inferenza e forniscono indicazioni pratiche per la scalabilità al momento del test nei modelli AR.
Presentiamo LaviGen, un framework che riconverte modelli generativi 3D per la generazione di layout 3D. A differenza dei metodi precedenti che inferiscono i layout degli oggetti da descrizioni testuali, LaviGen opera direttamente nello spazio 3D nativo, formulando la generazione del layout come un processo autoregressivo che modella esplicitamente le relazioni geometriche e i vincoli fisici tra gli oggetti, producendo scene 3D coerenti e fisicamente plausibili. Per migliorare ulteriormente questo processo, proponiamo un modello di diffusione 3D adattato che integra informazioni sulla scena, sugli oggetti e sulle istruzioni, e impiega un meccanismo di distillazione dual-guidance con auto-rollout per migliorare l'efficienza e l'accuratezza spaziale. Esperimenti estensivi sul benchmark LayoutVLM dimostrano che LaviGen raggiunge prestazioni superiori nella generazione di layout 3D, con un aumento del 19% nella plausibilità fisica rispetto allo stato dell'arte e una velocità di calcolo superiore del 65%. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/fenghora/LaviGen.
I modelli linguistici addestrati in post-addestramento producono output meno vari rispetto alle loro controparti base. Questo collasso della diversità degli output mina i metodi di scaling al momento dell'inferenza che si basano su campioni variati e rischia di omogeneizzare gli output del modello su compiti creativi e carichi di valori. I lavori precedenti attribuiscono il collasso a metodi specifici di post-addestramento, senza separare il ruolo della composizione dei dati di addestramento dal metodo, o il formato di generazione dai pesi del modello. Tracciamo la diversità degli output attraverso tre lignaggi paralleli di post-addestramento di Olmo 3 – Think (distillazione chain-of-thought), Instruct (dati multi-fonte ampi) e RL-Zero – su 15 compiti e quattro metriche di diversità testuale. Troviamo che la localizzazione del collasso covaria con la composizione dei dati: il lignaggio Think perde la maggior parte della diversità semantica durante il fine-tuning supervisionato, e l'effetto del DPO è maggiore in Instruct che in Think. Sopprimere il ragionamento chain-of-thought al momento dell'inferenza nei modelli Think riduce l'accuratezza sui compiti difficili, ma lascia invariata la diversità a livello di risposta, dimostrando che il collasso è incorporato nei pesi del modello dai dati di addestramento, non imposto dal formato di generazione. Scomponendo la perdita di diversità su sei compiti verificabili in una componente di controllo qualità (rimozione degli output errati) e una componente residua (restringimento genuino tra gli output corretti) si rivela che la suddivisione è dipendente dal compito, e i modelli Think conservano una maggiore diversità di risposte corrette rispetto a Instruct nonostante collassino di più in aggregato. I nostri risultati indicano che il collasso della diversità è determinato durante l'addestramento dalla composizione dei dati e non può essere affrontato solo al momento dell'inferenza.
I modelli linguistici di grandi dimensioni hanno dimostrato prestazioni solide in compiti di programmazione generica, ma la loro capacità di generare strategie di trading algoritmico eseguibili rimane poco esplorata. A differenza dei benchmark di codice standard, la generazione di strategie di trading richiede la padronanza simultanea di una logica finanziaria specifica del dominio, la conoscenza di un'API specializzata e la capacità di produrre codice che non sia solo sintatticamente corretto, ma che porti anche a transazioni reali su dati storici. In questo lavoro, presentiamo QuantCode-Bench, un benchmark per la valutazione sistematica dei moderni LLM nella generazione di strategie per il framework Backtrader a partire da descrizioni testuali in inglese. Il benchmark contiene 400 compiti di difficoltà variabile, raccolti da Reddit, TradingView, StackExchange, GitHub e fonti sintetiche. La valutazione viene condotta attraverso una pipeline multi-stadio che verifica la correttezza sintattica, l'esecuzione corretta del backtest, la presenza di transazioni e l'allineamento semantico con la descrizione del compito utilizzando un giudice basato su LLM. Confrontiamo i modelli all'avanguardia in due contesti: single-turn, dove la strategia deve essere generata correttamente al primo tentativo, e multi-turn agentico, dove il modello riceve feedback iterativo e può correggere i propri errori. Analizziamo le modalità di fallimento nelle diverse fasi della pipeline e mostriamo che le principali limitazioni dei modelli attuali non sono correlate alla sintassi, ma piuttosto alla corretta operazionalizzazione della logica di trading, all'uso appropriato delle API e all'aderenza alla semantica del compito. Questi risultati suggeriscono che la generazione di strategie di trading costituisce una classe distinta di compiti di generazione di codice specifico per dominio, in cui il successo richiede non solo la correttezza tecnica, ma anche l'allineamento tra le descrizioni in linguaggio naturale, la logica finanziaria e il comportamento osservabile della strategia sui dati.
I modelli di ragionamento visivo (VRM) hanno recentemente dimostrato forti capacità di ragionamento cross-modale integrando la percezione visiva con il ragionamento linguistico. Tuttavia, spesso soffrono di "overthinking", producendo catene di ragionamento inutilmente lunghe per qualsiasi compito. Attribuiamo questo problema alla Ridondanza del Percorso di Ragionamento nel ragionamento visivo: molte domande visive non richiedono l'intero processo deduttivo. Per risolvere ciò, proponiamo AVR, un framework di ragionamento visivo adattativo che scompone il ragionamento visivo in tre funzioni cognitive: percezione visiva, ragionamento logico e applicazione della risposta. Inoltre, consente ai modelli di scegliere dinamicamente tra tre formati di risposta: Formato Completo, Formato Solo Percezione e Risposta Diretta. AVR viene addestrato con FS-GRPO, un adattamento dell'ottimizzazione delle politiche relative di gruppo che incentiva il modello a selezionare il formato di ragionamento più efficiente preservando la correttezza. Esperimenti su diversi benchmark visione-linguaggio mostrano che AVR riduce l'utilizzo di token del 50-90% mantenendo l'accuratezza complessiva, specialmente in compiti percettivo-intensivi. Questi risultati dimostrano che il ragionamento visivo adattativo può mitigare efficacemente l'overthinking nei VRM. Codice e dati sono disponibili su: https://github.com/RunRiotComeOn/AVR.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un forte potenziale nel far progredire la scoperta scientifica. Tuttavia, se possiedano o meno la capacità per un'innovazione fondamentale rimane una questione aperta. In questo lavoro, ci concentriamo su un prerequisito per l'innovazione fondamentale: gli LLM possono reinventare gli algoritmi fondamentali dell'informatica? La nostra pipeline *Unlearn-and-Reinvent* applica l'"unlearning" (disapprendimento) agli LLM per rimuovere uno specifico algoritmo fondamentale, come l'algoritmo di Dijkstra o quello di Euclide, dalla conoscenza pre-addestrata di un LLM, per poi verificare se il modello è in grado di reinventarlo in un ambiente controllato. Per consentire un disapprendimento efficace, adottiamo un metodo di unlearning on-policy basato su GRPO. Attraverso esperimenti su 10 algoritmi target, 3 modelli open-weight robusti e 3 livelli di suggerimento, i nostri risultati dimostrano che (1) il modello più potente, Qwen3-4B-Thinking-2507, reinventa con successo il 50% degli algoritmi senza suggerimenti, il 70% al livello di suggerimento 1 e il 90% al livello di suggerimento 2; (2) alcuni suggerimenti di alto livello possono migliorare il tasso di successo della reinvenzione, ma persino suggerimenti passo-passo falliscono per quegli algoritmi più complessi; e (3) il reinforcement learning al momento del test (test-time) consente la reinvenzione con successo per l'algoritmo di Strassen al livello di suggerimento 2. Attraverso l'analisi delle traiettorie di output e studi di ablazione, scopriamo che il verificatore generativo nella fase di reinvenzione gioca un ruolo critico nel sostenere la capacità di ragionamento dei modelli, aiutando a evitare il fenomeno del "collasso del pensiero" ("thought collapse"). Questi risultati offrono spunti di riflessione sia sul potenziale che sugli attuali limiti del pensiero innovativo degli LLM.
I recenti progressi nel pre-addestramento visione-linguaggio hanno consentito miglioramenti significativi in molte applicazioni di computer vision downstream, come classificazione, retrieval, segmentazione e predizione della profondità. Tuttavia, una capacità fondamentale con cui questi modelli continuano a lottare è l'allineamento delle rappresentazioni dense a livello di patch con gli embedding testuali dei concetti corrispondenti. In questo lavoro, investigiamo questa problematica critica e proponiamo tecniche innovative per potenziare tale capacità nei modelli fondazionali visione-linguaggio. In primo luogo, riveliamo che una procedura di distillazione a livello di patch migliora significativamente l'allineamento patch-testo denso – sorprendentemente, l'allineamento patch-testo del modello studente distillato supera nettamente quello del modello insegnante. Questa osservazione ci spinge a considerare modifiche alle ricette di pre-addestramento, portandoci a proporre iBOT++, un aggiornamento all'obiettivo comune di immagine mascherata iBOT, in cui anche i token non mascherati contribuiscono direttamente alla loss. Ciò migliora drasticamente l'allineamento patch-testo dei modelli pre-addestrati. Inoltre, per migliorare l'efficienza e l'efficacia del pre-addestramento visione-linguaggio, modifichiamo la configurazione della media mobile esponenziale nella ricetta di apprendimento e introduciamo una strategia di campionamento delle didascalie per trarre vantaggio da didascalie sintetiche a diverse granularità. Combinando questi componenti, sviluppiamo TIPSv2, una nuova famiglia di modelli encoder immagine-testo adatti a un'ampia gamma di applicazioni downstream. Attraverso esperimenti completi su 9 task e 20 dataset, dimostriamo prestazioni robuste, generalmente alla pari o migliori rispetto ai recenti modelli encoder visivi. Il codice e i modelli sono rilasciati tramite la nostra pagina progetto all'indirizzo https://gdm-tipsv2.github.io/.
Lo sviluppo di agenti a scopo generale richiede un passaggio dall'esecuzione di semplici istruzioni al completamento di flussi di lavoro produttivi complessi e realistici. Tuttavia, gli attuali benchmark sull'uso di strumenti rimangono disallineati rispetto alle esigenze del mondo reale, basandosi su query generate da IA, strumenti fittizi e una coordinazione a livello di sistema limitata. Per affrontare questo problema, proponiamo GTA-2, un benchmark gerarchico per Agenti Strumento Generici (GTA) che copre l'uso atomico degli strumenti e flussi di lavoro aperti. Basato sull'autenticità del mondo reale, sfrutta query di utenti reali, strumenti implementati e contesti multimodali. (i) GTA-Atomic, ereditato dal nostro precedente benchmark GTA, valuta la precisione nell'uso di strumenti a orizzonte breve e a risultato chiuso. (ii) GTA-Workflow introduce attività a orizzonte lungo e a risultato aperto per un completamento end-to-end realistico. Per valutare i risultati aperti, proponiamo un meccanismo di valutazione ricorsivo basato su checkpoint che scompone gli obiettivi in sotto-obiettivi verificabili, consentendo una valutazione unificata sia delle capacità del modello che dei framework di esecuzione degli agenti (ovvero, gli execution harness). Gli esperimenti rivelano un marcato "precipizio delle capacità": mentre i modelli all'avanguardia mostrano già difficoltà nelle attività atomiche (inferiori al 50%), falliscono in larga misura nei flussi di lavoro, con i modelli migliori che raggiungono solo il 14,39% di successo. Un'analisi più approfondita mostra che il feedback guidato dai checkpoint migliora le prestazioni, mentre framework avanzati come Manus e OpenClaw migliorano sostanzialmente il completamento dei flussi di lavoro, evidenziando l'importanza della progettazione dell'execution harness oltre la capacità del modello sottostante. Questi risultati forniscono indicazioni per lo sviluppo di assistenti personali e professionali affidabili. Il dataset e il codice saranno disponibili su https://github.com/open-compass/GTA.
Il Federated Learning (FL) consente il rilevamento di intrusioni collaborativo senza lo scambio di dati grezzi, ma l'FL convenzionale comporta un elevato sovraccarico di comunicazione dovuto alla trasmissione di gradienti a precisione completa e rimane vulnerabile ad attacchi di inferenza sui gradienti. Questo articolo presenta EdgeDetect, un sistema federato per l'IDS efficiente nelle comunicazioni e consapevole della privacy, progettato per ambienti 6G-IoT con vincoli di banda. EdgeDetect introduce la "smartificazione" dei gradienti, una binarizzazione statistica basata sulla mediana che comprime gli aggiornamenti locali in rappresentazioni {+1,-1}, riducendo il payload in uplink di 32 volte preservando al contempo la convergenza. Integriamo inoltre la cifratura omomorfa di Paillier sui gradienti binarizzati, proteggendo da server "honest-but-curious" senza esporre i singoli aggiornamenti. Esperimenti su CIC-IDS2017 (2.8M flussi, 7 classi di attacco) dimostrano un'accuratezza multiclasse del 98.0% e un F1-score macro del 97.9%, pari ai benchmark centralizzati, riducendo al contempo la comunicazione per round da 450 MB a 14 MB (riduzione del 96.9%). Il deployment su Raspberry Pi-4 conferma la fattibilità edge: 4.2 MB di memoria, latenza di 0.8 ms e 12 mJ per inferenza con una perdita di accuratezza <0.5%. Sotto attacchi di poisoning al 5% e grave squilibrio, EdgeDetect mantiene un'accuratezza dell'87% e un F1-score per le classi minoritarie di 0.95 (p<0.001), stabilendo un compromesso pratico tra accuratezza, comunicazione e privacy per il rilevamento di intrusioni di prossima generazione agli edge.
Presentiamo AccelOpt, un sistema agente basato su un modello linguistico di grandi dimensioni (LLM) auto-migliorante che ottimizza autonomamente i kernel per i nuovi acceleratori per l'IA, eliminando la necessità di conoscenze di ottimizzazione specifiche per l'hardware fornite da esperti. AccelOpt esplora lo spazio di ottimizzazione dei kernel attraverso una generazione iterativa, guidata da una memoria di ottimizzazione che raccoglie esperienze e insight da coppie di kernel lenti-veloci incontrate in precedenza. Abbiamo creato NKIBench, una nuova suite di benchmark composta da kernel per l'acceleratore AWS Trainium con complessità variabile, estratti da carichi di lavoro LLM del mondo reale, per valutare l'efficacia di AccelOpt. La nostra valutazione conferma che la capacità di AccelOpt migliora nel tempo, aumentando la percentuale media di picco di throughput dal 49% al 61% su Trainium 1 e dal 45% al 59% su Trainium 2 per i kernel NKIBench. Inoltre, AccelOpt è altamente conveniente: utilizzando modelli open-source, eguaglia i miglioramenti dei kernel ottenuti da Claude Sonnet 4 pur essendo 26 volte più economico. Il codice è open-source all'indirizzo https://github.com/zhang677/AccelOpt.
La sintesi vocale da video (Video-to-Speech, VTS) mira a generare parlato a partire da un video silenzioso, privo di segnali acustici. Tuttavia, i metodi VTS esistenti non considerano la natura gerarchica del parlato, che spazia dalla semantica di livello grossolano, legata all'identità del parlante, ai dettagli prosodici di livello fine. Questa omissione ostacola un allineamento diretto tra le caratteristiche visive e quelle del parlato a specifici livelli gerarchici durante la corrispondenza delle proprietà. In questo articolo, sfruttando la struttura gerarchica dei codec basati su Quantizzazione Vettoriale Residuale (Residual Vector Quantization, RVQ), proponiamo HiCoDiT, un innovativo Transformer Diffusion gerarchico per codec che sfrutta l'intrinseca gerarchia dei token vocali discreti per ottenere un forte allineamento audiovisivo. Nello specifico, poiché i token di livello inferiore codificano una semantica grossolana legata al parlante e quelli di livello superiore catturano la prosodia di dettaglio, HiCoDiT impiega blocchi di basso e alto livello per generare token ai diversi livelli. I blocchi di basso livello si condizionano sul movimento labiale sincronizzato e sull'identità facciale per catturare il contenuto relativo al parlante, mentre i blocchi di alto livello utilizzano l'espressione facciale per modulare la dinamica prosodica. Infine, per abilitare un condizionamento più efficace dal grossolano al fine, proponiamo una normalizzazione a livello di istanza adattiva a doppia scala che cattura congiuntamente lo stile vocale globale attraverso la normalizzazione per canale e la dinamica prosodica locale attraverso la normalizzazione temporale. Esperimenti estensivi dimostrano che HiCoDiT supera i metodi di riferimento in fedeltà ed espressività, evidenziando il potenziale della modellazione discreta per la VTS. Il codice e una demo audio sono disponibili al seguente indirizzo: https://github.com/Jiaxin-Ye/HiCoDiT.
Verifichiamo se l'evoluzione architetturale dell'intelligenza artificiale obbedisce alle stesse leggi statistiche dell'evoluzione biologica. Compilando 935 esperimenti di ablazione provenienti da 161 pubblicazioni, dimostriamo che la distribuzione degli effetti di fitness (DFE) delle modifiche architetturali segue una distribuzione t di Student a coda pesante, con proporzioni (68% deleteri, 19% neutri, 13% benefici per le ablazioni maggiori, n=568) che collocano l'IA tra i genomi virali compatti e gli eucarioti semplici. La forma della DFE corrisponde a quella di *D. melanogaster* (KS normalizzato=0.07) e *S. cerevisiae* (KS=0.09); la frazione benefica elevata (13% contro l'1-6% in biologia) quantifica il vantaggio della ricerca diretta rispetto a quella cieca, pur preservando la forma distributiva. L'origine architetturale segue dinamiche logistiche (R²=0.994) con equilibri punteggiati e radiazione adattativa in nicchie di dominio. Quattordici tratti architetturali sono stati inventati indipendentemente 3-5 volte, parallelamente a convergenze biologiche. Questi risultati dimostrano che la struttura statistica dell'evoluzione è indipendente dal substrato, determinata dalla topologia del paesaggio fitness piuttosto che dal meccanismo di selezione.
Il paradigma della scienza agentiva richiede che i sistemi di IA svolgano ragionamenti robusti e si impegnino in esplorazioni autonome a lungo termine. Tuttavia, gli attuali benchmark scientifici rimangono confinati alla comprensione della conoscenza di dominio e al ragionamento complesso, non riuscendo a valutare la natura esplorativa e la complessità procedurale della ricerca nel mondo reale. In questo lavoro, presentiamo valutazioni orientate alla ricerca in fisica teorica e computazionale, un banco di prova naturale con conoscenza di dominio completa, ragionamento complesso e workflow end-to-end verificabili senza dipendere da esperimenti. Introduciamo qui PRL-Bench (Physics Research by LLMs), un benchmark progettato per mappare sistematicamente i limiti delle capacità degli LLM nell'eseguire ricerca fisica end-to-end. Costruito a partire da 100 articoli selezionati dai numeri più recenti di Physical Review Letters dall'agosto 2025 e validato da esperti di dominio, PRL-Bench copre cinque principali sottocampi della fisica moderna ad alta intensità teorica e computazionale: astrofisica, fisica della materia condensata, fisica delle alte energie, informatica quantistica e fisica statistica. Ogni task nel benchmark è progettato per replicare le proprietà fondamentali della ricerca scientifica autentica, inclusa la formulazione orientata all'esplorazione, workflow a lungo termine e la verificabilità oggettiva, ricostruendo così i processi di ragionamento essenziali e i flussi di lavoro della ricerca fisica reale. La valutazione su modelli all'avanguardia mostra che le prestazioni rimangono limitate, con il punteggio complessivo migliore inferiore a 50, rivelando un divario marcato tra le capacità attuali degli LLM e le esigenze della ricerca scientifica reale. PRL-Bench funge da banco di prova affidabile per valutare la prossima generazione di scienziati IA, spingendo i sistemi di IA verso la scoperta scientifica autonoma.
La ricerca della robotica general-purpose ha prodotto modelli fondazionali impressionanti, ma la valutazione comparativa basata sulla simulazione rimane un collo di bottiglia a causa della rapida saturazione delle prestazioni e della mancanza di test di generalizzazione autentici. I benchmark esistenti spesso presentano una significativa sovrapposizione di dominio tra addestramento e valutazione, banalizzando i tassi di successo e oscurando le intuizioni sulla robustezza. Introduciamo RoboLab, un framework di benchmarking in simulazione progettato per affrontare queste sfide. Nello specifico, il nostro framework è concepito per rispondere a due domande: (1) fino a che punto possiamo comprendere le prestazioni di una policy del mondo reale analizzandone il comportamento in simulazione, e (2) quali fattori esterni influenzano più fortemente tale comportamento sotto perturbazioni controllate. In primo luogo, RoboLab consente la generazione di scene e task, sia da parte di umani che abilitata da LLM, in modo indipendente dal robot e dalla policy, all'interno di una simulazione fisicamente realistica e fotorealistica. Con questo, proponiamo il benchmark RoboLab-120, composto da 120 task categorizzati lungo tre assi di competenza: competenza visiva, procedurale e relazionale, attraverso tre livelli di difficoltà. In secondo luogo, introduciamo un'analisi sistematica delle policy del mondo reale che quantifica sia le loro prestazioni che la sensibilità del loro comportamento a perturbazioni controllate, indicando che una simulazione ad alta fedeltà può fungere da proxy per analizzare le prestazioni e la loro dipendenza da fattori esterni. La valutazione con RoboLab rivela un divario prestazionale significativo negli attuali modelli state-of-the-art. Fornendo metriche granulari e un insieme di strumenti scalabile, RoboLab offre un framework scalabile per valutare le vere capacità di generalizzazione delle policy robotiche generaliste per task.
L’Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) ha catalizzato progressi significativi nelle capacità di ragionamento dei Modelli Linguistici di Grande Dimensione (LLM). Tuttavia, gestire efficacemente il compromesso tra esplorazione e sfruttamento rimane una sfida cruciale. In questo articolo, analizziamo approfonditamente il dilemma dell’esplorazione e dello sfruttamento relativo a campioni estremamente difficili e facili durante l’addestramento e proponiamo un nuovo meccanismo di compromesso granulare. Nello specifico, introduciamo una strategia di separazione dello spazio di perplessità che suddivide lo spazio dei campioni in distinti sottospazi di esplorazione (alta perplessità) e sfruttamento (bassa perplessità, estraendo così campioni granulari che richiedono un bilanciamento tra esplorazione e sfruttamento. Successivamente, proponiamo un meccanismo di allocazione bidirezionale delle ricompense con un impatto minimo sulle ricompense di verifica, per implementare un’esplorazione e uno sfruttamento guidati dalla perplessità, consentendo un’ottimizzazione della politica più stabile. Infine, abbiamo valutato il nostro metodo su due compiti principali: il ragionamento matematico e la chiamata di funzioni. I risultati sperimentali dimostrano la superiorità del metodo proposto, confermandone l’efficacia nel migliorare le prestazioni degli LLM attraverso un compromesso granulare tra esplorazione e sfruttamento.
I benchmark esistenti per l'uso di strumenti da parte di agenti basati su LLM sono prevalentemente lineari: la nostra analisi di sei benchmark mostra che dal 55% al 100% delle istanze sono semplici catene da 2 a 5 passi. Introduciamo The Amazing Agent Race (AAR), un benchmark che presenta enigmi a grafo aciclico orientato (DAG) (o "tappe") con catene di strumenti fork-merge. Rilasciamo 1.400 istanze in due varianti: sequenziale (800 tappe) e compositiva (600 tappe DAG). Gli agenti devono navigare su Wikipedia, eseguire catene di strumenti multi-step e aggregare i risultati in una risposta verificabile. Le tappe sono generate proceduralmente da semi di Wikipedia su quattro livelli di difficoltà con validazione via API live. Tre metriche complementari (accuratezza al traguardo, tasso di visita ai pit-stop e tasso di completamento degli ostacoli) diagnosticano separatamente gli errori di navigazione, utilizzo di strumenti e calcolo. Valutando tre framework di agenti su 1.400 tappe, il migliore raggiunge solo il 37,2% di accuratezza. Gli errori di navigazione dominano (dal 27% al 52% dei tentativi) mentre gli errori nell'uso degli strumenti rimangono sotto il 17%, e l'architettura dell'agente conta tanto quanto la scala del modello (Claude Code eguaglia Codex CLI al 37% con 6 volte meno token). La struttura compositiva di AAR rivela che gli agenti falliscono non nel chiamare gli strumenti ma nel navigare verso le pagine giuste, un punto cieco invisibile ai benchmark lineari. La pagina del progetto è accessibile all'indirizzo: https://minnesotanlp.github.io/the-amazing-agent-race
Questo articolo fornisce una panoramfica della NTIRE 2026 Challenge sulla Predizione della Salienza Video. L'obiettivo dei partecipanti alla challenge era sviluppare metodi automatici per la predizione di mappe di salienza per le sequenze video fornite. Per questa competizione è stato preparato un nuovo dataset, rilasciato con licenza aperta, comprendente 2.000 video diversi. Le fissazioni oculari e le corrispondenti mappe di salienza sono state raccolte mediante tracciamento del mouse crowdsourcing e contengono dati di visualizzazione provenienti da oltre 5.000 valutatori. La valutazione è stata condotta su un sottoinsieme di 800 video di test utilizzando metriche di qualità generalmente accettate. La challenge ha attratto oltre 20 team che hanno presentato contributi, e 7 team hanno superato la fase finale, che includeva una revisione del codice. Tutti i dati utilizzati in questa challenge sono resi pubblicamente disponibili all'indirizzo: https://github.com/msu-video-group/NTIRE26_Saliency_Prediction.
La segmentazione dell'adenocarcinoma duttale pancreatico (PDAC) sulla TC con mezzo di contrasto è intrinsecamente ambigua: la discrepanza tra valutatori esperti riflette una genuina incertezza piuttosto che un rumore di annotazione. Gli approcci standard di deep learning presuppongono una singola verità di base, producendo output probabilistici che possono essere scarsamente calibrati e di difficile interpretazione in tale contesto di ambiguità. Presentiamo TwinTrack, un framework che colma questa lacuna attraverso la calibrazione post-hoc delle probabilità di segmentazione di ensemble rispetto alla risposta umana media empirica (MHR) - la frazione di annotatori esperti che classifica un voxel come tumore. Le probabilità calibrate sono quindi direttamente interpretabili come la proporzione attesa di annotatori che assegnano l'etichetta di tumore, modellando esplicitamente la discrepanza inter-valutatore. La procedura di calibrazione post-hoc proposta è semplice e richiede solo un piccolo set di calibrazione multi-valutatore. Migliora costantemente le metriche di calibrazione rispetto agli approcci standard quando valutata sul benchmark multi-valutatore MICCAI 2025 CURVAS-PDACVI.
Con l'aumento della praticità della creazione video assistita dall'IA, l'editing video guidato da istruzioni è diventato essenziale per perfezionare filmati generati o catturati, al fine di soddisfare requisiti professionali. Tuttavia, il campo manca ancora sia di un dataset su larga scala, annotato da esseri umani, con esempi di editing completi, sia di un valutatore standardizzato per confrontare i sistemi di editing. Le risorse esistenti sono limitate dalla piccola scala, dall'assenza di output modificati o dalla mancanza di etichette umane sulla qualità, mentre la valutazione attuale si basa spesso su costose ispezioni manuali o su giudici generici di modelli visione-linguaggio non specializzati nella qualità dell'editing. Presentiamo VEFX-Dataset, un dataset annotato da esseri umani contenente 5.049 esempi di editing video across 9 categorie principali e 32 sottocategorie, ciascuno etichettato lungo tre dimensioni disaccoppiate: Rispetto dell'Istruzione, Qualità del Rendering ed Esclusività della Modifica. Basandoci su VEFX-Dataset, proponiamo VEFX-Reward, un modello di reward progettato specificamente per la valutazione della qualità dell'editing video. VEFX-Reward elabora congiuntamente il video sorgente, l'istruzione di editing e il video modificato, e prevede punteggi di qualità per dimensione tramite regressione ordinale. Rilasciamo inoltre VEFX-Bench, un benchmark di 300 coppie video-prompt curate per il confronto standardizzato dei sistemi di editing. Gli esperimenti mostrano che VEFX-Reward si allinea maggiormente con i giudizi umani rispetto ai giudici VLM generici e ai precedenti modelli di reward, sia sulle metriche standard IQA/VQA che sulla valutazione delle preferenze per gruppi. Utilizzando VEFX-Reward come valutatore, analizziamo i sistemi di editing video commerciali e open-source rappresentativi, rivelando un divario persistente tra plausibilità visiva, aderenza all'istruzione e località della modifica nei modelli attuali.
Presentiamo ArtifactNet, un framework leggero che rileva la musica generata da IA riformulando il problema come fisica forense, estraendo e analizzando gli artefatti fisici che i codec neurali audio imprimono inevitabilmente sull'audio generato. Una UNet con maschera limitata (ArtifactUNet, 3,6 milioni di parametri) estrae i residui del codec dagli spettrogrammi di magnitudine, che vengono poi scomposti tramite HPSS in caratteristiche forensi a 7 canali per la classificazione da parte di una CNN compatta (0,4 milioni di parametri; 4,0 milioni totali). Introduciamo ArtifactBench, un benchmark di valutazione multi-generatore che comprende 6.183 brani (4.383 generati da IA da 22 generatori e 1.800 reali da 6 fonti diverse). Ogni brano è etichettato con `bench_origin` per una valutazione zero-shot equa. Sulla partizione di test non vista (n=2.263), ArtifactNet raggiunge un F1 = 0,9829 con FPR = 1,49%, rispetto a CLAM (F1 = 0,7576, FPR = 69,26%) e SpecTTTra (F1 = 0,7713, FPR = 19,43%) valutati in condizioni identiche con checkpoint pubblicati. L'addestramento codec-aware (aumento dati 4-vie WAV/MP3/AAC/Opus) riduce ulteriormente la deriva probabilistica cross-codec dell'83% (Delta = 0,95 -> 0,16), risolvendo la principale modalità di fallimento dell'invarianza al codec. Questi risultati stabiliscono la fisica forense – l'estrazione diretta di artefatti a livello di codec – come un paradigma più generalizzabile ed efficiente in termini di parametri per il rilevamento della musica AI rispetto all'apprendimento di rappresentazioni, utilizzando 49x parametri in meno rispetto a CLAM e 4,8x in meno rispetto a SpecTTTra.