Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli mondiali basati su video si sono affermati seguendo due paradigmi dominanti: la generazione video e la ricostruzione 3D. Tuttavia, i benchmark di valutazione esistenti si concentrano in modo ristretto sulla fedeltà visiva e sull'allineamento testo-video per i modelli generativi, oppure si basano su metriche statiche di ricostruzione 3D che trascurano fondamentalmente le dinamiche temporali. Sosteniamo che il futuro della modellazione del mondo risieda nella generazione 4D, che modella congiuntamente la struttura spaziale e l'evoluzione temporale. In questo paradigma, la capacità fondamentale è la risposta interattiva: l'abilità di riflettere fedelmente come le azioni di interazione guidano le transizioni di stato attraverso lo spazio e il tempo. Tuttavia, nessun benchmark esistente valuta sistematicamente questa dimensione critica. Per colmare questa lacuna, proponiamo Omni-WorldBench, un benchmark completo specificamente progettato per valutare le capacità di risposta interattiva dei modelli mondiali in contesti 4D. Omni-WorldBench comprende due componenti chiave: Omni-WorldSuite, una suite sistematica di prompt che copre diversi livelli di interazione e tipi di scenari; e Omni-Metrics, un framework di valutazione basato su agenti che quantifica le capacità di modellazione del mondo misurando l'impatto causale delle azioni di interazione sia sugli esiti finali che sulle traiettorie di evoluzione degli stati intermedi. Abbiamo condotto valutazioni estensive di 18 modelli mondiali rappresentativi appartenenti a molteplici paradigmi. La nostra analisi rivela limitazioni critiche degli attuali modelli mondiali nella risposta interattiva, fornendo spunti operativi per la ricerca futura. Omni-WorldBench sarà rilasciato pubblicamente per promuovere il progresso nella modellazione interattiva del mondo 4D.
Presentiamo daVinci-MagiHuman, un modello generativo fondazionale audio-video open-source per la generazione di contenuti incentrati sull'essere umano. daVinci-MagiHuman genera congiuntamente video e audio sincronizzati utilizzando un Transformer a flusso singolo che elabora testo, video e audio all'interno di una sequenza di token unificata, basandosi esclusivamente sul meccanismo di self-attention. Questa architettura a flusso singolo evita la complessità delle architetture multi-flusso o basate su cross-attention, rimanendo allo stesso tempo semplice da ottimizzare con infrastrutture standard di training e inferenza. Il modello è particolarmente efficace negli scenari incentrati sull'uomo, producendo performance facciali espressive, una coordinazione naturale tra eloquio ed espressione, movimenti corporei realistici e una sincronizzazione audio-video precisa. Supporta la generazione di parlato multilingue in cinese (mandarino e cantonese), inglese, giapponese, coreano, tedesco e francese. Per un'inferenza efficiente, combiniamo il backbone a flusso singolo con tecniche di distillazione del modello, super-risoluzione nello spazio latente e un decoder Turbo VAE, consentendo la generazione di un video da 5 secondi a 256p in 2 secondi su una singola GPU H100. Nella valutazione automatica, daVinci-MagiHuman raggiunge la più alta qualità visiva e allineamento al testo tra i principali modelli open, insieme al più basso tasso di errore sul riconoscimento delle parole (14.60%) per l'intelligibilità del parlato. In una valutazione umana a confronto diretto, ottiene tassi di preferenza dell'80.0% contro Ovi 1.1 e del 60.9% contro LTX 2.3 su 2000 confronti. Rilasciamo come open-source l'intero stack del modello, incluso il modello base, il modello distillato, il modello di super-risoluzione e il codebase per l'inferenza.
L'addestramento di agenti di ricerca approfonditi richiede traiettorie a lungo termine che intercalano ricerca, aggregazione di evidenze e ragionamento a più fasi. Tuttavia, le pipeline esistenti per la raccolta di dati si basano tipicamente su API web proprietarie, rendendo la sintesi di traiettorie su larga scala costosa, instabile e difficile da riprodurre. Presentiamo OpenResearcher, una pipeline riproducibile che disaccoppia il bootstrap one-time del corpus dalla sintesi di traiettorie multi-turn ed esegue il ciclo di ricerca e navigazione interamente offline utilizzando tre primitive esplicite del browser: ricerca, apertura e trova, su un corpus di 15 milioni di documenti. Utilizzando GPT-OSS-120B come modello insegnante, sintetizziamo oltre 97.000 traiettorie, inclusa una coda sostanziale a lungo termine con oltre 100 chiamate a strumenti. Il fine-tuning supervisionato di un modello backbone 30B-A3B su queste traiettorie raggiunge un'accuratezza del 54,8% su BrowseComp-Plus, un miglioramento di +34,0 punti rispetto al modello base, mantenendo al contempo competitività su BrowseComp, GAIA e xbench-DeepSearch. Poiché l'ambiente è offline e completamente strumentato, esso consente anche analisi controllate; il nostro studio rivela insight pratici sulla progettazione di pipeline di ricerca approfondita, incluse strategie di filtraggio dei dati, scelte di configurazione dell'agente e come il successo del retrieval si relazioni all'accuratezza della risposta finale. Rilasciamo la pipeline, le traiettorie sintetizzate, i checkpoint del modello e l'ambiente di ricerca offline all'indirizzo https://github.com/TIGER-AI-Lab/OpenResearcher.
I modelli visione-linguaggio (VLM) elaborano tipicamente le immagini alla loro risoluzione nativa elevata, imponendo un compromesso tra accuratezza ed efficienza computazionale: gli input ad alta risoluzione catturano i dettagli fini ma comportano costi computazionali significativi, mentre gli input a bassa risoluzione, sebbene favoriscano l'efficienza, rischiano di perdere informazioni visive critiche, come il testo piccolo. Presentiamo AwaRes, un framework spaziale on-demand che risolve questo compromesso accuratezza-efficienza operando su una vista globale a bassa risoluzione e utilizzando tool-calling per recuperare solo i segmenti ad alta risoluzione necessari per una determinata query. Costruiamo i dati supervisionati automaticamente: un giudice confronta le risposte a bassa versus alta risoluzione per etichettare se è necessario un ritaglio, e un modello di grounding oracolo localizza l'evidenza per la risposta corretta, che mappiamo su un insieme discreto di ritagli per formare traiettorie di uso strumenti multi-turno. Addestriamo il nostro framework con SFT a freddo (cold-start) seguito da GRPO multi-turno con una ricompensa composita che combina la correttezza semantica della risposta con penalità esplicite sul costo dei ritagli. Pagina del progetto: https://nimrodshabtay.github.io/AwaRes
Introduciamo LongCat-Flash-Prover, un modello open-source flagship da 560 miliardi di parametri basato su Mixture-of-Experts (MoE) che avanza il Ragionamento Formale Nativo in Lean4 attraverso un ragionamento agentivo integrato con strumenti (TIR). Scomponiamo il compito del ragionamento formale nativo in tre capacità formali indipendenti: auto-formalizzazione, abbozzo (sketching) e dimostrazione. Per facilitare queste capacità, proponiamo un Hybrid-Experts Iteration Framework per espandere traiettorie di compito di alta qualità, inclusa la generazione di un enunciato formale basato su un dato problema informale, la produzione di un'intera dimostrazione direttamente dall'enunciato, o di uno schema in stile lemma. Durante l'RL agentivo, presentiamo un algoritmo di Hierarchical Importance Sampling Policy Optimization (HisPO), che mira a stabilizzare l'addestramento del modello MoE su tali compiti a lungo orizzonte. Esso impiega una strategia di mascheramento del gradiente che tiene conto dell'obsolescenza della policy e delle intrinseche discrepanze tra il motore di addestramento e quello di inferenza, sia a livello di sequenza che di token. Inoltre, incorporiamo meccanismi di rilevamento della consistenza dei teoremi e della legalità per eliminare problemi di reward hacking. Valutazioni estensive mostrano che il nostro LongCat-Flash-Prover stabilisce un nuovo stato dell'arte per i modelli open-weights sia nell'auto-formalizzazione che nella dimostrazione di teoremi. Dimostrando un'efficienza campionaria notevole, raggiunge un tasso di successo del 97.1% su MiniF2F-Test utilizzando solo un budget di inferenza di 72 per problema. Su benchmark più impegnativi, risolve il 70.8% di ProverBench e il 41.5% di PutnamBench con non più di 220 tentativi per problema, superando significativamente le baseline open-weights esistenti.
La comprensione di video lunghi rimane una sfida per i modelli linguistici multimodali di grandi dimensioni (MLLM) a causa dei contesti limitati, che richiedono l'identificazione di segmenti video rilevanti per la query in modo sparso. Tuttavia, i metodi esistenti localizzano principalmente gli indizi basandosi esclusivamente sulla query, trascurando la struttura intrinseca del video e la diversa rilevanza tra i segmenti. Per affrontare questo problema, proponiamo VideoDetective, un framework che integra la rilevanza query-segmento e l'affinità inter-segmento per una caccia efficace agli indizi nelle attività di question answering su video lunghi. Nello specifico, suddividiamo un video in vari segmenti e li rappresentiamo come un grafo di affinità visivo-temporale costruito sulla similarità visiva e prossimità temporale. Eseguiamo quindi un ciclo Ipotesi-Verifica-Affinamento per stimare i punteggi di rilevanza dei segmenti osservati rispetto alla query e propagarli ai segmenti non visti, producendo una distribuzione di rilevanza globale che guida la localizzazione dei segmenti più critici per la risposta finale con osservazione sparsa. Gli esperimenti mostrano che il nostro metodo ottiene consistentemente miglioramenti sostanziali su un'ampia gamma di MLLM principali su benchmark rappresentativi, con incrementi di accuratezza fino al 7.5% su VideoMME-long. Il nostro codice è disponibile su https://videodetective.github.io/
Nonostante il notevole successo dei modelli di rappresentazione d'immagine pre-addestrati su larga scala (cioè, encoder visivi) in varie attività di visione artificiale, essi sono prevalentemente addestrati su dati d'immagine 2D e pertanto spesso non riescono a cogliere le relazioni spaziali 3D tra oggetti e sfondi nel mondo reale, limitando la loro efficacia in molte applicazioni downstream. Per affrontare questo problema, proponiamo SpatialBoost, un framework scalabile che migliora la consapevolezza spaziale degli encoder visivi pre-addestrati esistenti iniettando conoscenza spaziale 3D espressa in descrizioni linguistiche. L'idea centrale prevede la conversione delle dense informazioni spaziali 3D da immagini 2D in espressioni linguistiche, che vengono poi utilizzate per iniettare tale conoscenza spaziale negli encoder visivi attraverso un Large Language Model (LLM). A tal fine, adottiamo un processo di ragionamento a catena del pensiero (Chain-of-Thought, CoT) a più turni che incorpora progressivamente la conoscenza spaziale densa e costruisce una comprensione spaziale gerarchica. Per validare l'efficacia, adattiamo SpatialBoost a encoder visivi all'avanguardia come DINOv3 e ne valutiamo i miglioramenti delle prestazioni su un'ampia gamma di benchmark che richiedono sia percezione 3D che abilità visive generali. Ad esempio, SpatialBoost migliora le prestazioni di DINOv3 da 55,9 a 59,7 mIoU su ADE20K, raggiungendo prestazioni allo stato dell'arte con un guadagno del 3,8% rispetto al DINOv3 pre-addestrato.
Mentre i recenti progressi negli spazi latenti generativi hanno guidato sostanziali avanzamenti nella generazione di immagini singole, lo spazio latente ottimale per la sintesi di nuove viste (Novel View Synthesis, NVS) rimane in gran parte inesplorato. In particolare, la NVS richiede una generazione geometricamente coerente tra diversi punti di vista, ma gli approcci esistenti operano tipicamente in uno spazio latente VAE indipendente dalla vista. In questo articolo, proponiamo la Geometric Latent Diffusion (GLD), un framework che riadatta lo spazio delle feature geometricamente coerenti dei modelli fondazionali geometrici come spazio latente per la diffusione multi-vista. Dimostriamo che queste feature non solo supportano una ricostruzione RGB ad alta fedeltà, ma codificano anche forti corrispondenze geometriche tra le viste, fornendo uno spazio latente ben adatto per la NVS. I nostri esperimenti dimostrano che GLD supera sia VAE che RAE nelle metriche di qualità dell'immagine 2D e di coerenza 3D, accelerando al contempo l'addestramento di oltre 4,4 volte rispetto allo spazio latente VAE. È degno di nota che GLD rimanga competitivo con i metodi all'avanguardia che sfruttano il pre-addestramento su larga scala text-to-image, nonostante addestri il suo modello di diffusione da zero senza tale pre-addestramento generativo.
L'addestramento corrente dei modelli linguistici applica comunemente un fine-tuning supervisionato (SFT) multi-task utilizzando un budget computazionale omogeneo su tutti i sotto-dataset. Questo approccio è fondamentalmente sub-ottimale: dinamiche di apprendimento eterogenee causano una sovradattamento precoce dei task a apprendimento più rapido, mentre quelli più lenti rimangono sotto-addestrati. Per affrontare questo problema, introduciamo mSFT, un algoritmo di ricerca iterativo e consapevole del sovradattamento per miscele di dati multi-task. mSFT addestra il modello su una miscela attiva, identifica ed esclude il sotto-dataset che va per primo in sovradattamento, e ritorna al checkpoint ottimale specifico prima di proseguire. Valutazioni estensive dimostrano che mSFT supera costantemente 4 baseline su 10 benchmark e 6 modelli base. Ulteriori analisi confermano che mSFT mantiene robusti miglioramenti su diverse dimensioni dei dataset, granularità dei task, ed è insensibile al suo unico nuovo iperparametro (budget computazionale). Notevolmente, con un budget computazionale ridotto, mSFT può migliorare le prestazioni riducendo allo stesso tempo i FLOPs di addestramento. In definitiva, mSFT stabilisce un algoritmo pratico e consapevole del sovradattamento per l'SFT multi-task che massimizza il potenziale dei modelli su diverse miscele di dati.
I metodi di Ottimizzazione delle Politiche Relative di Gruppo (GRPO) per la generazione video, come FlowGRPO, rimangono notevolmente meno affidabili rispetto alle loro controparti per modelli linguistici e immagini. Questo divario sorge perché la generazione video ha uno spazio delle soluzioni complesso, e la conversione da ODE a SDE utilizzata per l'esplorazione può iniettare rumore eccessivo, riducendo la qualità dei rollout e rendendo le stime della ricompensa meno affidabili, il che destabilizza l'allineamento post-addestramento. Per affrontare questo problema, consideriamo il modello pre-addestrato come definente una valida varietà dei dati video e formuliamo il problema centrale come il vincolare l'esplorazione all'interno delle vicinanze di questa varietà, garantendo che la qualità del rollout sia preservata e che le stime della ricompensa rimangano affidabili. Proponiamo SAGE-GRPO (Allineamento Stabile tramite Esplorazione), che applica vincoli sia a livello micro che macro. A livello micro, deriviamo una SDE precisa e consapevole della varietà con una correzione logaritmica della curvatura e introduciamo un equalizzatore della norma del gradiente per stabilizzare il campionamento e gli aggiornamenti attraverso i passi temporali. A livello macro, utilizziamo una regione di fiducia duale con un'ancora mobile periodica e vincoli passo-passo in modo che la regione di fiducia segua checkpoint più vicini alla varietà e limiti la deriva a lungo termine. Valutiamo SAGE-GRPO su HunyuanVideo1.5 utilizzando il VideoAlign originale come modello di ricompensa e osserviamo miglioramenti consistenti rispetto ai metodi precedenti nelle metriche VQ, MQ, TA e visive (CLIPScore, PickScore), dimostrando una performance superiore sia nella massimizzazione della ricompensa che nella qualità video complessiva. Il codice e la galleria visiva sono disponibili all'indirizzo https://dungeonmassster.github.io/SAGE-GRPO-Page/.
I metodi feed-forward di 3D Gaussian Splatting consentono una ricostruzione single-pass e un rendering in tempo reale. Tuttavia, essi adottano tipicamente pipeline rigide pixel-to-Gaussian o voxel-to-Gaussian che allocano i Gaussian in modo uniforme, portando a Gaussian ridondanti tra le diverse viste. Inoltre, mancano di un meccanismo efficace per controllare il numero totale di Gaussian mantenendo al contempo la fedeltà della ricostruzione. Per affrontare queste limitazioni, presentiamo F4Splat, che esegue una densificazione predittiva feed-forward per il 3D Gaussian Splatting feed-forward, introducendo una strategia di allocazione guidata da un punteggio di densificazione che distribuisce i Gaussian in modo adattivo in base alla complessità spaziale e alla sovrapposizione multi-vista. Il nostro modello predice punteggi di densificazione per regione per stimare la densità di Gaussian richiesta e consente un controllo esplicito sul budget finale di Gaussian senza necessità di riaddestramento. Questa allocazione spazialmente adattiva riduce la ridondanza nelle regioni semplici e minimizza i Gaussian duplicati tra viste sovrapposte, producendo rappresentazioni 3D compatte ma di alta qualità. Esperimenti estensivi dimostrano che il nostro modello raggiunge prestazioni superiori nella sintesi di nuove viste rispetto ai precedenti metodi feed-forward non calibrati, utilizzando un numero significativamente inferiore di Gaussian.
La rilevazione 3D open-vocabulary mira a localizzare e riconoscere oggetti al di là di una tassonomia di addestramento fissa. Negli ambienti multi-vista RGB, gli approcci recenti spesso disaccoppiano la costruzione di istanze basata sulla geometria dall'etichettatura semantica, generando frammenti classe-agnostici e assegnando categorie open-vocabulary in un secondo momento. Sebbene flessibile, tale disaccoppiamento fa sì che la costruzione delle istanze sia governata principalmente dalla coerenza geometrica, senza vincoli semantici durante la fusione. Quando l'evidenza geometrica è dipendente dalla vista e incompleta, questa fusione basata solo sulla geometria può portare a errori di associazione irreversibili, inclusa la sovra-fusione di oggetti distinti o la frammentazione di una singola istanza. Proponiamo Group3D, un framework di rilevazione 3D open-vocabulary multi-vista che integra vincoli semantici direttamente nel processo di costruzione delle istanze. Group3D mantiene un vocabolario adattivo alla scena derivato da un modello linguistico multimodale di grandi dimensioni (MLLM) e lo organizza in gruppi di compatibilità semantica che codificano plausibili equivalenze di categoria cross-vista. Questi gruppi agiscono come vincoli al momento della fusione: i frammenti 3D vengono associati solo quando soddisfano sia la compatibilità semantica che la coerenza geometrica. Questa fusione semanticamente controllata mitiga la sovra-fusione guidata dalla geometria, assorbendo al contempo la variabilità di categoria multi-vista. Group3D supporta sia impostazioni con pose note che libere, basandosi solo su osservazioni RGB. Esperimenti su ScanNet e ARKitScenes dimostrano che Group3D raggiunge prestazioni all'avanguardia nella rilevazione 3D open-vocabulary multi-vista, mostrando al contempo una forte generalizzazione in scenari zero-shot. La pagina del progetto è disponibile all'indirizzo https://ubin108.github.io/Group3D/.
Migliorare il ragionamento embodied nei modelli linguistici multimodali di grandi dimensioni (MLLM) è essenziale per costruire modelli visione-linguaggio-azione (VLA) su di essi, al fine di tradurre prontamente la comprensione multimodale in azioni di basso livello. Di conseguenza, recenti lavori hanno esplorato il potenziamento del ragionamento embodied negli MLLM mediante supervisione di tipo vision-question-answering. Tuttavia, è stato riferito che questi approcci comportano prestazioni VLA instabili, spesso producendo solo miglioramenti marginali o addirittura negativi. In questo articolo, proponiamo un framework di training MLLM più sistematico, RoboAlign, che migliora in modo affidabile le prestazioni VLA. La nostra idea chiave è campionare token d'azione tramite ragionamento in linguaggio naturale zero-shot e affinare questo ragionamento utilizzando l'apprendimento per rinforzo (RL) per migliorare l'accuratezza delle azioni. Di conseguenza, RoboAlign colma il divario di modalità tra linguaggio e azioni di basso livello negli MLLM e facilita il trasferimento di conoscenza dall'MLLM al VLA. Per validare l'efficacia di RoboAlign, addestriamo VLA aggiungendo una testa d'azione basata su diffusion su un backbone MLLM e li valutiamo su principali benchmark di robotica. Notevolmente, eseguendo l'allineamento basato su RL dopo SFT utilizzando meno dell'1% dei dati, RoboAlign raggiunge miglioramenti prestazionali del 17,5%, 18,9% e 106,6% rispetto ai baseline SFT rispettivamente su ambienti LIBERO, CALVIN e del mondo reale.
I grandi modelli linguistici (LLM) manifestano allucinazioni in compiti ad alta intensità di conoscenza. La generazione aumentata dal recupero basata su grafi (Graph-based RAG) è emersa come una soluzione promettente, tuttavia gli approcci esistenti soffrono di limitazioni fondamentali di richiamo e precisione quando operano su grafi conoscitivi a scatola chiusa (black-box) – grafi il cui schema e struttura non sono noti a priori. Identifichiamo tre sfide fondamentali che causano perdita di richiamo (incertezza nell'istanziazione semantica e incertezza del percorso strutturale) e perdita di precisione (incertezza nel confronto probatorio). Per affrontare queste sfide, formalizziamo il compito di recupero come il problema del Recupero del Sottografo Informativo Ottimale (Optimal Informative Subgraph Retrieval - OISR) – una variante dell'Albero di Steiner di Gruppo – e dimostriamo che è NP-difficile e APX-difficile. Proponiamo BubbleRAG, una pipeline senza fase di addestramento (training-free) che ottimizza sistematicamente sia il richiamo che la precisione attraverso il raggruppamento di ancore semantiche, l'espansione euristica a bolla per scoprire grafi di evidenza candidati (Candidate Evidence Graphs - CEGs), il ranking composito e l'espansione consapevole del ragionamento (reasoning-aware). Esperimenti su benchmark di QA multi-hop dimostrano che BubbleRAG raggiunge risultati all'avanguardia, superando baseline solide sia in F1 che in accuratezza, rimanendo al contempo plug-and-play.
L'apprendimento per rinforzo con ricompense verificabili (RLVR) ha migliorato significativamente le capacità di ragionamento dei grandi modelli linguistici. Sebbene le analisi esistenti identifichino che i cambiamenti indotti dall'RLVR sono sparsi, si concentrano principalmente sull'entità di questi aggiornamenti, trascurandone in larga misura la direzione. In questo lavoro, sosteniamo che la direzione degli aggiornamenti sia una lente più critica per comprendere gli effetti dell'RLVR, che può essere catturata dalla differenza logaritmica delle probabilità a livello di token con segno, Δlog p, tra i modelli base e quelli finali addestrati con RLVR. Attraverso analisi statistiche e interventi di sostituzione dei token, dimostriamo che Δlog p identifica più efficacemente aggiornamenti sparsi ma cruciali per il ragionamento rispetto a metriche basate sull'entità (ad esempio, divergenza o entropia). Sulla base di questa intuizione, proponiamo due applicazioni pratiche: (1) un metodo di estrapolazione a tempo di test che amplifica la politica lungo la direzione appresa di Δlog p per migliorare l'accuratezza del ragionamento senza ulteriore addestramento; (2) un metodo di ripesatura a tempo di addestramento che focalizza l'apprendimento sui token a bassa probabilità (corrispondenti a un Δlog p più alto), il che migliora le prestazioni di ragionamento attraverso modelli e benchmark. Il nostro lavoro stabilisce la direzione del cambiamento come un principio chiave per analizzare e migliorare l'RLVR.
L'addestramento post-allenamento per compiti agentici a lungo orizzonte presenta una tensione tra efficienza computazionale e generalizzazione. Sebbene il supervised fine-tuning (SFT) sia efficiente dal punto di vista computazionale, spesso soffre di un degrado fuori dominio (out-of-domain, OOD). Al contrario, il reinforcement learning end-to-end (RL E2E) preserva le capacità OOD, ma comporta costi computazionali elevati a causa dei numerosi turni di rollout on-policy. Introduciamo PivotRL, un framework innovativo che opera sulle traiettorie SFT esistenti per combinare l'efficienza computazionale dell'SFT con l'accuratezza OOD del RL E2E. PivotRL si basa su due meccanismi chiave: primo, esegue rollout on-policy locali e filtra i *pivot*, ovvero turni intermedi informativi in cui le azioni campionate mostrano un'elevata varianza negli esiti; secondo, utilizza ricompense per azioni funzionalmente equivalenti piuttosto che richiedere una corrispondenza stringente con la dimostrazione nei dati SFT. Dimostriamo teoricamente che questi meccanismi incentivano segnali di apprendimento forti con un'elevata norma del gradiente naturale, preservando al massimo l'ordinamento delle probabilità della policy per azioni non correlate ai compiti di addestramento. Rispetto all'SFT standard sugli stessi dati, dimostriamo che PivotRL raggiunge un'accuratezza in dominio superiore in media del +4,17% su quattro domini agentici e un'accuratezza OOD superiore del +10,04% in compiti non agentici. In particolare, sui compiti agentici di programmazione, PivotRL raggiunge un'accuratezza competitiva con il RL E2E utilizzando 4 volte meno turni di rollout. PivotRL è stato adottato da NVIDIA's Nemotron-3-Super-120B-A12B, fungendo da motore principale nell'addestramento post-allenamento agentico su scala produttiva.
Le tecniche esistenti di ottimizzazione dei prompt si basano su segnali locali per aggiornare il comportamento, trascurando spesso modelli più ampi e ricorrenti tra i task, il che porta a una scarsa generalizzazione; inoltre, fanno affidamento su riscritture complete del prompt o fusioni non strutturate, causando una perdita di conoscenza. Queste limitazioni sono amplificate nei flussi di lavoro di ricerca e codifica, che coinvolgono repository eterogenei, ambienti sottospecificati e feedback deboli, dove la riproduzione dei risultati da codebase pubblici è un regime di valutazione consolidato. Introduciamo Reflective Evolving Research Engineer (REVERE), un framework che apprende continuamente dal Contesto di Addestramento Globale, riconosce modalità di errore ricorrenti nelle traiettorie di esecuzione cross-repository, le condensa in euristiche riutilizzabili ed esegue modifiche mirate su tre campi configurabili: il prompt di sistema, un template per il prompt del task e un cheat sheet cumulativo. REVERE, tramite questo framework di ottimizzazione riflessiva, migliora le prestazioni rispetto alle istruzioni expert-crafted state-of-the-art precedenti sui task di codifica della ricerca del 4,50% su SUPER, del 3,51% su ResearchCodeBench e del 4,89% su ScienceAgentBench secondo le rispettive metriche. Questi risultati dimostrano che agenti dotati di meccanismi per l'apprendimento continuo e il consolidamento della memoria globale possono evolvere significativamente le proprie capacità nel tempo.
I modelli che collegano visione e linguaggio, come CLIP, sono componenti chiave dell'IA multimodale, ma i loro dati di addestramento su larga scala e non curati introducono severi bias sociali e spurii. I metodi di debiasing post-hoc esistenti operano spesso direttamente nello spazio denso di embedding di CLIP, dove le informazioni relative al bias e al compito sono fortemente intrecciate. Questo intreccio limita la loro capacità di rimuovere il bias senza degradare la fedeltà semantica. In questo lavoro, proponiamo la Modulazione degli Embedding Sparsi (SEM), un framework di debiasing post-hoc e zero-shot che opera in uno spazio latente di Autoencoder Sparse (SAE). Scomponendo gli embedding testuali di CLIP in caratteristiche disaccoppiate, SEM identifica e modula i neuroni rilevanti per il bias preservando quelli rilevanti per la query. Ciò consente interventi non lineari più precisi. Su quattro dataset di benchmark e due backbone CLIP, SEM ottiene guadagni sostanziali in equità nel retrieval e nella classificazione zero-shot. I nostri risultati dimostrano che le rappresentazioni latenti sparse forniscono una base efficace per il debiasing post-hoc dei modelli visione-linguaggio.
I modelli generativi e gli encoder visivi hanno progredito in gran parte su binari separati, ottimizzati per obiettivi diversi e basati su principi matematici differenti. Tuttavia, condividono una proprietà fondamentale: la Gaussianità dello spazio latente. I modelli generativi mappano rumore Gaussiano in immagini, mentre gli encoder mappano immagini in embedding semantici le cui coordinate si comportano empiricamente come Gaussiani. Ipotesizziamo che entrambi siano visioni di una sorgente latente condivisa, l'Universal Normal Embedding (UNE): uno spazio latente approssimativamente Gaussiano da cui gli embedding degli encoder e il rumore invertito tramite DDIM emergono come proiezioni lineari rumorose. Per testare la nostra ipotesi, introduciamo NoiseZoo, un dataset di latenti per immagine comprendente il rumore di diffusione invertito con DDIM e le corrispondenti rappresentazioni dell'encoder (CLIP, DINO). Su CelebA, probe lineari in entrambi gli spazi producono previsioni forti e allineate degli attributi, indicando che il rumore generativo codifica semantiche significative lungo direzioni lineari. Queste direzioni abilitano inoltre modifiche controllate e fedeli (ad esempio, sorriso, genere, età) senza modifiche architetturali, dove una semplice ortogonalizzazione mitiga gli intrecci spurii. Nel complesso, i nostri risultati forniscono supporto empirico all'ipotesi UNE e rivelano una geometria latente condivisa di tipo Gaussiano che collega concretamente codifica e generazione. Codice e dati sono disponibili su https://rbetser.github.io/UNE/
La Weight-Decomposed Low-Rank Adaptation (DoRA) estende LoRA disaccoppiando la magnitudine dei pesi dalla loro direzione, ma il suo passaggio in avanti richiede la norma riga per riga di W + sBA, un calcolo che ogni framework principale da noi esaminato implementa materializzando il prodotto denso [d_out, d_in] BA. Con d_in = 8192 e rango r = 384, la norma di un singolo modulo richiede circa 512 MB di memoria di lavoro transitoria in bf16, rendendo DoRA ad alto rango costoso e spesso infattibile sulle comuni configurazioni single-GPU quando sono coinvolte centinaia di moduli adattati e il checkpointing. Presentiamo due contributi sistemici. Una *norma fattorizzata* scompone la norma al quadrato in termini di base, incrociati e di Gram calcolabili tramite intermediari di complessità O(d_out r + r^2), eliminando il prodotto denso. Kernel Triton fusi condensano la composizione in quattro kernel di DoRA in un singolo passaggio, riducendo il traffico di memoria di circa 4x e utilizzando una forma numericamente stabile che evita la cancellazione catastrofica nel regime di riscalamento quasi unitario dove, in pratica, si concentrano le scale di magnitudine. Su sei modelli visione-linguaggio (VLM) da 8 a 32B, eseguiti su tre GPU NVIDIA (RTX 6000 PRO, H200, B200) con r = 384 in bf16, l'implementazione fusa è 1.5-2.0x più veloce dell'implementazione DoRA di Hugging Face PEFT per l'inferenza e 1.5-1.9x più veloce per il calcolo del gradiente (escluso lo step dell'ottimizzatore), con un picco di VRAM inferiore fino a 7 GB. Microbenchmark su sei GPU che coprono quattro generazioni architetturali (L40S, A100, RTX 6000 PRO, H200, B200, B300) confermano un speedup del kernel di composizione di 1.5-2.7x. La similarità coseno sui logit finali supera 0.9999 su tutte le coppie modello/GPU, e le curve di addestramento multi-seed corrispondono entro un delta di loss medio per step di 7.1 x 10^-4 su 2000 step.
I Modelli Linguistici di Grande Dimensione (LLM) hanno raggiunto un'affidabilità notevole e capacità avanzate grazie a ragionamenti estesi durante il test. Tuttavia, estendere queste capacità ai Modelli Linguistici Multimodali di Grande Dimensione (MLLM) rimane una sfida significativa a causa di una critica carenza di dati di ragionamento a catena lunga di alta qualità e di pipeline di addestramento ottimizzate. Per colmare questa lacuna, presentiamo un framework unificato di ragionamento visivo multi-agente che si evolve sistematicamente dal nostro modello fondazionale incentrato sulle immagini, Insight-V, verso un'architettura spaziale-temporale generalizzata, Insight-V++. Inizialmente proponiamo una pipeline scalabile di generazione dati, dotata di valutazione multi-granularità, che sintetizza autonomamente traiettorie di ragionamento complesse e strutturate nei domini di immagini e video senza intervento umano. Riconoscendo che supervisionare direttamente gli MLLM con dati così intricati produce risultati sub-ottimali, progettiamo un'architettura duale composta da un agente di ragionamento per eseguire catene analitiche estese e un agente di riepilogo per valutare criticamente e distillare i risultati finali. Sebbene il nostro framework iniziale utilizzasse l'Optimizzazione delle Preferenze Dirette (DPO), la sua natura off-policy ha fondamentalmente limitato il potenziale dell'apprendimento per rinforzo. Per superare queste limitazioni, in particolare per la comprensione di video a lungo orizzonte, Insight-V++ introduce due nuovi algoritmi, ST-GRPO e J-GRPO, che migliorano il ragionamento spaziale-temporale e aumentano la robustezza valutativa. Crucialmente, sfruttando feedback affidabili dall'agente di riepilogo, guidiamo un processo iterativo di generazione di percorsi di ragionamento, riaddestrando l'intero sistema multi-agente in un ciclo continuo e auto-migliorativo. Esperimenti estesi su modelli base come LLaVA-NeXT e Qwen2.5-VL dimostrano significativi guadagni prestazionali su benchmark impegnativi di ragionamento su immagini e video, preservando al contempo solide capacità su compiti tradizionali focalizzati sulla percezione.
Introduciamo Generalized Discrete Diffusion from Snapshots (GDDS), un framework unificato per la modellazione di diffusione discreta che supporta processi di rumore arbitrari su ampi spazi di stati discreti. La nostra formulazione comprende tutti gli approcci esistenti di diffusione discreta, consentendo al contempo una flessibilità significativamente maggiore nella scelta delle dinamiche di corruzione. Il processo di rumore in avanti si basa sull'uniformizzazione e permette una corruzione arbitraria e veloce. Per il processo inverso, deriviamo un semplice evidence lower bound (ELBO) basato su latenti snapshot, invece dell'intero percorso di rumore, che consente l'addestramento efficiente di architetture generative standard con una chiara interpretazione probabilistica. I nostri esperimenti su task di generazione discreta con vocabolario ampio indicano che il framework proposto supera i metodi di diffusione discreta esistenti in termini di efficienza di addestramento e qualità della generazione, e batte per la prima volta i modelli autoregressivi su questa scala. Forniamo il codice insieme a un post sul blog sulla pagina del progetto: https://oussamazekri.fr/gdds{https://oussamazekri.fr/gdds}.
La "singolarità dell'IA" viene spesso erroneamente rappresentata come una mente monolitica e divina. L'evoluzione suggerisce un percorso diverso: l'intelligenza è fondamentalmente plurale, sociale e relazionale. I recenti progressi nell'IA agenziale rivelano che i modelli di ragionamento all'avanguardia, come DeepSeek-R1, non migliorano semplicemente "pensando più a lungo". Invece, simulano interne "società del pensiero", dibattiti cognitivi spontanei che discutono, verificano e riconciliano per risolvere compiti complessi. Inoltre, stiamo entrando in un'era dei centauri uomo-IA: attori ibridi in cui l'agenza collettiva trascende il controllo individuale. Scalare questa intelligenza richiede di passare dall'allineamento diadico (RLHF) verso un allineamento istituzionale. Progettando protocolli digitali, modellati su organizzazioni e mercati, possiamo costruire un'infrastruttura sociale di controlli e contrappesi. La prossima esplosione di intelligenza non sarà un singolo cervello di silicio, ma una società complessa e combinatoria che si specializza e si espande come una città. Nessuna mente è un'isola.
Il routing dinamico dei prompt seleziona automaticamente il modello linguistico più appropriato da un insieme di candidati per ogni query, ottimizzando le prestazioni mentre gestisce i costi. Man mano che gli insiemi di modelli si espandono includendo dozzine di modelli all'avanguardia con differenze prestazionali minime, gli approcci esistenti affrontano sfide significative: le tassonomie di compiti definite manualmente non riescono a cogliere distinzioni granulari delle capacità, mentre router monolitici faticano a differenziare sottili differenze tra compiti diversificati. Proponiamo un'architettura di routing a due stadi che affronta queste limitazioni attraverso la scoperta automatizzata di compiti granulari e la stima della qualità consapevole del compito. Il nostro primo stadio utilizza il clustering basato su grafo per scoprire tipi di compiti latenti e addestra un classificatore per assegnare i prompt ai compiti scoperti. Il secondo stadio utilizza un'architettura mixture-of-experts con teste di previsione specifiche per compito per stime di qualità specializzate. Durante l'inferenza, aggreghiamo le previsioni di entrambi gli stadi per bilanciare la stabilità a livello di compito con l'adattabilità specifica del prompt. Valutato su 10 benchmark con 11 modelli all'avanguardia, il nostro metodo supera costantemente i baseline esistenti e supera il modello individuale più forte, incorrendo in meno della metà del suo costo.
Il riutilizzo e l'invocazione di codice esistente rimangono operazioni costose e inaffidabili, poiché la maggior parte degli strumenti pratici è incorporata in repository di codice eterogenei e manca di interfacce eseguibili standardizzate. Sebbene i modelli linguistici di grandi dimensioni (LLM) e i framework di invocazione di strumenti basati sul Model Context Protocol (MCP) consentano l'esecuzione di compiti in linguaggio naturale, gli approcci attuali si basano fortemente sulla cura e standardizzazione manuale degli strumenti, il che limita fondamentalmente la scalabilità. In questo articolo, proponiamo ToolRosetta, un framework unificato che traduce automaticamente i repository di codice open-source e le API in strumenti compatibili con MCP che possono essere invocati in modo affidabile dagli LLM. Dato un compito utente, ToolRosetta pianifica autonomamente le catene di strumenti, identifica i codebase rilevanti e li converte in servizi MCP eseguibili, consentendo il completamento end-to-end del compito con un intervento umano minimo. Inoltre, ToolRosetta incorpora un livello di ispezione della sicurezza per mitigare i rischi intrinseci nell'esecuzione di codice arbitrario. Esperimenti estesi in diversi domini scientifici dimostrano che ToolRosetta può standardizzare automaticamente un gran numero di strumenti open-source e ridurre lo sforzo umano richiesto per la riproduzione e il deployment del codice. In modo significativo, sfruttando senza soluzione di continuità strumenti open-source specializzati, gli agenti potenziati da ToolRosetta migliorano costantemente le prestazioni di completamento dei compiti rispetto agli LLM commerciali e ai sistemi agentistici esistenti.
La Low Rank Adaptation (LoRA) è la strategia di fine-tuning *de facto* per generare immagini personalizzate a partire da modelli di diffusione pre-addestrati. La scelta di un rango appropriato è estremamente critica, poiché bilancia prestazioni e consumo di memoria, ma attualmente questa decisione è spesso lasciata al consenso della comunità, indipendentemente dalla complessità del soggetto da personalizzare. La ragione è evidente: il costo per selezionare un buon rango per ogni componente LoRA è combinatorio, quindi si opta per soluzioni pratiche come fissare lo stesso rango per tutti i componenti. In questo articolo, compiamo un primo passo per superare questa sfida. Ispirati dai metodi variazionali che apprendono una larghezza adattiva delle reti neurali, lasciamo che i ranghi di ogni livello si adattino liberamente durante il fine-tuning su un soggetto. Raggiungiamo questo obiettivo imponendo un ordinamento di importanza sulle posizioni del rango, incoraggiando efficacemente la creazione di ranghi più alti solo quando strettamente necessario. Qualitativamente e quantitativamente, il nostro approccio, LoRA^2, raggiunge un compromesso competitivo tra DINO, CLIP-I e CLIP-T su 29 soggetti, richiedendo al contempo molta meno memoria e un rango inferiore rispetto alle versioni LoRA con rango elevato. Codice: https://github.com/donaldssh/NotAllLayersAreCreatedEqual.
Gli agenti IA stanno diventando sempre più capaci nello svolgere compiti isolati di ingegneria del software (SWE), come la risoluzione di issue su GitHub. Tuttavia, i task a lungo termine che coinvolgono molteplici sottocompiti interdipendenti presentano ancora sfide sia in termini di accuratezza che di completamento tempestivo. Un approccio naturale per risolvere questi compiti a lungo orizzonte in modo tempestivo è la collaborazione asincrona multi-agente, in cui più agenti lavorano su diverse parti del task contemporaneamente. Tuttavia, l'applicazione efficace di sistemi multi-agente si è rivelata sorprendentemente difficile: le modifiche concorrenti di più agenti interferiscono tra loro, le dipendenze sono difficili da sincronizzare e combinare progressi parziali in un tutto coerente è impegnativo. D'altro canto, gli sviluppatori umani si sono a lungo affidati a infrastrutture di collaborazione mature per gestire queste sfide nei grandi progetti software. Ispirati da questi primitivi di collaborazione, introduciamo la Delegazione Isolata Asincrona Centralizzata (CAID), un paradigma strutturato di coordinamento multi-agente basato su tre primitivi fondamentali dello SWE: delega centralizzata dei task, esecuzione asincrona e workspace isolati. CAID costruisce piani di lavoro consapevoli delle dipendenze attraverso un manager centrale, esegue i sottotask concorrentemente in workspace isolati e consolida i progressi tramite integrazione strutturata con verifica eseguibile basata su test. Nella valutazione empirica, riscontriamo che CAID migliora l'accuratezza rispetto ai baseline ad agente singolo del 26,7% assoluto su task di riproduzione di paper (PaperBench) e del 14,3% su task di sviluppo di librerie Python (Commit0). Attraverso un'analisi sistematica, scopriamo che il branch-and-merge è un meccanismo di coordinamento centrale per la collaborazione multi-agente e che i primitivi SWE come git worktree, git commit e git merge ne consentono la realizzazione in modo affidabile ed eseguibile.
I Large Vision Language Model (LVLM) eccellono nella comprensione semantica ma faticano nel grounding spaziale di dettaglio, poiché il modello deve inferire implicitamente geometrie complesse senza mai produrre un'interpretazione spaziale. Presentiamo Perceptio, un LVLM potenziato percettivamente con capacità di ragionamento spaziale 2D e 3D, abilitato tramite token di segmentazione semantica e token di profondità generati direttamente all'interno della sequenza autoregressiva. Nello specifico, (i) distilliamo un codebook di profondità VQ-VAE da un forte teacher monoculare per tokenizzare la profondità densa in sequenze compatte, e (ii) integriamo token di segmentazione semantica basati su SAM2 e token di profondità VQ-VAE all'interno dell'LLM, in modo che il modello emetta prima i token spaziali e poi risponda. Per stabilizzare la generazione dei token di profondità, introduciamo nuovi obiettivi compositi per i depth-token (loss marker, token e conteggio) e una tecnica di soft-merging per la ricostruzione differenziabile. Adottiamo una strategia di co-addestramento multi-task su dataset diversificati, permettendo al modello di apprendere i token percettivi per affrontare molteplici task downstream. Basandoci su InternVL, Perceptio raggiunge prestazioni state-of-the-art su diversi benchmark: migliora la segmentazione di espressioni referenziali di +0.8/+1.4/+1.1 cIoU su RefCOCO/+/g, aumenta l'accuratezza di comprensione spaziale HardBLINK del 10.3% e l'accuratezza MMBench dell'1.0%, dimostrando che un explicit spatial chain-of-thought rafforza materialmente il grounding spaziale negli LVLM.
I Diffusion Transformer (DiT) alimentano modelli video ad alta fedeltà ma rimangono computazionalmente costosi a causa del processo sequenziale di denoising e dell'oneroso meccanismo di attenzione spazio-temporale. La memorizzazione delle feature senza necessità di addestramento (training-free feature caching) accelera l'inferenza riutilizzando le attivazioni intermedie tra i passi di denoising; tuttavia, i metodi esistenti si basano largamente su un'assunzione di mantenimento di ordine zero (Zero-Order Hold), ovvero riutilizzano le feature memorizzate come istantanee statiche quando lo scostamento globale (global drift) è piccolo. Questo approccio porta spesso ad artefatti di ghosting, sfocature e incoerenze nel moto nelle scene dinamiche. Proponiamo WorldCache, un framework di memorizzazione dinamica vincolata alla percezione (Perception-Constrained Dynamical Caching) che migliora sia il quando che il come riutilizzare le feature. WorldCache introduce soglie adattive al moto, una stima dello scostamento pesata per la salienza, un'approssimazione ottimale tramite blending e warping, e una schedulazione delle soglie consapevole della fase (phase-aware) lungo i passi di diffusione. Il nostro approccio coerente permette un riutilizzo adattivo e coerente con il moto delle feature senza necessità di riaddestramento. Su Cosmos-Predict2.5-2B valutato su PAI-Bench, WorldCache raggiunge un'accelerazione dell'inferenza di 2.3 volte preservando il 99.4% della qualità del baseline, superando sostanzialmente i precedenti approcci di caching senza addestramento. Il nostro codice è accessibile su https://umair1221.github.io/World-Cache/{World-Cache}.
L'apprendimento per rinforzo (RL) sicuro offline mira a individuare politiche che massimizzano la ricompensa a partire da dataset statici, sotto rigorosi vincoli di sicurezza. I metodi esistenti spesso si basano su obiettivi soft di costo atteso o su inferenza generativa iterativa, approcci che possono rivelarsi insufficienti per il controllo in tempo reale in contesti critici per la sicurezza. Proponiamo il Safe Flow Q-Learning (SafeFQL), che estende l'FQL all'RL sicuro offline combinando una funzione di valore della sicurezza ispirata alla raggiungibilità di Hamilton-Jacobi con una politica di flusso efficiente a un singolo passo. SafeFQL apprende il valore della sicurezza tramite una ricorsione di Bellman di auto-consistenza, addestra una politica di flusso mediante clonazione comportamentale e la distilla in un attore a un singolo passo per la selezione di azioni sicure che massimizzano la ricompensa, senza campionamento per rifiuto durante il deployment. Per tenere conto dell'errore di approssimazione nei dati finiti relativo al confine di sicurezza appreso, aggiungiamo una fase di calibrazione mediante prediction conformal che regola la soglia di sicurezza e fornisce una copertura probabilistica della sicurezza con campioni finiti. Empiricamente, SafeFQL scambia un costo di addestramento offline moderatamente più elevato con una latenza di inferenza sostanzialmente inferiore rispetto ai baseline generativi sicuri di tipo diffusion, il che è vantaggioso per il deployment in tempo reale in contesti critici per la sicurezza. In vari task, tra cui la navigazione di barche e quelli di Safety Gymnasium MuJoCo, SafeFQL eguaglia o supera le prestazioni precedenti dell'RL sicuro offline, riducendo al contempo sostanzialmente le violazioni dei vincoli.
Le vocalizzazioni animali forniscono informazioni cruciali per la valutazione della fauna selvatica, specialmente in ambienti complessi come le foreste, facilitando l'identificazione delle specie e il monitoraggio ecologico. I recenti progressi nel deep learning hanno reso possibile la classificazione automatica delle specie a partire dalle loro vocalizzazioni. Tuttavia, classificare specie non presenti durante l'addestramento rimane una sfida. Per affrontare questa limitazione, presentiamo AnimalCLAP, un framework linguaggio-audio consapevole della tassonomia, composto da un nuovo dataset e un modello che incorporano informazioni biologiche gerarchiche. Nello specifico, il nostro dataset di vocalizzazioni consiste in 4.225 ore di registrazioni che coprono 6.823 specie, annotate con 22 tratti ecologici. Il modello AnimalCLAP viene addestrato su questo dataset per allineare le rappresentazioni audio e testuali utilizzando le strutture tassonomiche, migliorando il riconoscimento di specie non viste. Dimostriamo che il nostro modello proposto inferisce efficacemente attributi ecologici e biologici delle specie direttamente dalle loro vocalizzazioni, raggiungendo prestazioni superiori rispetto a CLAP. Il nostro dataset, il codice e i modelli saranno pubblicamente disponibili all'indirizzo https://dahlian00.github.io/AnimalCLAP_Page/.
I modelli world apprendono a prevedere gli stati futuri di un ambiente, abilitando la pianificazione e la simulazione mentale. Gli approcci attuali adottano per default predittori basati su Transformer che operano in spazi latenti appresi. Ciò comporta un costo: computazione O(N^2) e assenza di un bias induttivo spaziale esplicito. Questo articolo solleva una questione fondamentale: l'auto-attenzione è necessaria per la modellazione world predittiva, oppure substrati computazionali alternativi possono ottenere risultati comparabili o superiori? Introduco FluidWorld, un modello world proof-of-concept le cui dinamiche predittive sono governate da equazioni alle derivate parziali (PDE) di tipo reazione-diffusione. Invece di utilizzare un predittore a rete neurale separato, è l'integrazione delle PDE stesse a produrre la previsione dello stato futuro. In un'ablazione a tre vie rigorosamente equiparata per parametri sulla previsione video incondizionata UCF-101 (64x64, ~800K parametri, encoder, decoder, loss e dati identici), FluidWorld viene confrontato sia con una baseline Transformer (auto-attenzione) che con una baseline ConvLSTM (ricorrenza convoluzionale). Sebbene tutti e tre i modelli convergano verso una loss predittiva a singolo passo comparabile, FluidWorld raggiunge un errore di ricostruzione 2 volte inferiore, produce rappresentazioni con una preservazione della struttura spaziale del 10-15% superiore e una dimensionalità effettiva del 18-25% maggiore, e, aspetto cruciale, mantiene rollout multi-passo coerenti laddove entrambe le baseline si degradano rapidamente. Tutti gli esperimenti sono stati condotti su un singolo PC consumer (Intel Core i5, NVIDIA RTX 4070 Ti), senza alcun calcolo su larga scala. Questi risultati stabiliscono che le dinamiche basate su PDE, che forniscono nativamente complessità spaziale O(N), computazione adattiva e coerenza spaziale globale attraverso la diffusione, sono un'alternativa valida ed efficiente in parametri sia all'attenzione che alla ricorrenza convoluzionale per la modellazione world.
I modelli linguistici di diffusione (DLM) offrono vantaggi interessanti rispetto ai modelli auto-regressivi (AR), come il decoding parallelo con attenzione completa e una generazione flessibile. Tuttavia, soffrono di un notevole disallineamento addestramento-inferenza: i DLM vengono addestrati con un obiettivo statico di predizione mascherata a singolo passo, ma vengono utilizzati attraverso una traiettoria di denoising progressivo multi-passo. Proponiamo MemDLM (DLM potenziato con memoria), che riduce questo divario incorporando un processo di denoising simulato nell'addestramento tramite Ottimizzazione Bi-livello. Un ciclo interno aggiorna un insieme di pesi rapidi, formando una Memoria Parametrica che cattura l'esperienza della traiettoria locale di ciascun campione, mentre un ciclo esterno aggiorna il modello base condizionato da questa memoria. Scaricando la pressione di memorizzazione dalle rappresentazioni dei token ai parametri, MemDLM produce una convergenza più rapida e una loss di addestramento inferiore. Inoltre, il ciclo interno può essere riattivato durante l'inferenza come passo di adattamento, producendo ulteriori miglioramenti nella comprensione di contesti lunghi. Scopriamo che, quando attivata durante l'inferenza, questa Memoria Parametrica agisce come un meccanismo emergente di retrieval nei pesi, aiutando MemDLM a ridurre ulteriormente i colli di bottiglia dell'attenzione a livello di token su impegnativi compiti di retrieval "Ago nel Pagliaio". Codice: https://github.com/JarvisPei/MemDLM.
I recenti progressi nelle tecnologie di sintesi vocale consentono di generare parlato sintetico ad alta fedeltà quasi indistinguibile da voci umane reali. Sebbene studi recenti dimostrino l'efficacia di encoder vocali basati su apprendimento auto-supervisionato per il rilevamento di deepfake, questi modelli faticano a generalizzare su parlatori non visti. La nostra analisi quantitativa suggerisce che queste rappresentazioni dell'encoder siano sostanzialmente influenzate dalle informazioni del parlatore, portando i rilevatori a sfruttare correlazioni specifiche del parlante piuttosto che indizi legati ad artefatti. Definiamo questo fenomeno *speaker entanglement*. Per mitigare questa dipendenza, introduciamo SNAP, un framework di annullamento del parlante. Stimiamo un sottospazio del parlante e applichiamo una proiezione ortogonale per sopprimere le componenti dipendenti dal parlante, isolando gli artefatti di sintesi all'interno delle feature residue. Riducendo l'entanglement del parlante, SNAP incentiva i rilevatori a concentrarsi su pattern correlati agli artefatti, portando a prestazioni allo stato dell'arte.
Le reti neurali profonde (DNN) hanno ottenuto notevoli successi nel campo della visione artificiale, ma rimangono altamente vulnerabili agli attacchi avversari. Tra questi, gli attacchi di mimetizzazione alterano l'aspetto visibile di un oggetto per ingannare i rilevatori mantenendo al contempo l'inafferabilità per gli esseri umani. In questo articolo proponiamo un nuovo framework che formula gli attacchi di mimetizzazione veicolare come un problema di editing condizionato delle immagini. Nello specifico, esploriamo strategie di generazione di mimetizzazione a livello di immagine e di scena, e ottimizziamo un ControlNet per sintetizzare veicoli mimetizzati direttamente su immagini reali. Progettiamo un obiettivo unificato che applica congiuntamente la fedeltà strutturale del veicolo, la coerenza stilistica e l'efficacia avversaria. Esperimenti estesi sui dataset COCO e LINZ dimostrano che il nostro metodo raggiunge un'efficacia d'attacco significativamente superiore, portando a una diminuzione superiore al 38% dell'AP50, preservando meglio la struttura del veicolo e migliorando l'inafferabilità percepita dall'uomo rispetto agli approcci esistenti. Inoltre, il nostro framework si generalizza efficacemente a rilevatori black-box non visti e mostra una promettente trasferibilità al mondo fisico. La pagina del progetto è disponibile all'indirizzo https://humansensinglab.github.io/CtrlCamo.
La navigazione audiovisiva consente ad agenti embodied di navigare verso target che emettono suoni sfruttando sia indizi uditivi che visivi. Tuttavia, la maggior parte degli approcci esistenti si basa su risposte impulsive ambientali (RIR) precalcolate per il rendering audio binaurale, limitando gli agenti a posizioni discrete su griglia e portando a osservazioni spazialmente discontinue. Per stabilire un ambiente più realistico, introduciamo la Navigazione Audio-Visiva Semantica in Ambienti Continui (SAVN-CE), dove gli agenti possono muoversi liberamente in spazi 3D e percepire flussi audiovisivi temporalmente e spazialmente coerenti. In questo contesto, i target possono diventare intermittentemente silenziosi o smettere completamente di emettere suoni, causando la perdita di informazioni sul goal da parte degli agenti. Per affrontare questa sfida, proponiamo MAGNet, un modello basato su transformer multimodale che codifica congiuntamente rappresentazioni spaziali e semantiche del goal e integra il contesto storico con indizi di auto-movimento per abilitare un ragionamento sul goal potenziato dalla memoria. Esperimenti completi dimostrano che MAGNet supera significativamente i metodi allo stato dell'arte, raggiungendo un miglioramento assoluto fino al 12,1% nel tasso di successo. Questi risultati evidenziano anche la sua robustezza rispetto a suoni di breve durata e scenari di navigazione a lunga distanza. Il codice è disponibile all'indirizzo https://github.com/yichenzeng24/SAVN-CE.
L’apprendimento per rinforzo (Reinforcement Learning, RL) è fondamentale per far evolvere i Large Language Model (LLM) in agenti autonomi capaci di pianificazione a lungo termine, tuttavia una metodologia pratica per scalare l’RL in ambienti complessi e multi-turno rimane elusiva. Questo articolo presenta uno studio empirico sistematico utilizzando TravelPlanner, un banco di prova impegnativo che richiede l’orchestrazione di strumenti per soddisfare vincoli multifaccettati. Scomponiamo lo spazio di progettazione degli agenti RL lungo 5 assi: modellazione della ricompensa, scalabilità del modello, composizione dei dati, selezione dell’algoritmo e stabilità ambientale. I nostri esperimenti controllati producono 7 risultati chiave, ad esempio: (1) le scelte relative a ricompensa e algoritmo dipendono dalla scala, poiché modelli più piccoli beneficiano di ricompense graduate ed esplorazione potenziata, mentre modelli più grandi convergono efficientemente con ricompense dense più semplici; (2) ~1000 campioni di addestramento con una miscela bilanciata di difficoltà rappresentano un punto ottimale per le prestazioni sia in-dominio che out-of-dominio; e (3) la stabilità ambientale è critica per prevenire il degrado della politica. Basandoci sulla metodologia distillata, i nostri modelli addestrati con RL raggiungono prestazioni all’avanguardia su TravelPlanner, superando significativamente i principali LLM.
La clonazione comportamentale è un paradigma fondamentale nell'apprendimento automatico, che consente l'apprendimento di politiche a partire da dimostrazioni esperte in ambiti come la robotica, la guida autonoma e i modelli generativi. Modelli autoregressivi come il transformer si sono dimostrati straordinariamente efficaci, dai grandi modelli linguistici (LLM) ai sistemi visione-linguaggio-azione (VLA). Tuttavia, l'applicazione di modelli autoregressivi al controllo continuo richiede la discretizzazione delle azioni tramite quantizzazione, una pratica ampiamente adottata ma scarsamente compresa dal punto di vista teorico. Questo articolo fornisce i fondamenti teorici per tale pratica. Analizziamo come l'errore di quantizzazione si propaga lungo l'orizzonte temporale e interagisce con la complessità campionaria statistica. Dimostriamo che la clonazione comportamentale con azioni quantizzate e perdita logaritmica raggiunge una complessità campionaria ottimale, eguagliando i limiti inferiori esistenti, e comporta solo una dipendenza polinomiale dall'errore di quantizzazione rispetto all'orizzonte, a condizione che la dinamica sia stabile e la politica soddisfi una condizione di levigatezza probabilistica. Caratterizziamo inoltre quando diversi schemi di quantizzazione soddisfano o violano questi requisiti e proponiamo un'integrazione basata su modello che migliora provabilmente il limite d'errore senza richiedere la levigatezza della politica. Infine, stabiliamo limiti fondamentali che catturano congiuntamente gli effetti dell'errore di quantizzazione e della complessità statistica.
Studiamo se una gerarchia aperiodica possa offrire un vantaggio strutturale per la compressione senza perdita rispetto alle alternative periodiche. Dimostriamo che le tassellature del quasicristallo di Fibonacci evitano il collasso a profondità finita che affligge le gerarchie periodiche: le posizioni utilizzabili per la ricerca di n-grammi rimangono diverse da zero a ogni livello, mentre le tassellature periodiche collassano dopo O(log p) livelli per un periodo p. Ciò produce un vantaggio della gerarchia aperiodica: il riutilizzo del dizionario rimane disponibile a tutte le scale invece di svanire oltre una profondità finita. La nostra analisi fornisce quattro conseguenze principali. Primo, la proprietà della Compensazione Aurea mostra che il decadimento esponenziale nel numero di posizioni è esattamente bilanciato dalla crescita esponenziale nella lunghezza della frase, quindi la copertura potenziale rimane invariante in scala con valore asintotico W𝜑/5. Secondo, usando la legge di complessità sturmiana p(n)=n+1, mostriamo che le gerarchie di Fibonacci/Sturmian massimizzano l'efficienza di copertura del codebook tra le tassellature aperiodiche binarie. Terzo, in presenza di dipendenza a lungo raggio, la gerarchia risultante raggiunge un'entalpia di codifica inferiore rispetto a gerarchie periodiche comparabili. Quarto, la ridondanza decade in modo super-esponenziale con la profondità, mentre i sistemi periodici rimangono bloccati alla profondità in cui avviene il collasso. Convalidiamo questi risultati con Quasicryth, un compressore di testo senza perdita basato su una gerarchia di Fibonacci a dieci livelli con lunghezze di frase {2,3,5,8,13,21,34,55,89,144}. In esperimenti controllati A/B con codebook identici, il vantaggio aperiodico rispetto a una baseline a Periodo-5 cresce da 36.243 B a 3 MB a 11.089.469 B a 1 GB, spiegato dall'attivazione di livelli gerarchici più profondi. Su enwik9, Quasicryth raggiunge 225.918.349 B (22,59%), con 20.735.733 B risparmiati dalla tassellatura di Fibonacci rispetto all'assenza di tassellatura.
I sistemi di dialogo basati sulla conoscenza mirano a generare risposte informative e contestualmente rilevanti condizionandosi su fonti di conoscenza esterne. Tuttavia, la maggior parte degli approcci esistenti si concentra esclusivamente sull'inglese, manca di meccanismi espliciti di citazione per verificare affermazioni fattuali e offre una trasparenza limitata nel processo decisionale del modello. Presentiamo XKD-Dial, una pipeline di addestramento progressiva in quattro fasi per la generazione di dialoghi spiegabili e basati sulla conoscenza in un contesto bilingue (inglese-hindi), che comprende: (1) adattamento multilingue, (2) SFT per dialoghi in inglese con ancoraggio alle citazioni, (3) SFT per dialoghi bilingui e (4) allineamento GRPO con ricompense consapevoli delle citazioni. Valutiamo sei modelli che spaziano su architetture encoder-decoder (250M-3B) e decoder-only (1B-7B) in ogni fase della pipeline. I nostri contributi chiave sono: (i) tre analisi di spiegabilità post-hoc - allineamento dell'attenzione incrociata, attribuzione dei Gradienti Integrati e ancoraggio causale basato su occlusione - applicate sistematicamente lungo la traiettoria di addestramento per rivelare come viene appreso il comportamento di citazione, non solo se viene appreso; (ii) l'SFT ancorato alle citazioni riduce le allucinazioni allo 0,0% per i modelli encoder-decoder a partire dalla Fase 2; (iii) la pipeline progressiva previene la dimenticanza catastrofica migliorando al contempo le capacità in hindi; (iv) modelli più piccoli eguagliano le prestazioni di modelli più grandi in inglese dopo l'SFT; e (v) il GRPO fornisce un miglioramento marginale rispetto a un SFT ben progettato per compiti di citazione strutturata. Valutiamo utilizzando sei metriche automatiche (BLEU, ROUGE, BERTScore, FactScore, Citation-F1 e tasso di allucinazione).
Questo lavoro presenta AdditiveLLM2, un modello linguistico di grandi dimensioni multimodale e adattato al dominio, costruito a partire dalla variante ottimizzata per istruzioni del modello Gemma 3 utilizzando un dataset relativamente piccolo di circa 50 milioni di token. Il dataset (AdditiveLLM2-OA) è composto da articoli di riviste ad accesso aperto sulla manifattura additiva, con dati estratti per i processi di pre-addestramento adattativo al dominio e di ottimizzazione per istruzioni visive. Le varie fasi del modello sviluppato sono state valutate con l'Additive-Manufacturing-Benchmark, che consiste in compiti specifici del dominio della manifattura additiva compilati da risorse pubblicate. AdditiveLLM2 dimostra competenza sia in compiti basati sul linguaggio che sulla visione, raggiungendo accuratezze superiori al 90% nella conoscenza generale della manifattura additiva. Questa strategia di pre-addestramento adattativo al dominio e di ottimizzazione per istruzioni delinea un metodo di specializzazione accessibile per i grandi modelli linguistici in un dominio come la manifattura additiva.