Articoli di ricerca IA selezionati quotidianamente con traduzioni
Sebbene i Modelli Linguistici Multimodali di Grandi Dimensioni dimostrino impressionanti capacità semantiche, spesso soffrono di cecità spaziale, in difficoltà con ragionamenti geometrici di fine granularità e dinamiche fisiche. Le soluzioni esistenti tipicamente si basano su modalità 3D esplicite o su complesse impalcature geometriche, che sono limitate dalla scarsità di dati e da sfide di generalizzazione. In questo lavoro, proponiamo un cambio di paradigma sfruttando il priore spaziale implicito all'interno di modelli generativi di video su larga scala. Postuliamo che, per sintetizzare video temporalmente coerenti, questi modelli apprendano intrinsecamente robusti priori strutturali 3D e leggi fisiche. Introduciamo VEGA-3D (Video Extracted Generative Awareness), un framework plug-and-play che riutilizza un modello di diffusione video pre-addestrato come Simulatore di Mondi Latenti. Estraendo caratteristiche spaziotemporali da livelli di rumore intermedi e integrandole con rappresentazioni semantiche tramite un meccanismo di fusione adattiva a livello di token, arricchiamo i MLLM con densi indizi geometrici senza una supervisione 3D esplicita. Esperimenti estesi su benchmark di comprensione di scene 3D, ragionamento spaziale e manipolazione embodied dimostrano che il nostro metodo supera i baseline state-of-the-art, validando il fatto che i priori generativi forniscono una base scalabile per la comprensione del mondo fisico. Il codice è pubblicamente disponibile all'indirizzo https://github.com/H-EmbodVis/VEGA-3D.
Presentiamo Nemotron-Cascade 2, un modello aperto da 30B MoE con 3B parametri attivati che offre capacità di ragionamento di prim'ordine e solide capacità agentiche. Nonostante le sue dimensioni compatte, le sue prestazioni nel ragionamento matematico e nella programmazione si avvicinano a quelle dei modelli aperti all'avanguardia. È il secondo LLM open-weight, dopo DeepSeekV3.2-Speciale-671B-A37B, a raggiungere prestazioni di livello Medaglia d'Oro nelle Olimpiadi Internazionali della Matematica (IMO) 2025, nelle Olimpiadi Internazionali di Informatica (IOI) e nelle finali mondiali dell'ICPC, dimostrando una densità di intelligenza straordinariamente elevata con 20 volte meno parametri. A differenza di Nemotron-Cascade 1, i progressi tecnici chiave sono i seguenti. Dopo il SFT su un dataset meticolosamente curato, espandiamo sostanzialmente il Cascade RL per coprire uno spettro molto più ampio di domini di ragionamento e agentici. Inoltre, introduciamo una distillazione on-policy multi-dominio dai modelli insegnanti intermedi più forti per ogni dominio durante l'intero processo di Cascade RL, consentendoci di recuperare efficientemente le regressioni nei benchmark e mantenere solidi guadagni prestazionali lungo il percorso. Rilasciamo la collezione dei checkpoint del modello e dei dati di addestramento.
I modelli correnti di editing video guidati da istruzioni faticano a bilanciare simultaneamente modifiche semantiche precise con una fedele preservazione del movimento. Sebbene gli approcci esistenti si basino sull'iniezione di priori esterni espliciti (ad esempio, feature VLM o condizioni strutturali) per mitigare questi problemi, questa dipendenza limita severamente la robustezza e la generalizzazione del modello. Per superare questa limitazione, presentiamo SAMA (factorized Semantic Anchoring and Motion Alignment), un framework che scompone l'editing video in ancoraggio semantico e modellazione del movimento. In primo luogo, introduciamo l'Ancoraggio Semantico (Semantic Anchoring), che stabilisce un'ancora visiva affidabile prevedendo congiuntamente token semantici e latenti video su frame di ancoraggio sparsi, abilitando una pianificazione strutturale puramente consapevole delle istruzioni. In secondo luogo, l'Allineamento del Movimento (Motion Alignment) pre-addestra lo stesso backbone su task pretestuali di restauro video centrati sul movimento (inpainting cubico, perturbazione della velocità e tube shuffle), permettendo al modello di internalizzare le dinamiche temporali direttamente dai video grezzi. SAMA è ottimizzato con una pipeline a due stadi: uno stadio di pre-addestramento fattorizzato che apprende rappresentazioni semantiche e di movimento intrinseche senza dati di editing video-istruzione accoppiati, seguito da un fine-tuning supervisionato su dati di editing accoppiati. Notevolmente, il solo pre-addestramento fattorizzato produce già una forte capacità di editing video zero-shot, validando la fattorizzazione proposta. SAMA raggiunge prestazioni state-of-the-art tra i modelli open-source ed è competitivo con i principali sistemi commerciali (ad esempio, Kling-Omni). Codice, modelli e dataset saranno rilasciati.
La creazione di video dinamici e coerenti dal punto di vista visivo di soggetti personalizzati è fortemente richiesta per una vasta gamma di applicazioni emergenti, tra cui la realtà virtuale/aumentata immersiva, la produzione virtuale e il commercio elettronico di nuova generazione. Tuttavia, nonostante i rapidi progressi nella generazione di video guidata da soggetti, i metodi esistenti trattano prevalentemente i soggetti come entità 2D, concentrandosi sul trasferimento dell'identità attraverso caratteristiche visive monoculari o prompt testuali. Poiché i soggetti del mondo reale sono intrinsecamente 3D, l'applicazione di questi approcci centrati sul 2D alla personalizzazione di oggetti 3D rivela una limitazione fondamentale: essi mancano dei priors spaziali completi necessari per ricostruire la geometria 3D. Di conseguenza, quando sintetizzano nuove visuali, devono fare affidamento sulla generazione di dettagli plausibili ma arbitrari per le regioni non visibili, piuttosto che preservare la vera identità 3D. Raggiungere una personalizzazione autenticamente consapevole del 3D rimane impegnativo a causa della scarsità di dataset video multi-vista. Sebbene si possa tentare di effettuare un fine-tuning dei modelli su sequenze video limitate, questo spesso porta a un overfitting temporale. Per risolvere questi problemi, introduciamo un nuovo framework per la personalizzazione video consapevole del 3D, composto da 3DreamBooth e 3Dapter. 3DreamBooth disaccoppia la geometria spaziale dal movimento temporale attraverso un paradigma di ottimizzazione a 1 fotogramma. Limitando gli aggiornamenti alle rappresentazioni spaziali, integra efficacemente un priors 3D robusto nel modello senza la necessità di un training esaustivo basato su video. Per migliorare le texture fini e accelerare la convergenza, incorporiamo 3Dapter, un modulo di condizionamento visivo. Dopo un pre-training monoculare, 3Dapter subisce un'ottimizzazione congiunta multi-vista con il ramo principale di generazione attraverso una strategia di condizionamento asimmetrico. Questo design consente al modulo di agire come un router selettivo dinamico, interrogando suggerimenti geometrici specifici per la vista da un insieme di riferimento minimo. Pagina del progetto: https://ko-lani.github.io/3DreamBooth/
L'esecuzione in tempo reale è fondamentale per il dispiegamento di modelli Visione-Linguaggio-Azione (VLA) nel mondo fisico. I metodi di inferenza asincrona esistenti ottimizzano principalmente la fluidità della traiettoria, ma trascurano la latenza critica nella reazione ai cambiamenti ambientali. Riconsiderando il concetto di reazione nelle politiche di raggruppamento delle azioni, questo articolo presenta un'analisi sistematica dei fattori che governano il tempo di reazione. Dimostriamo che il tempo di reazione segue una distribuzione uniforme determinata congiuntamente dal Tempo alla Prima Azione (TTFA) e dall'orizzonte di esecuzione. Inoltre, riveliamo che la pratica standard di applicare uno schedulatore costante nei VLA basati su flusso può essere inefficiente e costringe il sistema a completare tutti i passi di campionamento prima che qualsiasi movimento possa iniziare, costituendo il collo di bottiglia nella latenza di reazione. Per superare questo problema, proponiamo Fast Action Sampling for ImmediaTE Reaction (FASTER). Introducendo uno Schedulatore Consapevole dell'Orizzonte, FASTER priorizza in modo adattivo le azioni a breve termine durante il campionamento del flusso, comprimendo la rimozione del rumore della reazione immediata di dieci volte (ad esempio, in π_{0.5} e X-VLA) in un singolo passo, preservando al contempo la qualità della traiettoria a lungo orizzonte. Abbinato a una pipeline client-server in streaming, FASTER riduce sostanzialmente la latenza di reazione effettiva su robot reali, specialmente quando implementato su GPU di fascia consumer. Esperimenti nel mondo reale, inclusa un'attività altamente dinamica come il tennis da tavolo, dimostrano che FASTER sblocca una reattività in tempo reale senza precedenti per politiche generaliste, consentendo la generazione rapida di traiettorie accurate e fluide.
Introduciamo Memento-Skills, un sistema agente LLM generalista e capace di apprendimento continuo che funge da agente-progettista di agenti: costruisce, adatta e migliora in modo autonomo agenti specifici per compito attraverso l'esperienza. Il sistema è basato su un framework di reinforcement learning basato su memoria con prompt dotati di stato, dove abilità riutilizzabili (memorizzate come file markdown strutturati) fungono da memoria persistente ed evolutiva. Queste abilità codificano sia il comportamento che il contesto, consentendo all'agente di trasportare la conoscenza attraverso le interazioni. Partendo da abilità elementari semplici (come la ricerca web e le operazioni da terminale), l'agente migliora continuamente tramite il meccanismo di Apprendimento Riflessivo in Lettura–Scrittura introdotto in Memento~2~wang2025memento2. Nella fase di lettura, un router di abilità addestrabile sul comportamento seleziona l'abilità più rilevante in base al prompt con stato corrente; nella fase di scrittura, l'agente aggiorna ed espande la propria libreria di abilità sulla base della nuova esperienza. Questo design a ciclo chiuso abilita l'apprendimento continuo senza aggiornare i parametri del LLM, poiché tutto l'adattamento è realizzato attraverso l'evoluzione di abilità e prompt esternalizzati. A differenza degli approcci precedenti che si affidano ad agenti progettati da umani, Memento-Skills consente a un agente generalista di progettare agenti end-to-end per nuovi compiti. Attraverso la generazione e il raffinamento iterativi delle abilità, il sistema migliora progressivamente le proprie capacità. Esperimenti sul benchmark General AI Assistants e su Humanity's Last Exam dimostrano miglioramenti sostenuti, raggiungendo miglioramenti relativi nell'accuratezza complessiva del 26,2% e del 116,2%, rispettivamente. Il codice è disponibile all'indirizzo https://github.com/Memento-Teams/Memento-Skills.
La generazione di movimento precedente segue principalmente due paradigmi: i modelli di diffusione continua, eccellenti nel controllo cinematico, e i generatori basati su token discreti, efficaci per il condizionamento semantico. Per combinarne i punti di forza, proponiamo un framework a tre stadi comprendente l'estrazione di caratteristiche condizionali (Percezione), la generazione di token discreti (Pianificazione) e la sintesi del movimento basata su diffusione (Controllo). Cuore di questo framework è MoTok, un tokenizzatore di movimento discreto basato su diffusione che disaccoppia l'astrazione semantica dalla ricostruzione fine-delegando il recupero del movimento a un decoder a diffusione, consentendo token compatti a singolo strato preservando la fedeltà del movimento. Per le condizioni cinematiche, vincoli approssimati guidano la generazione dei token durante la pianificazione, mentre vincoli granulari vengono applicati durante il controllo tramite ottimizzazione basata su diffusione. Questo design impedisce ai dettagli cinematici di disturbare la pianificazione semantica dei token. Su HumanML3D, il nostro metodo migliora significativamente la controllabilità e la fedeltà rispetto a MaskControl utilizzando solo un sesto dei token, riducendo l'errore di traiettoria da 0,72 cm a 0,08 cm e l'FID da 0,083 a 0,029. A differenza dei metodi precedenti che peggiorano con vincoli cinematici più stringenti, il nostro migliora la fedeltà, riducendo l'FID da 0,033 a 0,014.
La ricostruzione di oggetti 3D articolati a partire da una singola immagine richiede l'inferenza congiunta della geometria dell'oggetto, della struttura delle parti e dei parametri di movimento a partire da evidenze visive limitate. Una difficoltà chiave risiede nell'intreccio tra i segnali di movimento e la struttura dell'oggetto, il che rende instabile la regressione diretta dell'articolazione. I metodi esistenti affrontano questa sfida attraverso supervisione multi-vista, assemblaggio basato sul retrieval o generazione di video ausiliari, spesso sacrificando scalabilità o efficienza. Presentiamo MonoArt, un framework unificato basato su un ragionamento strutturale progressivo. Invece di prevedere l'articolazione direttamente dalle caratteristiche dell'immagine, MonoArt trasforma progressivamente le osservazioni visive in geometria canonica, rappresentazioni strutturate delle parti e embedding consapevoli del movimento all'interno di un'unica architettura. Questo processo di ragionamento strutturato consente un'inferenza dell'articolazione stabile e interpretabile senza modelli di movimento esterni o pipeline multi-stadio. Esperimenti estensivi su PartNet-Mobility dimostrano che MonoArt raggiunge prestazioni all'avanguardia sia in accuratezza di ricostruzione che in velocità di inferenza. Il framework si generalizza ulteriormente alla manipolazione robotica e alla ricostruzione di scene articolate.
La generazione visiva tramite token discreti ha guadagnato notevole attenzione in quanto abilita un paradigma unificato di previsione dei token condiviso con i modelli linguistici, promettendo architetture multimodali senza soluzione di continuità. Tuttavia, gli attuali metodi di generazione discreta rimangono limitati a token latenti a bassa dimensionalità (tipicamente 8-32 dimensioni), sacrificando la ricchezza semantica essenziale per la comprensione. Sebbene rappresentazioni pre-addestrate ad alta dimensionalità (768-1024 dimensioni) potrebbero colmare questa lacuna, la loro generazione discreta presenta sfide fondamentali. In questo articolo, presentiamo Cubic Discrete Diffusion (CubiD), il primo modello di generazione discreta per rappresentazioni ad alta dimensionalità. CubiD esegue un mascheramento granulare sull'intera rappresentazione discreta ad alta dimensionalità: qualsiasi dimensione in qualsiasi posizione può essere mascherata e predetta da osservazioni parziali. Ciò consente al modello di apprendere ricche correlazioni sia all'interno che tra le posizioni spaziali, con il numero di passi di generazione fissato a T indipendentemente dalla dimensionalità delle feature, dove T << hwd. Su ImageNet-256, CubiD raggiunge uno stato dell'arte nella generazione discreta con un forte comportamento di scaling da 900M a 3.7B di parametri. Crucialmente, validiamo che questi token discretizzati preservino le capacità rappresentative originali, dimostrando che gli stessi token discreti possono servire efficacemente sia compiti di comprensione che di generazione. Auspichiamo che questo lavoro ispiri future ricerche verso architetture multimodali unificate. Il codice è disponibile all'indirizzo: https://github.com/YuqingWang1029/CubiD.
Presentiamo F2LLM-v2, una nuova famiglia di modelli d'embedding multilingue e per scopi generali, disponibile in 8 dimensioni distinte che vanno da 80 milioni a 14 miliardi di parametri. Addestrato su un nuovo corpus composito, appositamente curato, di 60 milioni di campioni di dati pubblici di alta qualità, F2LLM-v2 supporta oltre 200 lingue, con un'enfasi particolare sulle lingue a risorse medio-basse precedentemente sottorappresentate. Integrando una pipeline di addestramento basata su LLM articolata in due stadi con tecniche di matryoshka learning, pruning del modello e distillazione della conoscenza, presentiamo modelli notevolmente più efficienti rispetto ai precedenti modelli d'embedding basati su LLM, pur mantenendo prestazioni competitive. Valutazioni estensive confermano che F2LLM-v2-14B si colloca al primo posto in 11 benchmark MTEB, mentre i modelli più piccoli della famiglia stabiliscono un nuovo stato dell'arte per applicazioni con vincoli di risorse. Per favorire la ricerca open-source sui modelli d'embedding, rilasciamo tutti i modelli, i dati, il codice e i checkpoint intermedi.
I recenti progressi nei modelli linguistici di grandi dimensioni omnimodali (OmniLLM) hanno migliorato significativamente la comprensione degli input audio e video. Tuttavia, le valutazioni attuali si concentrano principalmente su clip audio e video brevi, da 10 secondi a 5 minuti, non riuscendo a riflettere le esigenze delle applicazioni nel mondo reale, dove i video hanno tipicamente una durata di decine di minuti. Per colmare questa lacuna critica, introduciamo LVOmniBench, un nuovo benchmark progettato specificamente per la comprensione cross-modale di audio e video di lunga durata. Questo dataset è composto da video di alta qualità provenienti da piattaforme aperte che presentano una ricca dinamica audiovisiva. Attraverso una rigorosa selezione e annotazione manuale, LVOmniBench comprende 275 video, con durata compresa tra 10 e 90 minuti, e 1.014 coppie domanda-risposta (QA). LVOmniBench mira a valutare rigorosamente le capacità degli OmniLLM in diversi ambiti, tra cui memoria a lungo termine, localizzazione temporale, comprensione fine-granulare e percezione multimodale. La nostra valutazione estensiva rivela che gli attuali OmniLLM incontrano sfide significative nell'elaborazione di input audiovisivi estesi. I modelli open-source generalmente raggiungono accuratezze inferiori al 35%, mentre il Gemini 3 Pro raggiunge un'accuratezza massima di circa il 65%. Anticipiamo che questo dataset, insieme ai nostri risultati empirici, stimolerà ulteriori ricerche e lo sviluppo di modelli avanzati in grado di risolvere complessi problemi di comprensione cross-modale in contesti audiovisivi di lunga durata.
Gli agenti GUI a lungo orizzonte rappresentano un passo cruciale verso il dispiegamento nel mondo reale, tuttavia la memoria interattiva efficace nei paradigmi prevalenti rimane poco esplorata. La riproduzione di sequenze interattive complete è ridondante e amplifica il rumore, mentre i riassunti spesso cancellano informazioni critiche per le dipendenze e la tracciabilità. Presentiamo AndroTMem, un framework diagnostico per la memoria ancorata in agenti GUI Android a lungo orizzonte. Il suo benchmark principale, AndroTMem-Bench, comprende 1.069 task con 34.473 passi interattivi (media 32.1 per task, max 65). Valutiamo gli agenti con il TCR (Tasso di Completamento Task), concentrandoci sui task il cui completamento richiede il trasferimento di stati intermedi critici; AndroTMem-Bench è progettato per imporre forti dipendenze causali passo-passo, rendendo gli stati intermedi sparsi ma essenziali decisivi per le azioni successive e ponendo la memoria interattiva al centro della valutazione. Attraverso agenti GUI open-source e proprietari, osserviamo un pattern coerente: all'aumentare della lunghezza delle sequenze interattive, i cali prestazionali sono guidati principalmente da fallimenti della memoria intra-task, non da errori percettivi isolati o errori azionali locali. Guidati da questa diagnosi, proponiamo l'Anchored State Memory (ASM), che rappresenta le sequenze interattive come un insieme compatto di ancore di stati intermedi causalmente collegati per consentire un recupero mirato ai sottobiettivi e un processo decisionale consapevole dell'attribuzione. In molteplici setting e 12 agenti GUI valutati, l'ASM supera costantemente le baseline di replay completo delle sequenze e quelle basate su riassunti, migliorando il TCR del 5%-30.16% e l'AMS del 4.93%-24.66%, indicando che la memoria strutturata e ancorata mitiga efficacemente il collo di bottiglia della memoria interattiva nei task GUI a lungo orizzonte. Il codice, il benchmark e le risorse correlate sono pubblicamente disponibili su [https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem).
In questo articolo introduciamo un nuovo compito, la Generazione di Movimenti Reattivi dell'Ascoltatore dall'Enunciato del Parlante, che mira a generare movimenti corporei naturalistici dell'ascoltatore che rispondano appropriatamente all'enunciato di un parlante. Tuttavia, modellare tali comportamenti non verbali dell'ascoltatore rimane poco esplorato e impegnativo a causa della natura intrinsecamente non deterministica delle reazioni umane. Per facilitare questo compito, presentiamo ReactMotionNet, un dataset su larga scala che accoppia gli enunciati del parlante con molteplici movimenti candidati dell'ascoltatore, annotati con diversi gradi di appropriatezza. Questo design del dataset cattura esplicitamente la natura uno-a-molti del comportamento dell'ascoltatore e fornisce una supervisione che va oltre un unico movimento di ground truth. Basandoci su questo design del dataset, sviluppiamo protocolli di valutazione orientati alla preferenza, concepiti per valutare l'appropriatezza reattiva, che le metriche convenzionali sui movimenti, focalizzate sull'allineamento input-movimento, ignorano. Proponiamo inoltre ReactMotion, un framework generativo unificato che modella congiuntamente testo, audio, emozione e movimento, ed è addestrato con obiettivi basati sulle preferenze per incoraggiare risposte dell'ascoltatore sia appropriate che diversificate. Esperimenti estensivi dimostrano che ReactMotion supera le baseline di retrieval e le pipeline basate su LLM in cascata, generando movimenti dell'ascoltatore più naturali, diversificati e appropriati.
I recenti progressi estendono i Modelli Linguistici Multimodali di Grande Dimensione (MLLM) oltre il classico question answering visivo, arrivando a utilizzare strumenti esterni per compiti visivi avanzati. Nonostante questi avanzamenti, l'esecuzione precisa e la composizione efficace di strumenti diversi per compiti complessi rimangono un collo di bottiglia persistente. Limitati da set di strumenti ridotti e traiettorie d'uso semplici, gli attuali benchmark non riescono a catturare interazioni complesse e diversificate con gli strumenti, risultando inadeguati per valutare le prestazioni dei modelli in condizioni pratiche e realistiche. Per colmare questa lacuna, introduciamo VisualToolChain-Bench (VTC-Bench), un benchmark completo progettato per valutare la competenza nell'uso degli strumenti negli MLLM. Per allinearsi alle pipeline realistiche di computer vision, il nostro framework include 32 operazioni visive diversificate basate su OpenCV. Questo ricco set di strumenti consente combinazioni estese, permettendo a VTC-Bench di valutare rigorosamente la composizione di più strumenti e l'esecuzione di piani multi-step a lungo orizzonte. Per una valutazione precisa, forniamo 680 problemi selezionati, strutturati secondo una gerarchia cognitiva di nove categorie, ciascuno con traiettorie di esecuzione ground-truth. Esperimenti estesi su 19 MLLM leader di mercato rivelano limitazioni critiche nelle capacità agentiche visive dei modelli attuali. Nello specifico, i modelli faticano ad adattarsi a set di strumenti diversificati e a generalizzare verso operazioni non viste, con il modello leader Gemini-3.0-Pro che raggiunge solo il 51% sul nostro benchmark. Inoltre, la composizione di più strumenti rimane una sfida persistente. Di fronte a compiti complessi, i modelli hanno difficoltà a formulare piani di esecuzione efficienti, facendo forte affidamento su un sottoinsieme ristretto e subottimale di funzioni familiari, piuttosto che selezionare gli strumenti ottimali. Identificando queste sfide fondamentali, VTC-Bench stabilisce una baseline rigorosa per guidare lo sviluppo di modelli agentici visivi più generalizzati.
Sebbene i Modelli Linguistici Multimodali di Grande Scala (MLLM) abbiano ottenuto un successo notevole nell'interpretazione di scene naturali, la loro capacità di elaborare simboli discreti – i mattoni fondamentali della cognizione umana – rimane una questione aperta e cruciale. A differenza dei dati visivi continui, simboli come formule matematiche, strutture chimiche e caratteri linguistici richiedono un'interpretazione più profonda e precisa. Questo articolo introduce un benchmark completo per valutare come i migliori MLLM navigano in questi "spazi semantici discreti" attraverso cinque domini: linguaggio, cultura, matematica, fisica e chimica. La nostra indagine rivela un fenomeno controintuitivo: i modelli spesso falliscono nel riconoscimento basilare dei simboli, ma riescono in compiti di ragionamento complesso, suggerendo che si affidano più alla probabilità linguistica che a una vera percezione visiva. Mettendo in luce questo "disallineamento cognitivo", evidenziamo un divario significativo nelle capacità dell'IA attuale: la difficoltà di percepire e comprendere veramente i linguaggi simbolici che sono alla base della scoperta scientifica e del pensiero astratto. Questo lavoro offre una roadmap per sviluppare sistemi intelligenti più rigorosi e allineati con le capacità umane.
La rimozione di oggetti video mira a eliminare oggetti dinamici bersaglio e i loro effetti visivi, come deformazioni, ombre e riflessi, ripristinando al contempo sfondi privi di discontinuità. I recenti metodi di inpaintning video e rimozione oggetti basati su modelli di diffusione riescono a rimuovere gli oggetti, ma spesso faticano a cancellare questi effetti e a sintetizzare sfondi coerenti. Oltre alle limitazioni metodologiche, i progressi sono ulteriormente ostacolati dalla mancanza di un dataset completo che catturi sistematicamente gli effetti comuni degli oggetti in ambienti variati per l'addestramento e la valutazione. Per affrontare questo problema, presentiamo VOR (Video Object Removal), un dataset su larga scala che fornisce video accoppiati e diversificati. Ciascuna coppia è composta da un video in cui l'oggetto bersaglio è presente con i suoi effetti e da una controparte in cui l'oggetto e gli effetti sono assenti, con le relative maschere dell'oggetto. VOR contiene 60.000 coppie video di alta qualità provenienti da fonti catturate e sintetiche, copre cinque tipi di effetti e spazia su un'ampia gamma di categorie di oggetti, nonché su scene complesse e dinamiche con più oggetti. Basandosi su VOR, proponiamo EffectErase, un metodo per la rimozione di oggetti video consapevole degli effetti, che tratta l'inserimento di oggetti video come compito ausiliario inverso all'interno di uno schema di apprendimento reciproco. Il modello include una guida regionale consapevole del compito che focalizza l'apprendimento sulle aree interessate e consente un commutazione flessibile tra i compiti. Inoltre, viene utilizzato un obiettivo di consistenza inserimento-rimozione che incoraggia comportamenti complementari e una localizzazione condivisa delle regioni di effetto e degli indizi strutturali. Addestrato su VOR, EffectErase raggiunge prestazioni superiori in esperimenti estensivi, fornendo una cancellazione di alta qualità degli effetti degli oggetti video in vari scenari.
I modelli visione-linguaggio (VLM) si è dimostrato che siano ciechi, spesso sottoutilizzando i loro input visivi anche in compiti che richiedono ragionamento visivo. In questo lavoro, dimostriamo che i VLM sono selettivamente ciechi. Essi modulano la quantità di attenzione applicata agli input visivi in base all'inquadramento linguistico, anche quando formulazioni alternative richiedono un ragionamento visivo identico. Utilizzando l'attenzione visiva come sonda, quantifichiamo come l'inquadramento alteri sia la quantità che la distribuzione dell'attenzione sull'immagine. Inquadramenti vincolati, come scelta multipla e sì/no, inducono un'attenzione sostanzialmente inferiore al contesto dell'immagine rispetto a quelli aperti, riducono la concentrazione sulle regioni rilevanti per il compito e spostano l'attenzione verso token non informativi. Dimostriamo inoltre che questa errata allocazione dell'attenzione è la causa principale del degrado dell'accuratezza e dell'incoerenza tra diverse formulazioni. Basandoci su questa intuizione meccanicistica, introduciamo un metodo leggero di prompt-tuning che utilizza token apprendibili per incoraggiare i modelli robusti di attenzione ancorati al visivo osservati in contesti aperti, migliorando l'ancoraggio visivo e le prestazioni attraverso le diverse formulazioni.
La traduzione simultanea parlato-parlato (SimulS2S) è fondamentale per la comunicazione multilingue in tempo reale e la sua integrazione nelle piattaforme di riunione e streaming è in costante aumento. Nonostante ciò, la SimulS2S rimane poco esplorata in ambito di ricerca, dove le soluzioni attuali si basano spesso su procedure di addestramento ad alta intensità di risorse e operano su enunciati brevi e pre-segmentati, non riuscendo a generalizzare al parlato continuo. Per colmare questa lacuna, proponiamo SimulU, la prima strategia senza addestramento per la SimulS2S di lungo formato. SimulU adotta strategie di gestione della cronologia e di selezione dell'output vocale che sfruttano il cross-attention in modelli end-to-end pre-addestrati per regolare sia la cronologia di input che la generazione di output. Le valutazioni su MuST-C in 8 lingue dimostrano che SimulU raggiunge un compromesso qualità-latenza migliore o comparabile rispetto a forti modelli a cascata. Eliminando la necessità di un addestramento ad hoc, SimulU offre una strada promettente per la SimulS2S end-to-end in scenari realistici e di lungo formato.
Gli agenti LLM multi-turn stanno diventando sempre più importanti per risolvere compiti complessi e interattivi, e l'apprendimento per rinforzo (RL) è un ingrediente chiave per migliorare il loro comportamento a lungo termine. Tuttavia, l'addestramento RL richiede la generazione di un gran numero di traiettorie di rollout in ambienti controllati (sandbox), e le infrastrutture esistenti spesso accoppiano l'orchestrazione del rollout con il ciclo di addestramento, rendendo i sistemi difficili da migrare e mantenere. Seguendo la filosofia del rollout-as-a-service, presentiamo **ProRL Agent**, un'infrastruttura scalabile che fornisce l'intero ciclo di vita del rollout agente attraverso un servizio API. ProRL Agent fornisce anche ambienti sandbox standardizzati ed estensibili che supportano vari compiti agentici in ambienti HPC senza privilegi di root (rootless). Validiamo ProRL Agent attraverso l'addestramento RL su compiti di ingegneria del software, matematica, discipline STEM e programmazione. ProRL Agent è open-source e integrato come parte di NVIDIA NeMo Gym.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno compiuto progressi impressionanti nel collegare visione e linguaggio, ma continuano a incontrare difficoltà nella comprensione spaziale e nel ragionamento consapevole del punto di vista. I recenti tentativi mirano ad arricchire le rappresentazioni in input con indizi geometrici, piuttosto che insegnare esplicitamente ai modelli a ragionare nello spazio 3D. Introduciamo Loc3R-VLM, un framework che fornisce ai modelli visivo-linguistici 2D capacità avanzate di comprensione 3D a partire da input video monoculare. Ispirato dalla cognizione spaziale umana, Loc3R-VLM si basa su due obiettivi congiunti: la ricostruzione del layout globale per costruire una rappresentazione olistica della struttura della scena e la modellazione esplicita della situazione per ancorare la prospettiva egocentrica. Questi obiettivi forniscono una supervisione spaziale diretta che radica sia la percezione che il linguaggio in un contesto 3D. Per garantire la coerenza geometrica e l'allineamento su scala metrica, sfruttiamo priorità leggere sulla posa della camera estratte da un modello foundation 3D pre-addestrato. Loc3R-VLM raggiunge prestazioni all'avanguardia nella localizzazione basata sul linguaggio e supera gli approcci esistenti basati su 2D e video nei benchmark di question-answering generale e situato in 3D, dimostrando che il nostro framework di supervisione spaziale abilita una solida comprensione tridimensionale. Pagina del progetto: https://kevinqu7.github.io/loc3r-vlm
La regolazione del rapporto d'importanza è fondamentale per la stabilità dell'addestramento dei framework basati su Group Relative Policy Optimization (GRPO). Tuttavia, i metodi di controllo del rapporto prevalenti, come il clipping rigido, soffrono di limiti non differenziabili e regioni a gradiente nullo, fallendo nel mantenere la fedeltà del gradiente. Inoltre, questi metodi sono privi di un meccanismo di consapevolezza del rischio (hazard-aware) per sopprimere adattivamente le deviazioni estreme, lasciando il processo di ottimizzazione vulnerabile a bruschi cambiamenti della policy. Per affrontare queste sfide, proponiamo la Modulated Hazard-aware Policy Optimization (MHPO), un nuovo framework progettato per un apprendimento per rinforzo robusto e stabile. La MHPO proposta introduce un Modulatore di Fedeltà Logaritmica (Log-Fidelity Modulator - LFM) per mappare i rapporti d'importanza illimitati in un dominio limitato e differenziabile. Questo meccanismo previene efficacemente l'instabilizzazione del panorama della loss da parte di token outlier ad alta varianza, garantendo al contempo la stabilità globale del gradiente. In modo complementare, una Penalità di Rischio Disaccoppiata (Decoupled Hazard Penalty - DHP) integra le funzioni di rischio cumulativo dall'analisi di sopravvivenza per regolare indipendentemente gli spostamenti positivi e negativi della policy. Modellando il panorama di ottimizzazione con penalità sensibili al rischio, la MHPO proposta ottiene una regolazione granulare degli spostamenti asimmetrici della policy, mitigando simultaneamente il collasso modale da sovra-espansione e prevenendo l'erosione della policy da contrazioni catastrofiche, all'interno di una regione di fiducia stabilizzata. Valutazioni estensive su diversi benchmark di ragionamento, sia per compiti testuali che visivo-linguistici, dimostrano che MHPO supera costantemente i metodi esistenti, raggiungendo prestazioni superiori migliorando significativamente la stabilità dell'addestramento.
Questo rapporto tecnico presenta MOSS-TTS, un modello fondante per la generazione vocale basato su una ricetta scalabile: token audio discreti, modellazione autoregressiva e pre-addestramento su larga scala. Basato su MOSS-Audio-Tokenizer, un tokenizzatore Transformer causale che comprime audio a 24 kHz a 12.5 fps utilizzando RVQ a bitrate variabile e rappresentazioni semantiche-acustiche unificate, rilasciamo due generatori complementari: MOSS-TTS, che enfatizza la semplicità strutturale, la scalabilità e un deployment orientato al contesto lungo/controllo, e MOSS-TTS-Local-Transformer, che introduce un modulo autoregressivo locale al frame per una maggiore efficienza di modellazione, una migliore preservazione del parlante e un tempo minore per il primo audio. In contesti multilingue e open-domain, MOSS-TTS supporta il voice cloning zero-shot, il controllo della durata a livello di token, il controllo della pronuncia a livello di fonema/pinyin, code-switching fluido e una generazione long-form stabile. Questo rapporto riassume il design, la ricetta di addestramento e le caratteristiche empiriche dei modelli rilasciati.
La capacità di rappresentare scene con fedeltà regolabile da un singolo modello, nota come livello di dettaglio (LoD), è cruciale per la diffusione pratica del Gaussian Splatting 3D (3DGS). I metodi di LoD discreti esistenti espongono solo un insieme limitato di punti di funzionamento, mentre gli approcci di LoD continuo simultanei consentono una scalabilità più fluida ma spesso soffrono di un degrado qualitativo evidente a piena capacità, rendendo il LoD una scelta progettuale costosa. Introduciamo Matryoshka Gaussian Splatting (MGS), un framework di addestramento che abilita un LoD continuo per le pipeline 3DGS standard senza sacrificare la qualità del rendering a piena capacità. MGS apprende un singolo insieme ordinato di Gaussiane in modo che il rendering di qualsiasi prefisso, ovvero i primi k splat, produca una ricostruzione coerente la cui fedeltà migliora gradualmente con l'aumentare del budget. La nostra idea chiave è l'addestramento con budget stocastico: ogni iterazione campiona un budget di splat casuale e ottimizza sia il prefisso corrispondente che l'insieme completo. Questa strategia richiede solo due passi in avanti e non introduce modifiche architetturali. Esperimenti su quattro benchmark e sei baseline dimostrano che MGS eguaglia le prestazioni a piena capacità della sua backbone, consentendo al contempo un compromesso continuo tra velocità e qualità da un singolo modello. Estese ablation study sulle strategie di ordinamento, gli obiettivi di addestramento e la capacità del modello convalidano ulteriormente le scelte progettuali.
I modelli visione-linguaggio (VLM) adattati al telerilevamento dipendono fortemente da supervisione immagine-testo specifica del dominio, eppure le annotazioni di alta qualità per immagini satellitari e aeree rimangono scarse e costose da produrre. Le pipeline di pseudo-etichettatura prevalenti affrontano questa lacuna distillando conoscenza da grandi modelli all'avanguardia, ma questa dipendenza da "insegnanti" di grandi dimensioni è costosa, limita la scalabilità e fissa la performance massima ottenibile al livello del modello insegnante. Proponiamo OSMDA: un framework di adattamento di dominio autonomo che elimina questa dipendenza. La nostra intuizione chiave è che un VLM base capace possa fungere da proprio motore di annotazione: accoppiando immagini aeree con tile renderizzati di OpenStreetMap (OSM), sfruttiamo le capacità di riconoscimento ottico dei caratteri e di comprensione di grafici del modello per generare didascalie arricchite dai vasti metadati ausiliari di OSM. Il modello viene poi messo a punto sul corpus risultante utilizzando esclusivamente immagini satellitari, producendo OSMDA-VLM, un VLM adattato al dominio che non richiede etichettatura manuale né modelli esterni più potenti. Condividiamo valutazioni esaustive che coprono 10 benchmark per attività immagine-testo-a-testo e confronti con 9 baseline competitive. Quando mescolato in parti uguali con dati reali, il nostro metodo raggiunge risultati allo stato dell'arte, pur essendo sostanzialmente più economico da addestrare rispetto alle alternative dipendenti da modelli insegnanti. Questi risultati suggeriscono che, dato un modello base solido, l'allineamento con dati geografici crowdsourced rappresenti un percorso pratico e scalabile verso l'adattamento di dominio per il telerilevamento. Il dataset e i pesi del modello saranno resi pubblicamente disponibili.
La capacità di derivare con precisione oggetti matematici è un requisito fondamentale per applicazioni STEM a valle, inclusi matematica, fisica e chimica, dove il ragionamento deve culminare in espressioni formalmente strutturate. Tuttavia, le attuali valutazioni dei modelli linguistici sul ragionamento matematico e scientifico si basano fortemente su formati di risposta semplificati come valori numerici o opzioni a scelta multipla, a causa della convenienza della valutazione automatizzata. In questo articolo forniamo tre contributi per migliorare il ragionamento sugli oggetti matematici: (i) costruiamo e rilasciamo dati di addestramento e benchmark per la derivazione di oggetti matematici, il suite Principia; (ii) forniamo protocolli di addestramento con giudici e verificatori basati su LLM potenti, dimostrando come l'addestramento on-policy dei giudici migliori le prestazioni; (iii) mostriamo come l'addestramento on-policy possa essere utilizzato anche per scalare il calcolo al momento del test tramite aggregazione. Rileviamo che modelli linguistici potenti come Qwen3-235B e o3 mostrano difficoltà su Principia, mentre i nostri protocolli di addestramento apportano miglioramenti significativi su diverse architetture di LLM, migliorando simultaneamente i risultati su compiti numerici e MCQA esistenti, dimostrando una generalizzazione cross-format delle capacità di ragionamento.
Presentiamo MultiTempBench, un benchmark multilingue per il ragionamento temporale che comprende tre attività: calcoli con date, conversione di fusi orari ed estrazione di relazioni temporali in cinque lingue (inglese, tedesco, cinese, arabo e hausa) e secondo diverse convenzioni calendariali (gregoriano, hijri e lunare cinese). MultiTempBench contiene 15.000 esempi costruiti traducendo 750 domande in inglese accuratamente selezionate ed espandendo ciascuna in varianti controllate per il formato della data. Valutiamo 20 LLM e introduciamo il Rapporto di Frammentazione delle Date multilingue (mDFR), calibrato con valutazioni umane di gravità, insieme ad analisi di probing geometrico delle rappresentazioni temporali interne. Scopriamo che la qualità della tokenizzazione degli artefatti temporali è un collo di bottiglia dipendente dalle risorse: nelle lingue a bassa risorsa e nei formati calendariali più rari, la frammentazione compromette la separazione Anno/Mese/Giorno e l'accuratezza crolla, mentre gli ambienti ad alta risorsa sono spesso robusti alla suddivisione a livello di cifra. Oltre alla tokenizzazione, una regressione ad effetti misti incrociati mostra che la linearità temporale è il predittore più forte del ragionamento temporale nelle lingue ad alta risorsa, mentre la frammentazione è il predittore più forte nelle lingue a bassa risorsa. Il codice è disponibile all'indirizzo: https://github.com/gagan3012/mtb
L'identificazione di oggetti potenziali è fondamentale per il riconoscimento e l'analisi degli oggetti in varie applicazioni di computer vision. I metodi esistenti localizzano tipicamente gli oggetti potenziali basandosi su immagini esemplari, categorie predefinite o descrizioni testuali. Tuttavia, la loro dipendenza da prompt di immagini e testo spesso limita la flessibilità, riducendo l'adattabilità negli scenari reali. In questo articolo, introduciamo una nuova Prompt-Free Universal Region Proposal Network (PF-RPN), che identifica oggetti potenziali senza fare affidamento su prompt esterni. In primo luogo, il modulo Sparse Image-Aware Adapter (SIA) esegue la localizzazione iniziale degli oggetti potenziali utilizzando un embedding di query apprendibile aggiornato dinamicamente con caratteristiche visive. Successivamente, il modulo Cascade Self-Prompt (CSP) identifica gli oggetti potenziali rimanenti sfruttando l'embedding apprendibile auto-promptato, aggregando autonomamente caratteristiche visive informative in modo cascading. Infine, il modulo Centerness-Guided Query Selection (CG-QS) facilita la selezione di embedding di query di alta qualità utilizzando una rete di punteggio centerness. Il nostro metodo può essere ottimizzato con dati limitati (ad esempio, il 5% dei dati MS COCO) e applicato direttamente a vari domini applicativi di rilevamento di oggetti per identificare oggetti potenziali senza fine-tuning, come il rilevamento di oggetti subacquei, il rilevamento di difetti industriali e il rilevamento di oggetti in immagini di telerilevamento. I risultati sperimentali su 19 dataset convalidano l'efficacia del nostro metodo. Il codice è disponibile all'indirizzo https://github.com/tangqh03/PF-RPN.
Introduciamo COT-FM, un framework generale che rimodella il percorso di probabilità nel Flow Matching (FM) per ottenere una generazione più rapida e affidabile. I modelli FM spesso producono traiettorie curve a causa di accoppiamenti casuali o per batch, che aumentano l'errore di discretizzazione e riducono la qualità del campione. COT-FM risolve questo problema raggruppando i campioni target e assegnando a ciascun cluster una distribuzione sorgente dedicata, ottenuta invertendo modelli FM pre-addestrati. Questa strategia divide et impera produce un trasporto locale più accurato e campi vettoriali significativamente più rettilinei, il tutto senza modificare l'architettura del modello. Come approccio plug-and-play, COT-FM accelera costantemente il campionamento e migliora la qualità della generazione su dataset 2D, benchmark di generazione di immagini e compiti di manipolazione robotica.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità notevoli nella traduzione automatica per coppie linguistiche ad alte risorse, ma le loro prestazioni nella traduzione per lingue a basse risorse rimangono inferiori. I metodi di post-addestramento esistenti dipendono fortemente da dati paralleli di alta qualità, spesso scarsi o non disponibili per le lingue a basse risorse. In questo articolo introduciamo WALAR, un metodo di addestramento per rinforzo che utilizza esclusivamente testo monolingue per potenziare le capacità di traduzione degli LLM su un vasto numero di lingue a basse risorse, preservando al contempo le loro prestazioni per le lingue ad alte risorse. La nostra intuizione chiave si basa sull'osservazione delle modalità di fallimento (o "lacune") nei modelli esistenti di stima della qualità multilingue (QE) basati sulla lingua sorgente. L'apprendimento per rinforzo (RL) che utilizza questi modelli QE tende ad amplificare tali lacune, producendo LLM multilingue di qualità inferiore. Abbiamo sviluppato tecniche includendo l'allineamento lessicale e l'allineamento linguistico per mitigare tali lacune nella ricompensa di WALAR per l'addestramento RL. Abbiamo addestrato in modo continuativo un LLM che supporta la traduzione di 101 lingue utilizzando WALAR. Gli esperimenti mostrano che il nostro nuovo modello supera di ampio margine LLaMAX, uno degli LLM multilingue open-source più potenti, su 1400 direzioni linguistiche del dataset Flores-101.
Comprendere e generare oggetti 3D come composizioni di parti significative è fondamentale per la percezione e il ragionamento umani. Tuttavia, la maggior parte dei metodi di text-to-3D trascura la struttura semantica e funzionale delle parti. Sebbene approcci recenti che considerano le parti introducano la scomposizione, rimangono prevalentemente focalizzati sulla geometria, mancando di un ancoraggio semantico e non modellando come le parti si allineano alle descrizioni testuali o alle loro relazioni reciproche. Proponiamo DreamPartGen, un framework per la generazione text-to-3D consapevole delle parti e semanticamente fondata. DreamPartGen introduce *Duplex Part Latents* (DPL) che modellano congiuntamente la geometria e l'aspetto di ciascuna parte, e *Relational Semantic Latents* (RSL) che catturano le dipendenze inter-parte derivate dal linguaggio. Un processo di co-denoising sincronizzato impone una reciproca coerenza geometrica e semantica, consentendo una sintesi 3D coerente, interpretabile e allineata al testo. Su molteplici benchmark, DreamPartGen fornisce prestazioni all'avanguardia nella fedeltà geometrica e nell'allineamento testo-forma.
La rilevazione di anomalie logiche nell'ispezione industriale rimane complessa a causa delle variazioni nell'aspetto visivo (ad esempio, disordine dello sfondo, cambiamenti d'illuminazione e sfocatura), che spesso distraggono i rilevatori basati sulla visione dall'identificare violazioni a livello di regole. Tuttavia, i benchmark esistenti raramente forniscono impostazioni controllate in cui gli stati logici sono fissi mentre questi fattori di disturbo variano. Per colmare questa lacuna, presentiamo VID-AD, un dataset per la rilevazione di anomalie logiche sotto distrazione indotta dalla visione. Comprende 10 scenari manifatturieri e cinque condizioni di acquisizione, per un totale di 50 task one-class e 10.395 immagini. Ogni scenario è definito da due vincoli logici selezionati tra quantità, lunghezza, tipo, posizionamento e relazione, con anomalie che includono violazioni singole e combinate dei vincoli. Proponiamo inoltre un framework per la rilevazione di anomalie basato sul linguaggio che si affida esclusivamente a descrizioni testuali generate da immagini normali. Utilizzando l'apprendimento per contrasto con testi positivi e testi negativi basati su contraddizioni sintetizzati da queste descrizioni, il nostro metodo apprende embedding che catturano attributi logici anziché caratteristiche di basso livello. Esperimenti estensivi dimostrano miglioramenti consistenti rispetto ai baseline in tutte le impostazioni valutate. Il dataset è disponibile all'indirizzo: https://github.com/nkthiroto/VID-AD.
Il persiano presenta sfide uniche nella comprensione audio attraverso la sua poesia classica, la musica tradizionale e l'onnipresente code-switching - aspetti non catturati da benchmark esistenti. Presentiamo PARSA-Bench (Persian Audio Reasoning and Speech Assessment Benchmark), il primo benchmark per valutare modelli audio-linguistici di grandi dimensioni sulla lingua e cultura persiana, comprendente 16 task e oltre 8.000 campioni tra comprensione del parlato, analisi paralinguistica e comprensione audio culturale. Dieci task sono newly introduced, inclusi rilevamento di metro e stile poetico, comprensione della musica tradizionale persiana e rilevamento del code-switching. I baseline basati solo su testo superano costantemente le controparti audio, suggerendo che i modelli potrebbero non sfruttare informazioni specifiche dell'audio oltre quanto fornito dalla sola trascrizione. I task culturalmente radicati rivelano una modalità di fallimento qualitativamente distinta: tutti i modelli performano vicino al caso casuale nel rilevamento del vazn indipendentemente dalla scala, suggerendo che la percezione prosodica rimanga fuori dalla portata dei modelli attuali. Il dataset è pubblicamente disponibile su https://huggingface.co/datasets/MohammadJRanjbar/PARSA-Bench.