Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Wan-Move, un framework semplice e scalabile che introduce il controllo del movimento ai modelli generativi di video. I metodi esistenti per il controllo del movimento soffrono tipicamente di una granularità di controllo approssimativa e di una scalabilità limitata, rendendo i loro output insufficienti per un uso pratico. Colmiamo questa lacuna ottenendo un controllo del movimento preciso e di alta qualità. La nostra idea centrale è rendere direttamente *motion-aware* le caratteristiche di condizionamento originali per guidare la sintesi video. A tal fine, rappresentiamo innanzitutto i movimenti degli oggetti con traiettorie dense di punti, consentendo un controllo fine-granularità sulla scena. Successivamente, proiettiamo queste traiettorie nello spazio latente e propaghiamo le caratteristiche del primo fotogramma lungo ciascuna traiettoria, producendo una mappa di caratteristiche spaziotemporali allineata che indica come dovrebbe muoversi ogni elemento della scena. Questa mappa di caratteristiche funge da condizione latente aggiornata, che viene integrata in modo naturale in modelli image-to-video preesistenti, ad esempio Wan-I2V-14B, come guida al movimento senza alcuna modifica architetturale. Ciò elimina la necessità di encoder di movimento ausiliari e rende facilmente scalabile il fine-tuning dei modelli base. Attraverso un training scalato, Wan-Move genera video da 5 secondi e 480p la cui controllabilità del movimento rivaleggia con il Motion Brush commerciale di Kling 1.5 Pro, come indicato da studi utente. Per supportare una valutazione completa, abbiamo inoltre progettato MoveBench, un benchmark rigorosamente curato che include categorie di contenuto diversificate e annotazioni ibride verificate. Si distingue per un volume di dati maggiore, durate video più lunghe e annotazioni di movimento di alta qualità. Esperimenti estensivi su MoveBench e su dataset pubblici mostrano costantemente la qualità motoria superiore di Wan-Move. Codice, modelli e dati del benchmark sono resi pubblicamente disponibili.
Il rendering neurale, in particolare il 3D Gaussian Splatting (3DGS), si è evoluto rapidamente diventando un componente chiave per la costruzione di modelli del mondo. Tuttavia, le soluzioni di visualizzazione esistenti rimangono frammentate, pesanti o vincolate da pipeline legacy, risultando in un'elevata frizione di deployment e un supporto limitato per contenuti dinamici e modelli generativi. In questo lavoro, presentiamo Visionary, una piattaforma web-native e aperta per il rendering in tempo reale di vari Gaussian Splatting e mesh. Basata su un efficiente renderer WebGPU con inferenza ONNX per fotogramma, Visionary abilita l'elaborazione neurale dinamica mantenendo un'esperienza browser leggera e "click-to-run". Introduce un contratto standardizzato di Gaussian Generator, che non solo supporta il rendering 3DGS standard, ma permette anche ad algoritmi plug-and-play di generare o aggiornare i Gaussian a ogni fotogramma. Tale inferenza ci consente inoltre di applicare post-elaborazione generativa feedforward. La piattaforma offre inoltre un plug-in per la libreria three.js con una concisa API TypeScript per un'integrazione senza soluzione di continuità nelle applicazioni web esistenti. Gli esperimenti dimostrano che, a parità di asset 3DGS, Visionary raggiunge un'efficienza di rendering superiore rispetto ai visualizzatori Web attuali grazie all'ordinamento primitivo basato su GPU. Supporta già multiple varianti, inclusi 3DGS basati su MLP, 4DGS, avatar neurali e reti di trasformazione stilistica o enhancement. Unificando inferenza e rendering direttamente nel browser, Visionary riduce significativamente la barriera per la riproduzione, il confronto e il deployment di metodi della famiglia 3DGS, servendo come World Model Carrier unificato sia per paradigmi ricostruttivi che generativi.
Lo scambio di volti video è cruciale nella produzione cinematografica e dell'intrattenimento, dove ottenere un'alta fedeltà e una consistenza temporale in sequenze video lunghe e complesse rimane una sfida significativa. Ispirati dai recenti progressi nell'editing di immagini guidato da riferimenti, esploriamo se gli attributi visivi ricchi dei video sorgente possano essere similmente sfruttati per migliorare sia la fedeltà che la coerenza temporale nello scambio di volti video. Basandoci su questa intuizione, questo lavoro presenta LivingSwap, il primo modello di scambio volti video guidato da riferimento. Il nostro approccio utilizza fotogrammi chiave come segnali di condizionamento per iniettare l'identità target, consentendo un editing flessibile e controllabile. Combinando il condizionamento dei fotogrammi chiave con la guida del riferimento video, il modello esegue una cucitura temporale per garantire una conservazione stabile dell'identità e una ricostruzione ad alta fedeltà attraverso lunghe sequenze video. Per affrontare la carenza di dati per l'addestramento guidato da riferimento, costruiamo un dataset accoppiato per lo scambio di volti, Face2Face, e invertiamo ulteriormente le coppie di dati per garantire una supervisione ground-truth affidabile. Esperimenti estensivi dimostrano che il nostro metodo raggiunge risultati all'avanguardia, integrando perfettamente l'identità target con le espressioni, l'illuminazione e il movimento del video sorgente, riducendo significativamente lo sforzo manuale nei flussi di lavoro di produzione. Pagina del progetto: https://aim-uofa.github.io/LivingSwap
La narrazione nei video del mondo reale si sviluppa spesso attraverso più inquadrature – clip discontinue ma semanticamente connesse che insieme trasmettono una narrazione coerente. Tuttavia, i metodi esistenti per la generazione di video multi-inquadratura (MSV) faticano a modellare efficacemente il contesto a lungo raggio tra le inquadrature, poiché si basano su finestre temporali limitate o sul condizionamento di un singolo fotogramma chiave, portando a prestazioni ridotte in narrazioni complesse. In questo lavoro, proponiamo OneStory, che consente una modellizzazione del contesto tra inquadrature globale ma compatta per una generazione narrativa coerente e scalabile. OneStory riformula la MSV come un compito di generazione dell'inquadratura successiva, permettendo una sintesi autoregressiva delle inquadrature sfruttando modelli preaddestrati da immagine a video (I2V) per un forte condizionamento visivo. Introduciamo due moduli chiave: un modulo di Selezione dei Fotogrammi che costruisce una memoria globale semanticamente rilevante basata su fotogrammi informativi delle inquadrature precedenti, e un Condizionatore Adattivo che esegue una "patchificazione" guidata dall'importanza per generare un contesto compatto per il condizionamento diretto. Curiamo inoltre un dataset multi-inquadratura di alta qualità con didascalie referenziali per rispecchiare i modelli narrativi del mondo reale e progettiamo strategie di addestramento efficaci sotto il paradigma dell'inquadratura successiva. Addestrato a partire da un modello I2V preaddestrato sul nostro dataset curato di 60K elementi, OneStory raggiunge una coerenza narrativa allo stato dell'arte attraverso scene diverse e complesse sia in contesti condizionati da testo che da immagine, abilitando una narrazione video di lunga durata controllabile e immersiva.
Il ridimensionamento del calcolo in fase di inferenza ha consentito ai Large Language Model (LLM) di ottenere prestazioni di ragionamento solide, ma la decodifica intrinsecamente sequenziale comporta una latenza sostanziale, specialmente su compiti complessi. I recenti lavori sul ragionamento parallelo adattivo mirano a migliorare l'efficienza dell'inferenza scomponendo il processo di risoluzione dei problemi in thread di ragionamento concorrenti quando vantaggioso. Tuttavia, i metodi esistenti su compiti realistici sono limitati alla clonazione del comportamento supervisionato o mostrano cali significativi di accuratezza rispetto ai diffusi baseline sequenziali a lunga catena di pensiero (CoT). Inoltre, molti richiedono motori di inferenza personalizzati, complicando la distribuzione. Introduciamo ThreadWeaver, un framework per il ragionamento parallelo adattivo che raggiunge un'accuratezza pari a quella dei popolari modelli di ragionamento sequenziale di dimensioni comparabili, riducendo significativamente la latenza di inferenza. Le prestazioni di ThreadWeaver derivano da tre innovazioni chiave: 1) un generatore di traiettorie parallele a due stadi che produce dati CoT su larga scala e di alta qualità con annotazioni parallele per il fine-tuning supervisionato; 2) una co-progettazione training-inferenza basata su trie che abilita il ragionamento parallelo su qualsiasi motore di inferenza autoregressivo standard senza modificare gli embedding posizionali o le cache KV; e 3) un framework di reinforcement learning consapevole della parallelizzazione che insegna al modello a bilanciare accuratezza e parallelizzazione efficace. Su sei benchmark impegnativi di ragionamento matematico, ThreadWeaver addestrato su Qwen3-8B raggiunge un'accuratezza comparabile ai più avanzati modelli di ragionamento sequenziale (71,9% in media e 79,9% su AIME24) fornendo fino a 1,53x di accelerazione media nella latenza per token, stabilendo una nuova frontiera di Pareto tra accuratezza ed efficienza.
La Video Instance Segmentation (VIS) affronta notevoli sfide annotative a causa dei suoi duplici requisiti di maschere a livello di pixel ed etichette di coerenza temporale. Sebbene i recenti metodi non supervisionati come VideoCutLER eliminino le dipendenze dal flusso ottico attraverso dati sintetici, essi rimangono limitati dal divario di dominio sintetico-reale. Presentiamo AutoQ-VIS, un nuovo framework non supervisionato che colma questo divario attraverso l'auto-addestramento guidato dalla qualità. Il nostro approccio stabilisce un sistema a ciclo chiuso tra la generazione di pseudo-etichette e la valutazione automatica della qualità, consentendo un adattamento progressivo dai video sintetici a quelli reali. Gli esperimenti dimostrano prestazioni all'avanguardia con 52.6 AP₅₀ sul set di validazione di YouTubeVIS-2019, superando del 4.4% il precedente state-of-the-art VideoCutLER, pur non richiedendo annotazioni umane. Ciò dimostra la fattibilità dell'auto-addestramento consapevole della qualità per la VIS non supervisionata. Rilasceremo il codice su https://github.com/wcbup/AutoQ-VIS.
I moderni Large Language Model raggiungono capacità di ragionamento impressionanti con lunghe Catene di Pensiero, ma comportano un costo computazionale sostanziale durante l'inferenza, il che motiva lo sviluppo di tecniche per migliorare il rapporto prestazioni-costo. Tra queste tecniche, lo Speculative Decoding accelera l'inferenza impiegando un modello draft veloce ma impreciso per proporre token in modo autoregressivo, che vengono poi verificati in parallelo da un modello target più capace. Tuttavia, a causa di rifiuti non necessari causati da discrepanze tra token in passaggi semanticamente equivalenti, lo Speculative Decoding tradizionale a livello di token risulta inefficace nei compiti di ragionamento. Sebbene lavori recenti si siano orientati verso una verifica semantica a livello di passo, che migliora l'efficienza accettando o rifiutando interi passaggi di ragionamento, i metodi esistenti a livello di passo rigenerano comunque molti passaggi rifiutati con scarso miglioramento, sprecando preziosa capacità di calcolo del modello target. Per affrontare questa sfida, proponiamo Arbitrage, un nuovo framework di generazione speculativa a livello di passo che instrada dinamicamente la generazione in base al vantaggio relativo tra i modelli draft e target. Invece di applicare una soglia di accettazione fissa, Arbitrage utilizza un router leggero addestrato per prevedere quando è probabile che il modello target produca un passo significativamente migliore. Questo instradamento approssima un Oracle Arbitrage ideale che sceglie sempre il passo di qualità superiore, raggiungendo compromessi efficienza- accuratezza quasi ottimali. Su molteplici benchmark di ragionamento matematico, Arbitrage supera costantemente i precedenti baseline di Speculative Decoding a livello di passo, riducendo la latenza di inferenza fino a ~2 volte a parità di accuratezza.
L'apprendimento per imitazione incarnato è limitato dalla scarsità di dati diversificati e a lungo orizzonte per la manipolazione robotica. I modelli esistenti di generazione video per questo dominio sono limitati alla sintesi di clip brevi di azioni semplici e spesso si basano su traiettorie definite manualmente. A tal fine, introduciamo MIND-V, un framework gerarchico progettato per sintetizzare video fisicamente plausibili e logicamente coerenti di manipolazione robotica a lungo orizzonte. Ispirato dalle scienze cognitive, MIND-V collega il ragionamento di alto livello con la sintesi a livello di pixel attraverso tre componenti principali: un Semantic Reasoning Hub (SRH) che sfrutta un modello visione-linguaggio pre-addestrato per la pianificazione dei compiti; un Behavioral Semantic Bridge (BSB) che traduce istruzioni astratte in rappresentazioni invarianti al dominio; e un Motor Video Generator (MVG) per il rendering video condizionato. MIND-V impiega Staged Visual Future Rollouts, una strategia di ottimizzazione al momento del test per migliorare la robustezza a lungo orizzonte. Per allineare i video generati con le leggi fisiche, introduciamo una fase di post-addestramento con apprendimento per rinforzo GRPO guidata da una nuova ricompensa di Coerenza di Previsione Fisica (PFC). La PFC sfrutta il modello mondiale V-JEPA per imporre la plausibilità fisica allineando le evoluzioni dinamiche previste e quelle effettive nello spazio delle caratteristiche. MIND-V dimostra prestazioni all'avanguardia nella generazione di video di manipolazione robotica a lungo orizzonte, stabilendo un paradigma scalabile e controllabile per la sintesi di dati incarnati.
I modelli linguistici multimodali di grandi dimensioni (MLLM) dovrebbero interpretare congiuntamente visione, audio e linguaggio, tuttavia i benchmark video esistenti raramente valutano il ragionamento di livello fine sul parlato umano. Molti compiti rimangono risolvibili visivamente o valutano il parlato solo in modo approssimativo, offrendo una comprensione limitata sulla capacità dei modelli di allineare chi parla, cosa viene detto e quando ciò avviene. Introduciamo AV-SpeakerBench, un benchmark curato di 3.212 domande a scelta multipla incentrate sul ragionamento audiovisivo centrato sul parlante in video del mondo reale. Esso presenta: (1) una formulazione centrata sul parlante che tratta i parlanti – non le scene – come unità di ragionamento fondamentale; (2) un design delle domande basato sulla fusione che incorpora le dipendenze audiovisive nella semantica della domanda; e (3) annotazioni curate da esperti che garantiscono precisione temporale e validità cross-modale. Valutazioni complete mostrano che la famiglia Gemini supera costantemente i sistemi open-source, con Gemini 2.5 Pro che ottiene i risultati migliori. Tra i modelli open, Qwen3-Omni-30B si avvicina a Gemini 2.0 Flash ma rimane molto indietro rispetto a Gemini 2.5 Pro, principalmente a causa di una fusione audiovisiva più debole piuttosto che di una percezione visiva inferiore. Riteniamo che AV-SpeakerBench stabilisca una base rigorosa per far progredire il ragionamento audiovisivo di livello fine nei futuri sistemi multimodali.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno dato vita a potenti agenti di codifica, rendendo possibile l'evoluzione degli assistenti di codice in veri e propri ingegneri del software. Tuttavia, i metodi esistenti continuano ad affrontare sfide significative nel raggiungere una sintesi ad alta fedeltà da documento a codebase – come nel caso della trasformazione di articoli scientifici in codice – principalmente a causa di un conflitto fondamentale tra il sovraccarico informativo e i colli di bottiglia contestuali degli LLM. In questo lavoro, introduciamo DeepCode, un framework completamente autonomo che affronta alla radice questa sfida attraverso una gestione principiata del flusso informativo. Trattando la sintesi di repository come un problema di ottimizzazione del canale, DeepCode orchestra in modo fluido quattro operazioni informative per massimizzare i segnali rilevanti per il task sotto budget contestuali finiti: compressione della fonte tramite distillazione di blueprint, indicizzazione strutturata mediante memoria di codice stateful, iniezione condizionata di conoscenza tramite generazione aumentata per retrieval e correzione degli errori in ciclo chiuso. Valutazioni estensive sul benchmark PaperBench dimostrano che DeepCode raggiunge prestazioni all'avanguardia, superando decisamente agenti commerciali leader come Cursor e Claude Code e, aspetto cruciale, superando esperti umani di livello PhD di istituti di eccellenza nelle metriche chiave di riproduzione. Trasformando sistematicamente specifiche cartacee in implementazioni di qualità paragonabile a quella produttiva umana, questo lavoro getta nuove fondamenta per la riproduzione scientifica autonoma in grado di accelerare la valutazione della ricerca e la scoperta.
L'addestramento post-rinforzo (RL) è cruciale per allineare i modelli generativi con le preferenze umane, ma il suo costo computazionale proibitivo rimane una barriera principale alla diffusione su larga scala. Introduciamo TreeGRPO, un nuovo framework RL che migliora drasticamente l'efficienza dell'addestramento riconfigurando il processo di rimozione del rumore come un albero di ricerca. Partendo da campioni di rumore iniziali condivisi, TreeGRPO si ramifica strategicamente per generare multiple traiettorie candidate, riutilizzando efficientemente i loro prefissi comuni. Questo approccio ad albero offre tre vantaggi chiave: (1) Alta efficienza campionaria, ottenendo prestazioni migliori a parità di campioni di addestramento; (2) Assegnazione del credito granulare tramite backpropagazione della ricompensa che calcola vantaggi specifici per ogni passo, superando la limitazione dell'assegnazione uniforme del credito dei metodi basati su traiettoria; e (3) Computazione ammortizzata in cui la ramificazione multi-figlio abilita aggiornamenti multipli della politica per ogni passaggio in avanti. Esperimenti estesi su modelli basati sia su diffusione che su flussi dimostrano che TreeGRPO raggiunge un addestramento 2,4 volte più veloce stabilendo al contempo una frontiera di Pareto superiore nello spazio di compromesso efficienza-ricompensa. Il nostro metodo supera costantemente i baseline GRPO su molteplici benchmark e modelli di ricompensa, fornendo un percorso scalabile ed efficace per l'allineamento dei modelli generativi visivi basato su RL. Il sito web del progetto è disponibile all'indirizzo treegrpo.github.io.
Questo articolo presenta un framework modulare neurale per l'elaborazione del segnale d'immagine (ISP) che elabora input grezzi e restituisce immagini di alta qualità riferite al display. A differenza delle precedenti progettazioni neurali ISP, il nostro metodo introduce un elevato grado di modularità, fornendo il controllo completo su molteplici stadi intermedi del processo di rendering. Questo design modulare non solo raggiunge un'elevata accuratezza di rendering, ma migliora anche la scalabilità, la debugabilità, la generalizzazione a telecamere non viste e la flessibilità per adattarsi a diversi stili preferiti dall'utente. Per dimostrare i vantaggi di questa progettazione, abbiamo sviluppato uno strumento di fotoritocco interattivo che sfrutta il nostro ISP neurale per supportare diverse operazioni di editing e stili fotografici. Lo strumento è ingegnerizzato con cura per sfruttare i vantaggi del rendering di alta qualità del nostro ISP neurale e per abilitare una nuova resa illimitata e modificabile in post-produzione. Il nostro metodo è un framework completamente basato sull'apprendimento con varianti di diverse capacità, tutte di dimensioni moderate (che vanno da ~0,5 M a ~3,9 M di parametri per l'intera pipeline), e fornisce costantemente risultati qualitativi e quantitativi competitivi su molteplici set di test. Guarda il video supplementare all'indirizzo: https://youtu.be/ByhQjQSjxVM
I grandi modelli linguistici (LLM) eccellono nella generazione, ma la decodifica autoregressiva (AR) dominante è intrinsecamente sequenziale, creando un collo di bottiglia per la produttività. I modelli linguistici a diffusione (DLM) – specialmente le varianti a blocchi – consentono una generazione parallela e un ragionamento bidirezionale intra-blocco, eppure l'addestramento di grandi DLM da zero è costoso e spreca la conoscenza contenuta nei checkpoint AR maturi. I precedenti tentativi di "adattamento" hanno modificato i logit o esteso casualmente le maschere di attenzione alla diffusione a sequenza completa, o hanno semplicemente trapiantato i pesi AR in una ricetta a diffusione a blocchi, lasciando irrisolta una fondamentale discrepanza tra la causalità AR e la bidirezionalità a blocchi. Noi riformuliamo l'adattamento come un percorso intra-paradigma dall'AR alla diffusione a blocchi, considerando l'AR come un caso di diffusione a blocchi con dimensione del blocco=1. Nello specifico, progettiamo il percorso di adattamento come segue: utilizziamo una maschera di attenzione contestuale-causale (causale nel contesto, bidirezionale solo all'interno del blocco attivo), una procedura di adattamento parallelo efficiente, una perdita AR ausiliaria per massimizzare l'utilizzo dei dati e conservare la conoscenza pre-addestrata, e un incremento graduale della dimensione del blocco di generazione. La ricetta si integra perfettamente con la diffusione a blocchi mascherata e mantiene la coerenza tra addestramento e inferenza. Basandosi su questi componenti, NBDiff-7B (Base e Instruct) ha potuto ereditare le capacità di modellazione di contesti lunghi e di ragionamento, e ha raggiunto prestazioni all'avanguardia tra i DLM della classe 7B, ottenendo significativi miglioramenti su benchmark di conoscenza generale, matematica e codice rispetto a baseline solide. Questi risultati dimostrano che un adattamento principiato dall'AR alla diffusione a blocchi è un'alternativa efficace e computazionalmente efficiente all'addestramento di DLM da zero. Codici: https://github.com/YuchuanTian/NBDiff.
Comprendere e ricostruire la geometria complessa e il movimento di scene dinamiche a partire da video rimane una sfida formidabile nella visione artificiale. Questo articolo presenta D4RT, un modello feedforward semplice ma potente progettato per risolvere efficientemente questo compito. D4RT utilizza un'architettura transformer unificata per inferire congiuntamente la profondità, la corrispondenza spazio-temporale e i parametri completi della telecamera da un singolo video. La sua innovazione fondamentale è un nuovo meccanismo di query che evita l'oneroso calcolo della decodifica densa per fotogramma e la complessità della gestione di molteplici decoder specifici per compito. La nostra interfaccia di decodifica consente al modello di sondare in modo indipendente e flessibile la posizione 3D di qualsiasi punto nello spazio e nel tempo. Il risultato è un metodo leggero e altamente scalabile che permette un addestramento e un'inferenza straordinariamente efficienti. Dimostriamo che il nostro approccio stabilisce un nuovo stato dell'arte, superando i metodi precedenti in un'ampia gamma di compiti di ricostruzione 4D. Rimandiamo alla pagina web del progetto per i risultati animati: https://d4rt-paper.github.io/.
Sebbene i recenti modelli visione-linguaggio (VLM) di grandi dimensioni abbiano migliorato la generalizzazione nella navigazione visione-linguaggio (VLN), i metodi esistenti si basano tipicamente su pipeline end-to-end che mappano direttamente gli input visivo-linguistici ad azioni discrete a breve orizzonte. Tali progettazioni producono spesso movimenti frammentati, comportano un'elevata latenza e faticano a gestire le sfide del mondo reale, come l'evitamento dinamico degli ostacoli. Proponiamo DualVLN, il primo modello foundation VLN a sistema duale che integra sinergicamente il ragionamento di alto livello con l'esecuzione di azioni di basso livello. Il Sistema 2, un pianificatore globale basato su VLM, "ragiona con lentezza" prevedendo waypoint a medio termine tramite un ragionamento ancorato alle immagini. Il Sistema 1, una politica basata su Diffusion Transformer, leggera e condizionata multimodalmente, "si muove con rapidità" sfruttando sia obiettivi pixel espliciti che feature latenti dal Sistema 2 per generare traiettorie fluide e accurate. La progettazione a sistema duale consente un controllo robusto in tempo reale e un processo decisionale locale adattivo in ambienti complessi e dinamici. Disaccoppiando l'addestramento, il VLM mantiene la sua generalizzazione, mentre il Sistema 1 realizza una navigazione locale interpretabile ed efficace. DualVLN supera i metodi precedenti in tutti i benchmark VLN e gli esperimenti nel mondo reale dimostrano una pianificazione robusta a lungo orizzonte e un'adattabilità in tempo reale in ambienti dinamici.
Gli agenti fondazionali hanno rapidamente progredito nelle capacità di ragionamento e interazione con ambienti reali, rendendo sempre più cruciale la valutazione delle loro competenze fondamentali. Sebbene siano stati sviluppati molti benchmark per valutare le prestazioni degli agenti, la maggior parte si concentra su contesti accademici o scenari progettati artificialmente, trascurando le sfide che emergono nelle applicazioni reali. Per affrontare questa lacuna, ci focalizziamo su un ambito estremamente pratico e reale: il dominio dell'e-commerce, che coinvolge un volume elevato di interazioni utente diversificate, condizioni di mercato dinamiche e compiti legati direttamente a processi decisionali reali. A tal fine, introduciamo EcomBench, un benchmark olistico per l'e-commerce progettato per valutare le prestazioni degli agenti in ambienti di e-commerce realistici. EcomBench è costruito a partire da richieste autentiche degli utenti integrate nei principali ecosistemi globali di e-commerce ed è curato e annotato meticolosamente da esperti umani per garantire chiarezza, accuratezza e pertinenza settoriale. Copre multiple categorie di compiti negli scenari di e-commerce e definisce tre livelli di difficoltà che valutano gli agenti su capacità chiave come la ricerca approfondita di informazioni, il ragionamento multi-step e l'integrazione di conoscenze trasversali. Basando la valutazione su contesti reali di e-commerce, EcomBench fornisce un banco di prova rigoroso e dinamico per misurare le capacità pratiche degli agenti nell'e-commerce moderno.
I grandi modelli di ragionamento ottengono prestazioni elevate su compiti complessi generando catene di pensiero estese, ma spesso "pensano troppo": continuano a ragionare ben dopo aver raccolto informazioni sufficienti per rispondere correttamente. Ciò spreca risorse computazionali durante l'inferenza e può danneggiare l'accuratezza. I tentativi esistenti di arresto precoce manipolano il decoding con campionamenti aggiuntivi ed euristiche, si affidano a modelli verificatori ausiliari, o operano solo come pipeline di analisi post-hoc senza garanzie formali. Introduciamo LYNX, un meccanismo di uscita anticipata online che trasforma la consapevolezza dello stato interno del modello in decisioni di arresto controllate dalla confidenza. LYNX collega le decisioni di uscita a segnali di ragionamento naturali (es. "hmm", "aspetta") durante la generazione, addestra una sonda leggera sugli stati interni in corrispondenza di tali segnali usando supervisione da uscite forzate, e avvolge i punteggi risultanti nella predizione conformale split per ottenere un controllo distribuzione-libero sulle uscite premature. Crucialmente, addestriamo e calibriamo questa sonda una volta su un corpus matematico generico e la riutilizziamo invariata su benchmark, temperature di decoding e persino compiti non matematici. Su tre famiglie di modelli da 1,5B a 32B parametri, una singola sonda addestrata matematicamente per modello base produce forti compromessi accuratezza-efficienza. Su GSM8K, LYNX eguaglia o migliora l'accuratezza baseline riducendo i token del 40–65%; su MATH-500 migliora l'accuratezza fino a 12 punti con circa il 35–60% di token in meno; su AIME 2024 recupera l'accuratezza baseline con risparmi superiori al 50% sui token; e su CommonsenseQA, un benchmark non matematico, trasferisce zero-shot con modesti guadagni di accuratezza e fino al 70% di token in meno. Rispetto ai metodi di uscita anticipata all'avanguardia, LYNX offre fronti di Pareto competitivi o superiori rimanendo completamente online, non richiedendo modelli proxy durante l'inferenza e fornendo garanzie di confidenza esplicite e regolabili dall'utente.
Il tracciamento monoculare 3D mira a catturare il movimento a lungo termine dei pixel nello spazio 3D a partire da un singolo video monoculare e ha registrato rapidi progressi negli ultimi anni. Tuttavia, riteniamo che i metodi esistenti di tracciamento monoculare 3D siano ancora carenti nella separazione del movimento della fotocamera dal movimento dinamico in primo piano e non siano in grado di tracciare in modo denso i nuovi soggetti dinamici che emergono nei video. Per affrontare queste due limitazioni, proponiamo TrackingWorld, una nuova pipeline per il tracciamento 3D denso di quasi tutti i pixel all'interno di un sistema di coordinate 3D centrato sul mondo. In primo luogo, introduciamo un upsampler di tracciamento che solleva efficientemente le tracce 2D sparse arbitrarie in tracce 2D dense. Quindi, per generalizzare i metodi di tracciamento attuali ai nuovi oggetti emergenti, applichiamo l'upsampler a tutti i fotogrammi e riduciamo la ridondanza delle tracce 2D eliminando le tracce nelle regioni sovrapposte. Infine, presentiamo un framework efficiente basato sull'ottimizzazione per retroproiettare le tracce 2D dense in traiettorie 3D centrate sul mondo, stimando le pose della fotocamera e le coordinate 3D di queste tracce 2D. Valutazioni estese su dataset sia sintetici che del mondo reale dimostrano che il nostro sistema raggiunge un tracciamento 3D accurato e denso in un sistema di coordinate centrato sul mondo.
I tumori cerebrali rappresentano una minaccia significativa per la vita umana, pertanto è estremamente necessario rilevarli accuratamente nelle fasi iniziali per una migliore diagnosi e trattamento. I radiologi possono individuare manualmente i tumori cerebrali dalle immagini di risonanza magnetica dei pazienti. Tuttavia, l'incidenza dei tumori cerebrali è aumentata tra bambini e adolescenti negli ultimi anni, generando un volume sostanziale di dati; di conseguenza, il rilevamento manuale risulta dispendioso in termini di tempo e difficoltoso. Con l'emergere dell'intelligenza artificiale nel mondo moderno e le sue vaste applicazioni in campo medico, è possibile approcciarsi a sistemi CAD (Diagnosi Assistita da Computer) per il rilevamento automatico precoce dei tumori cerebrali. Tutti i modelli esistenti per questo compito non sono completamente generalizzati e forniscono prestazioni scarse sui dati di validazione. Pertanto, abbiamo proposto due nuove architetture di apprendimento profondo: (a) SAETCN (Self-Attention Enhancement Tumor Classification Network) per la classificazione di diversi tipi di tumori cerebrali. Abbiamo raggiunto un'accuratezza del 99,38% sul dataset di validazione, rendendola una delle poche architetture innovative basate sull'apprendimento profondo in grado di rilevare con precisione i tumori cerebrali. Abbiamo addestrato il modello sul dataset contenente immagini di 3 tipi di tumori (glioma, meningioma e tumori pituitari) e casi non tumorali. E (b) SAS-Net (Self-Attentive Segmentation Network) per la segmentazione accurata dei tumori cerebrali. Abbiamo ottenuto un'accuratezza pixel complessiva del 99,23%.
I Large Language Model (LLM) potenziati con memoria hanno dimostrato una notevole coerenza durante dialoghi prolungati, memorizzando ricordi rilevanti e incorporandoli come contesto. Tale personalizzazione basata sulla memoria è fondamentale anche in ambienti on-device che consentono agli utenti di mantenere private le proprie conversazioni e dati. Tuttavia, i sistemi potenziati con memoria si basano tipicamente su LLM troppo costosi per una distribuzione locale su dispositivo. Sebbene i Small Language Model (SLM) siano più adatti per l'inferenza on-device rispetto agli LLM, non riescono a raggiungere prestazioni sufficienti. Inoltre, questi sistemi basati su LLM mancano di capacità visive native, limitando la loro applicabilità in contesti multimodali. In questo articolo, introduciamo (i) MemLoRA, un innovativo sistema di memoria che consente la distribuzione locale equipaggiando gli SLM con adattatori di memoria specializzati, e (ii) la sua estensione visiva MemLoRA-V, che integra piccoli Vision-Language Model (SVLM) nei sistemi di memoria, abilitando la comprensione visiva nativa. Seguendo i principi della distillazione della conoscenza, ogni adattatore viene addestrato separatamente per specifiche operazioni di memoria: estrazione di conoscenza, aggiornamento della memoria e generazione potenziata dalla memoria. Dotati di adattatori di memoria, i modelli piccoli consentono accurate operazioni di memoria on-device senza dipendenza dal cloud. Per operazioni solo testuali, MemLoRA supera modelli di riferimento 10 volte più grandi (ad esempio, Gemma2-27B) e raggiunge prestazioni paragonabili a modelli 60 volte più grandi (ad esempio, GPT-OSS-120B) sul benchmark LoCoMo. Per valutare invece le operazioni di comprensione visiva, estendiamo LoCoMo con impegnativi compiti di Visual Question Answering che richiedono ragionamento visivo diretto. Su questo, la nostra MemLoRA-V integrata con VLM mostra miglioramenti massicci rispetto agli approcci basati su descrizioni (81.3 vs. 23.7 di accuratezza) mantenendo al contempo solide prestazioni nei compiti testuali, dimostrando l'efficacia del nostro metodo in contesti multimodali.
Il recupero della mesh umana (HMR) mira a ricostruire la posa e la forma umana 3D a partire da osservazioni 2D ed è fondamentale per la comprensione centrata sull'uomo in scenari reali. Sebbene i recenti metodi HMR basati su immagini, come SAM 3D Body, raggiungano una forte robustezza su immagini in-the-wild, essi si basano su inferenze per fotogramma quando applicati a video, portando a incoerenza temporale e prestazioni degradate in caso di occlusioni. Affrontiamo questi problemi senza addestramento aggiuntivo sfruttando l'inerente continuità umana nei video. Proponiamo SAM-Body4D, un framework senza addestramento per HMR temporalmente coerente e robusto alle occlusioni da video. Inizialmente generiamo maschere consistenti per identità utilizzando un modello di segmentazione video promptabile, per poi affinarle con un modulo di Consapevolezza dell'Occlusione (Occlusion-Aware) per recuperare le regioni mancanti. Le maschere raffinate guidano SAM 3D Body a produrre traiettorie di mesh corporee complete e consistenti, mentre una strategia parallela basata sul padding consente un'inferenza efficiente per più persone. I risultati sperimentali dimostrano che SAM-Body4D raggiunge una stabilità temporale e una robustezza migliorate in video in-the-wild impegnativi, senza alcuna ri-addestramento. Il nostro codice e la demo sono disponibili al seguente indirizzo: https://github.com/gaomingqi/sam-body4d.
La creazione di surrogati rapidi e in grado di generalizzare la geometria per flussi non stazionari rimane una sfida. Presentiamo una Deep Operator Network dipendente dal tempo e consapevole della geometria, che prevede i campi di velocità per flussi a numero di Reynolds moderato attorno a forme parametriche e non parametriche. Il modello codifica la geometria attraverso un "trunk" a campo delle distanze con segno (SDF) e la storia del flusso attraverso un ramo di CNN, addestrato su 841 simulazioni ad alta fedeltà. Su forme non viste durante l'addestramento, raggiunge un errore L2 relativo a singolo passo di circa il 5% e accelerazioni fino a 1000 volte rispetto alla CFD. Forniamo diagnosi di rollout centrate sulla fisica, inclusi l'errore di fase in sonde e le norme di divergenza, per quantificare la fedeltà a lungo termine. Queste rivelano transitori accurati nel breve termine ma un accumulo di errore nelle scie a scala fine, più pronunciato per geometrie con spigoli vivi. Analizziamo le modalità di fallimento e delineiamo strategie di mitigazione pratiche. Codice, split dei dati e script sono rilasciati open source all'indirizzo: https://github.com/baskargroup/TimeDependent-DeepONet per supportare la riproducibilità e il benchmarking.
Il Gaussian Splatting 3D (3DGS) è emerso come una potente rappresentazione esplicita che abilita la ricostruzione 3D in tempo reale ad alta fedeltà e la sintesi di nuove viste. Tuttavia, il suo utilizzo pratico è ostacolato dalle ingenti richieste di memoria e computazionali necessarie per memorizzare e renderizzare milioni di Gaussiane. Queste sfide diventano ancora più severe nelle scene dinamiche 4D. Per affrontare questi problemi, il campo dell'Efficient Gaussian Splatting si è rapidamente evoluto, proponendo metodi che riducono la ridondanza preservando la qualità della ricostruzione. Questa rassegna fornisce la prima panoramica unificata delle tecniche efficienti di Gaussian Splatting 3D e 4D. Sia per gli scenari 3D che 4D, categorizziamo sistematicamente i metodi esistenti in due direzioni principali, Compressione dei Parametri e Compressione per Ristrutturazione, e riassumiamo in modo completo le idee centrali e le tendenze metodologiche all'interno di ogni categoria. Copriamo inoltre i dataset ampiamente utilizzati, le metriche di valutazione e i confronti rappresentativi tra benchmark. Infine, discutiamo le attuali limitazioni e delineiamo promettenti direzioni di ricerca verso un Gaussian Splatting scalabile, compatto e in tempo reale per la rappresentazione di scene 3D sia statiche che dinamiche.
Introduciamo due nuovi benchmark, REST e REST+ (Render-Equivalence Stress Tests), per consentire una valutazione sistematica dell'incoerenza cross-modale nei modelli linguistici multimodali di grandi dimensioni (MLLM). Gli MLLM sono addestrati per rappresentare la visione e il linguaggio nello stesso spazio di embedding, eppure non sono in grado di eseguire gli stessi compiti in entrambe le modalità. I nostri benchmark contengono campioni con la stessa informazione semantica in tre modalità (immagine, testo, mista) e dimostriamo che gli MLLM all'avanguardia non riescono a ragionare in modo coerente su queste diverse modalità. Valutiamo 15 MLLM e scopriamo che il grado di incoerenza modale varia sostanzialmente, anche tenendo conto dei problemi con il riconoscimento del testo (OCR). Né il rendering del testo come immagine né il rendering di un'immagine come testo risolvono l'incoerenza. Anche quando l'OCR è corretto, riscontriamo che le caratteristiche visive (colore e risoluzione del testo, ma non il font) e il numero di token visivi hanno un impatto sulle prestazioni del modello. Infine, scopriamo che il nostro punteggio di coerenza si correla con il divario modale tra testo e immagini, evidenziando un'interpretazione meccanicistica degli MLLM cross-modali incoerenti.
Per decenni, i mondi procedurali sono stati costruiti su funzioni di rumore procedurale come il rumore di Perlin, che sono veloci e infiniti, ma fondamentalmente limitati in termini di realismo e coerenza su larga scala. Presentiamo Terrain Diffusion, un successore dell'era dell'IA per il rumore di Perlin, che unisce la fedeltà dei modelli di diffusione con le proprietà che hanno reso il rumore procedurale indispensabile: estensione infinita e senza soluzione di continuità, consistenza del seed e accesso casuale a tempo costante. Il suo nucleo è InfiniteDiffusion, un nuovo algoritmo per la generazione infinita, che permette la sintesi in tempo reale di paesaggi sconfinati senza soluzione di continuità. Una pila gerarchica di modelli di diffusione combina il contesto planetario con il dettaglio locale, mentre una compatta codifica Laplaciana stabilizza gli output su scale dinamiche di livello terrestre. Un framework open-source per tensori infiniti supporta la manipolazione a memoria costante di tensori illimitati, e una distillazione di consistenza a pochi passi permette una generazione efficiente. Insieme, questi componenti stabiliscono i modelli di diffusione come base pratica per la generazione procedurale di mondi, in grado di sintetizzare interi pianeti in modo coerente, controllabile e senza limiti.