Articoli di ricerca IA selezionati quotidianamente con traduzioni
Gli agenti per l'uso del computer (CUA) sono estremamente promettenti per l'automazione di flussi di lavoro desktop complessi, tuttavia i progressi verso agenti a scopo generale sono limitati dalla scarsità di video dimostrativi umani continui e di alta qualità. Ricerche recenti sottolineano che il video continuo, non screenshot sporadici, è l'ingrediente critico mancante per scalare questi agenti. Tuttavia, il più grande dataset open esistente, ScaleCUA, contiene solo 2 milioni di screenshot, equivalenti a meno di 20 ore di video. Per affrontare questo collo di bottiglia, introduciamo CUA-Suite, un ecosistema su larga scala di dimostrazioni video esperte e annotazioni dense per agenti desktop professionali. Il suo nucleo è VideoCUA, che fornisce circa 10.000 task dimostrati da esseri umani su 87 applicazioni diverse con registrazioni schermo continue a 30 fps, tracce cinematiche del cursore e annotazioni di ragionamento multi-livello, per un totale di circa 55 ore e 6 milioni di frame di video esperto. A differenza dei dataset sparsi che catturano solo le coordinate finali del clic, questi flussi video continui preservano la completa dinamica temporale dell'interazione umana, formando un sovrainsieme di informazioni che può essere trasformato senza perdite nei formati richiesti dai framework di agenti esistenti. CUA-Suite fornisce inoltre due risorse complementari: UI-Vision, un benchmark rigoroso per valutare le capacità di grounding e pianificazione nei CUA, e GroundCUA, un dataset di grounding su larga scala con 56K screenshot annotati e oltre 3,6 milioni di annotazioni di elementi UI. Una valutazione preliminare rivela che gli attuali modelli d'azione di base (foundation action models) hanno notevoli difficoltà con le applicazioni desktop professionali (~60% di tasso di fallimento dei task). Oltre alla valutazione, il ricco corpus multimodale di CUA-Suite supporta nuove direzioni di ricerca, tra cui l'analisi generale dello schermo, il controllo spaziale continuo, la modellazione delle ricompense basata su video e i modelli del mondo visivo. Tutti i dati e i modelli sono rilasciati pubblicamente.
La comprensione video tramite modelli linguistici multimodali di grandi dimensioni (MLLM) rimane una sfida a causa delle lunghe sequenze di token dei video, che contengono estese dipendenze temporali e fotogrammi ridondanti. Gli approcci esistenti tipicamente trattano gli MLLM come riconoscitori passivi, elaborando interi video o fotogrammi campionati uniformemente senza un ragionamento adattivo. I recenti metodi basati su agenti introducono strumenti esterni, ma dipendono comunque da flussi di lavoro progettati manualmente e da strategie percezione-prima, risultando inefficienti su video lunghi. Presentiamo EVA, un framework di Reinforcement Learning Efficiente per Agenti Video End-to-End, che abilita una pianificazione-prima-della-percezione attraverso un ragionamento iterativo di riepilogo-pianificazione-azione-riflessione. EVA decide autonomamente cosa guardare, quando guardare e come guardare, raggiungendo una comprensione video efficiente e guidata dalla query. Per addestrare tali agenti, progettiamo una pipeline di apprendimento in tre fasi semplice ma efficace - comprendente fine-tuning supervisionato (SFT), Ottimizzazione di Kahneman-Tversky (KTO) e Ottimizzazione delle Politiche con Ricompensa Generalizzata (GRPO) - che colma il divario tra l'imitazione supervisionata e l'apprendimento per rinforzo. Costruiamo inoltre dataset di alta qualità per ogni fase, supportando un addestramento stabile e riproducibile. Valutiamo EVA su sei benchmark di comprensione video, dimostrandone le capacità complete. Rispetto ai baseline esistenti, EVA raggiunge un miglioramento sostanziale del 6-12% rispetto ai baseline MLLM generali e un ulteriore guadagno dell'1-3% rispetto ai precedenti metodi ad agenti adattivi. Il nostro codice e modello sono disponibili su https://github.com/wangruohui/EfficientVideoAgent.
Mentre i precedenti sforzi di red-teaming si sono concentrati sull'evocazione di output testuali dannosi da parte dei grandi modelli linguistici (LLM), tali approcci non riescono a cogliere le vulnerabilità specifiche degli agenti che emergono attraverso l'esecuzione multi-step di strumenti, specialmente in ecosistemi in rapida crescita come il Model Context Protocol (MCP). Per colmare questa lacuna, proponiamo un metodo di ricerca evolutiva trajectory-aware, T-MAP, che sfrutta le traiettorie di esecuzione per guidare la scoperta di prompt avversariali. Il nostro approccio consente la generazione automatica di attacchi che non solo eludono le misure di sicurezza, ma realizzano anche in modo affidabile obiettivi dannosi attraverso interazioni effettive con gli strumenti. Valutazioni empiriche condotte in vari ambienti MCP dimostrano che T-MAP supera sostanzialmente i metodi di riferimento nel tasso di realizzazione degli attacchi (ARR) e rimane efficace contro modelli all'avanguardia, inclusi GPT-5.2, Gemini-3-Pro, Qwen3.5 e GLM-5, rivelando così vulnerabilità precedentemente poco esplorate negli agenti LLM autonomi.
Con l'avanzamento dei Modelli Linguistici Multimediali (MLLM), gli agenti autonomi mobili con interfaccia grafica (GUI) stanno attirando un'attenzione crescente. Tuttavia, i metodi esistenti continuano a soffrire di un apprendimento inefficiente dalle traiettorie fallite e di un'assegnazione di credito ambigua in contesti di ricompensa sparsa per compiti GUI a lungo termine. A tal fine, proponiamo UI-Voyager, un innovativo agente GUI mobile a due stadi con auto-evoluzione. Nella prima fase, impieghiamo il Rejection Fine-Tuning (RFT), che consente la co-evoluzione continua di dati e modelli in un ciclo completamente autonomo. La seconda fase introduce il Group Relative Self-Distillation (GRSD), che identifica i punti critici di diramazione nelle esecuzioni di gruppo e costruisce una supervisione densa a livello di passo dalle traiettorie di successo per correggere quelle fallite. Esperimenti estensivi su AndroidWorld dimostrano che il nostro modello da 4B raggiunge un tasso di successo Pass@1 dell'81,0%, superando numerosi benchmark recenti e superando le prestazioni umane. Studi di ablazione e casi di studio verificano ulteriormente l'efficacia del GRSD. Il nostro metodo rappresenta un significativo balzo in avanti verso l'automazione GUI mobile efficiente, auto-evolutiva e ad alte prestazioni, senza la necessità di costose annotazioni manuali dei dati.
L'auto-distillazione è emersa come un paradigma efficace di post-addestramento per i LLM, che spesso migliora le prestazioni riducendo al contempo le tracce di ragionamento. Tuttavia, nel ragionamento matematico, scopriamo che può ridurre la lunghezza della risposta degradando al contempo le prestazioni. Riconduciamo questo deterioramento alla soppressione della verbalizzazione epistemica, ovvero l'espressione di incertezza da parte del modello durante il ragionamento. Attraverso esperimenti controllati che variano la ricchezza del contesto di condizionamento e la copertura del compito, dimostriamo che il condizionamento del teacher su informazioni ricche sopprime l'espressione dell'incertezza, consentendo una rapida ottimizzazione in-dominio con una copertura limitata del compito, ma danneggiando le prestazioni out-of-distribution (OOD), dove i problemi non visti beneficiano dell'espressione dell'incertezza e del conseguente aggiustamento. Su Qwen3-8B, DeepSeek-Distill-Qwen-7B e Olmo3-7B-Instruct, osserviamo cali di prestazioni fino al 40%. I nostri risultati evidenziano che esporre livelli appropriati di incertezza è cruciale per un ragionamento robusto e sottolineano l'importanza di ottimizzare il comportamento di ragionamento oltre il mero rafforzamento delle tracce di risposta corretta.
I modelli linguistici multimodali (MLLM) vengono sempre più impiegati come componenti percettive fondamentali per agenti autonomi in ambienti 3D, dalla robotica ai mondi virtuali. Queste applicazioni richiedono agli agenti di percepire rapidi cambiamenti di stato, attribuire le azioni alle entità corrette e ragionare su comportamenti multi-agente concorrenti da una prospettiva in prima persona, capacità che gli attuali benchmark non valutano adeguatamente. Introduciamo GameplayQA, un framework per valutare la percezione e il ragionamento incentrati sull'agente attraverso la comprensione video. Nello specifico, annotiamo densamente video di gameplay multiplayer 3D con una frequenza di 1,22 etichette al secondo, con didascalie temporizzate e concorrenti di stati, azioni ed eventi strutturate attorno a un sistema triadico di Sé, Altri Agenti e Mondo, una scomposizione naturale per ambienti multi-agente. Da queste annotazioni, abbiamo raffinato 2.400 coppie di domande e risposte diagnostiche organizzate in tre livelli di complessità cognitiva, accompagnate da una tassonomia strutturata di distrattori che consente un'analisi granulare di dove i modelli allucinano. La valutazione di MLLM all'avanguardia rivela un divario sostanziale rispetto alle prestazioni umane, con errori comuni nell'ancoraggio temporale e cross-video, nell'attribuzione dei ruoli degli agenti e nella gestione della densità decisionale del gioco. Speriamo che GameplayQA stimoli future ricerche all'intersezione tra IA incarnata, percezione agentica e modellazione del mondo.
I recenti progressi nei modelli linguistici multimodali di grandi dimensioni hanno portato a prestazioni elevate nei compiti di ragionamento, ma questi miglioramenti si basano in larga misura su dati annotati di alta qualità o sulla distillazione da modelli insegnanti, entrambi costosi e difficili da scalare. Per affrontare questo problema, proponiamo un framework di addestramento di auto-evoluzione non supervisionato per il ragionamento multimodale che raggiunge miglioramenti prestazionali stabili senza utilizzare risposte annotate da esseri umani o modelli di ricompensa esterni. Per ogni input, campioniamo multiple traiettorie di ragionamento e modelliamo congiuntamente la loro struttura intragruppo. Utilizziamo il segnale di auto-consistenza dell'Attore come prior di addestramento e introduciamo una modulazione basata su un Giudice delimitato per ponderare continuamente le traiettorie di qualità diversa. Modelliamo ulteriormente i punteggi modulati come una distribuzione a livello di gruppo e convertiamo i punteggi assoluti in vantaggi relativi all'interno di ciascun gruppo, consentendo aggiornamenti della politica più robusti. Addestrato con l'Ottimizzazione della Politica Relativa di Gruppo (GRPO) su dati non etichettati, il nostro metodo migliora costantemente le prestazioni di ragionamento e la generalizzazione su cinque benchmark di ragionamento matematico, offrendo un percorso scalabile verso modelli multimodali auto-evolutivi. Il codice è disponibile all'indirizzo https://github.com/OPPO-Mente-Lab/LLM-Self-Judge.
L'ottimizzazione generativa utilizza modelli linguistici di grandi dimensioni (LLM) per migliorare iterativamente gli artefatti (come codice, flussi di lavoro o prompt) sfruttando il feedback di esecuzione. È un approccio promettente per costruire agenti auto-miglioranti, ma nella pratica rimane fragile: nonostante la ricerca attiva, solo il 9% degli agenti esaminati utilizzava una qualche forma di ottimizzazione automatizzata. Sosteniamo che questa fragilità derivi dal fatto che, per impostare un ciclo di apprendimento, un ingegnere deve compiere scelte progettuali "nascoste": cosa può modificare l'ottimizzatore e qual è l'evidenza di apprendimento "corretta" da fornire ad ogni aggiornamento? Indaghiamo tre fattori che riguardano la maggior parte delle applicazioni: l'artefatto iniziale, l'orizzonte del credito per le tracce di esecuzione, e il raggruppamento di tentativi ed errori in evidenze di apprendimento. Attraverso studi di caso in MLAgentBench, Atari e BigBench Extra Hard, scopriamo che queste decisioni progettuali possono determinare il successo dell'ottimizzazione generativa, eppure sono raramente rese esplicite nei lavori precedenti. Diversi artefatti iniziali determinano quali soluzioni sono raggiungibili in MLAgentBench, tracce troncate possono comunque migliorare gli agenti Atari, e batch più grandi non migliorano monotonicamente la generalizzazione su BBEH. Concludiamo che la mancanza di un modo semplice e universale per impostare cicli di apprendimento tra diversi domini è un ostacolo maggiore per la produzione e l'adozione. Forniamo indicazioni pratiche per effettuare queste scelte.
Sebbene i recenti modelli generativi video abbiano ottenuto una notevole realismo visivo e siano esplorati come modelli del mondo, una vera simulazione fisica richiede la padronanza sia dello spazio che del tempo. I modelli attuali possono produrre una cinematica visivamente fluida, ma mancano di un impulso di movimento interno affidabile per ancorare questi movimenti a una scala temporale coerente e realistica. Questa ambiguità temporale deriva dalla pratica comune di addestrare indiscriminatamente su video con velocità del mondo reale molto diverse, costringendoli a frequenze fotogramma standardizzate. Ciò porta a ciò che definiamo allucinazione cronometrica: le sequenze generate mostrano velocità di movimento fisico ambigue, instabili e incontrollabili. Per affrontare questo problema, proponiamo Visual Chronometer, un predittore che recupera i Fotogrammi Fisici al Secondo (PhyFPS) direttamente dalle dinamiche visive di un video in input. Addestrato tramite ricampionamento temporale controllato, il nostro metodo stima la vera scala temporale implicita nel movimento stesso, bypassando metadati inaffidabili. Per quantificare sistematicamente questo problema, stabiliamo due benchmark, PhyFPS-Bench-Real e PhyFPS-Bench-Gen. Le nostre valutazioni rivelano una dura realtà: i generatori video all'avanguardia soffrono di un grave disallineamento dei PhyFPS e di instabilità temporale. Infine, dimostriamo che l'applicazione di correzioni PhyFPS migliora significativamente la naturalezza percepita dall'uomo dei video generati dall'intelligenza artificiale. La nostra pagina del progetto è https://xiangbogaobarry.github.io/Visual_Chronometer/.
Lo Splatting Gaussiano 3D (3DGS) consente una sintesi di nuove viste in tempo reale e fotorealistica, rendendolo una rappresentazione molto attraente per il tracciamento video basato su modelli. Tuttavia, sfruttare la differenziabilità del renderer 3DGS "in condizioni reali" rimane notoriamente fragile. Un collo di bottiglia fondamentale risiede nel supporto compatto e locale delle primitive gaussiane. Gli obiettivi fotometrici standard si basano implicitamente sulla sovrapposizione spaziale; se un disallineamento severo della camera posiziona l'oggetto renderizzato al di fuori dell'area locale del target, i gradienti svaniscono completamente, lasciando l'ottimizzatore bloccato. Introduciamo SpectralSplats, un framework robusto per il tracciamento che risolve questo problema del "gradiente che svanisce" spostando l'obiettivo di ottimizzazione dal dominio spaziale a quello delle frequenze. Supervisionando l'immagine renderizzata tramite un insieme di caratteristiche sinusoidali complesse globali (Momenti Spettrali), costruiamo un bacino di attrazione globale, garantendo che un gradiente valido e direzionale verso il target esista in tutto il dominio dell'immagine, anche quando la sovrapposizione pixel è completamente assente. Per sfruttare questo bacino globale senza introdurre minimi locali periodici associati alle alte frequenze, deriviamo da principi primi una pianificazione principled dell'Annealing in Frequenza, facendo transitare elegantemente l'ottimizzatore dalla convessità globale all'allineamento spaziale preciso. Dimostriamo che SpectralSplats funge da sostituto seamless e drop-in per le perdite spaziali attraverso diverse parametrizzazioni di deformazione (dalle MLP ai punti di controllo sparsi), recuperando con successo deformazioni complesse anche da inizializzazioni severamente disallineate dove il tracciamento standard basato sull'aspetto fallisce catastroficamente.
Presentiamo 4DGS360, un framework senza diffusione per la ricostruzione dinamica a 360° di oggetti a partire da video monoculari casuali. I metodi esistenti spesso non riescono a ricostruire una geometria coerente a 360°, poiché la loro forte dipendenza da prior native del 2D fa sì che i punti iniziali si adattino eccessivamente alla superficie visibile in ciascuna vista di addestramento. 4DGS360 affronta questa sfida attraverso un'inizializzazione avanzata nativa del 3D che mitiga l'ambiguità geometrica delle regioni occluse. Il nostro tracker 3D proposto, AnchorTAP3D, produce traiettorie di punti 3D rinforzate sfruttando punti di tracciamento 2D affidabili come ancore, sopprimendo la deriva e fornendo un'inizializzazione affidabile che preserva la geometria nelle regioni occluse. Questa inizializzazione, combinata con l'ottimizzazione, produce ricostruzioni 4D coerenti a 360°. Presentiamo inoltre iPhone360, un nuovo benchmark in cui le telecamere di test sono posizionate fino a 135° di distanza dalle viste di addestramento, consentendo una valutazione a 360° che i dataset esistenti non possono fornire. Gli esperimenti mostrano che 4DGS360 raggiunge prestazioni allo stato dell'arte sui dataset iPhone360, iPhone e DAVIS, sia qualitativamente che quantitativamente.
Le pipeline agentiche multimodali stanno trasformando l'interazione uomo-computer, consentendo l'automazione efficiente e accessibile di compiti complessi del mondo reale. Tuttavia, gli sforzi recenti si sono concentrati su applicazioni a breve termine o di carattere generale (ad esempio, interfacce mobili o desktop), lasciando in gran parte inesplorata l'automazione a lungo termine per sistemi domain-specific, particolarmente in ambito sanitario. Per colmare questa lacuna, presentiamo CareFlow, un benchmark di alta qualità annotato manualmente, che comprende flussi di lavoro software complessi e a lungo termine attraverso strumenti di annotazione medica, visualizzatori DICOM, sistemi di cartella clinica elettronica (EHR) e sistemi informativi di laboratorio. Su questo benchmark, gli attuali modelli visione-linguaggio (VLM) ottengono prestazioni scarse, dimostrando difficoltà nel ragionamento a lungo termine e nelle interazioni multi-step in contesti medici. Per superare queste limitazioni, proponiamo CarePilot, un framework multi-agente basato sul paradigma attore-critico. L'Attore integra il grounding degli strumenti con meccanismi di memoria duale (esperienza a lungo e breve termine) per prevedere la prossima azione semantica dall'interfaccia visiva e dallo stato del sistema. Il Critico valuta ogni azione, aggiorna la memoria in base agli effetti osservati, ed esegue o fornisce feedback correttivi per affinare il flusso di lavoro. Attraverso una simulazione agentica iterativa, l'Attore impara a effettuare previsioni più robuste e consapevoli del ragionamento durante l'inferenza. I nostri esperimenti dimostrano che CarePilot raggiunge prestazioni all'avanguardia, superando rispettivamente di circa il 15,26% e il 3,38% le solide baseline multimodali closed-source e open-source sul nostro benchmark e su un dataset out-of-distribution.
La valutazione di modelli linguistici di grandi dimensioni (LLM) su domande aperte è difficile perché la qualità della risposta dipende dal contesto della domanda. Punteggi binari e rubriche statiche non riescono a cogliere questi requisiti dipendenti dal contesto. I metodi esistenti definiscono criteri a livello di dataset o li generano in un'unica passata, limitando la loro capacità di esplorare lo spazio di valutazione implicito in ogni domanda. Introduciamo One-Question-One-World (Qworld), un metodo che genera criteri di valutazione specifici per ogni domanda utilizzando un albero di espansione ricorsivo. Data una domanda, Qworld la scompone in scenari, prospettive e criteri binari granulari attraverso un'espansione gerarchica strutturata e orizzontale. I criteri risultanti specificano ciò che una risposta di alta qualità deve affrontare per quella domanda. Su HealthBench, Qworld copre l'89% dei criteri redatti da esperti e genera il 79% di criteri nuovi convalidati da esperti umani. Gli esperti valutano i criteri di Qworld più alti in termini di profondità e granularità rispetto a quelli prodotti dai metodi precedenti. Applicato a 11 LLM all'avanguardia su HealthBench e Humanity's Last Exam, Qworld rivela differenze di capacità in dimensioni come impatto a lungo termine, equità, gestione degli errori e ragionamento interdisciplinare che le rubriche grossolane non distinguono. Formulando la generazione di criteri come copertura strutturata degli assi di valutazione impliciti nella domanda, Qworld abilita una valutazione che si adatta a ciascuna domanda piuttosto che affidarsi a criteri fissi a livello di compito.
Recenti studi hanno dimostrato che le reti neurali possono svolgere compiti 3D come la Sintesi di Nuove Viste (NVS) senza una ricostruzione 3D esplicita. Tuttavia, sosteniamo che forti *induttive bias* 3D rimangono utili nella progettazione di tali reti. Dimostriamo questo punto introducendo LagerNVS, una rete neurale di tipo encoder-decoder per NVS che si basa su feature latenti "3D-aware". L'encoder viene inizializzato a partire da una rete di ricostruzione 3D pre-addestrata utilizzando una supervisione 3D esplicita. Questo è abbinato a un decoder leggero, e l'intero sistema viene addestrato end-to-end con loss fotometriche. LagerNVS raggiunge risultati all'avanguardia nella Sintesi di Nuove Viste deterministica feed-forward (incluso un PSNR di 31.4 su Re10k), con e senza camere note, renderizza in tempo reale, generalizza su dati in-the-wild e può essere abbinato a un decoder di tipo diffusion per l'estrapolazione generativa.
I modelli linguistici di grandi dimensioni (LLM) hanno reso possibili sistemi agenti in grado di ragionare, pianificare e agire in compiti complessi, ma rimane poco chiaro se essi possano allocare le risorse in modo efficace in condizioni di incertezza. A differenza delle decisioni reattive a breve termine, l'allocazione richiede di impegnare risorse scarse nel tempo, bilanciando obiettivi concorrenti e preservando la flessibilità per le necessità future. Introduciamo EnterpriseArena, il primo benchmark per valutare gli agenti nell'allocazione di risorse aziendali a lungo termine. Esso implementa un processo decisionale in stile CFO in un simulatore aziendale di 132 mesi che combina dati finanziari a livello di impresa, documenti aziendali anonimi, segnali macroeconomici e di settore, e regole operative validate da esperti. L'ambiente è parzialmente osservabile e rivela lo stato solo attraverso strumenti organizzativi di budget, costringendo gli agenti a bilanciare l'acquisizione di informazioni con la conservazione di risorse scarse. Esperimenti condotti su undici LLM avanzati mostrano che questo scenario rimane estremamente impegnativo: solo il 16% delle esecuzioni sopravvive per l'intero orizzonte temporale, e i modelli più grandi non superano in modo affidabile quelli più piccoli. Questi risultati identificano l'allocazione di risorse a lungo termine in condizioni di incertezza come un distinto gap di capacità per gli attuali agenti basati su LLM.
Mentre i sistemi proprietari come Seedance-2.0 hanno ottenuto un notevole successo nella generazione di video onnicapaci, le alternative open-source rimangono significativamente indietro. La maggior parte dei modelli accademici rimane fortemente frammentata, e i pochi tentativi esistenti verso una generazione video unificata faticano ancora a integrare perfettamente compiti diversi all'interno di un unico framework. Per colmare questa lacuna, proponiamo OmniWeaving, un modello di generazione video a livelli onnicomprensivi che vanta potenti capacità di composizione multimodale e di ragionamento informato. Sfruttando un dataset di pre-addestramento su larga scala che comprende scenari diversificati, compositivi e potenziati dal ragionamento, OmniWeaving impara a legare temporalmente input intervallati di testo, multi-immagine e video, agendo al contempo come un agente intelligente per inferire le intenzioni complesse dell'utente per una creazione video sofisticata. Inoltre, introduciamo IntelligentVBench, il primo benchmark completo progettato per valutare rigorosamente la generazione video unificata intelligente di livello superiore. Esperimenti estensivi dimostrano che OmniWeaving raggiunge prestazioni allo stato dell'arte tra i modelli unificati open-source. I codici e il modello saranno presto resi pubblicamente disponibili. Pagina del progetto: https://omniweaving.github.io.
I modelli di generazione video hanno dimostrato un forte potenziale come modelli del mondo per la simulazione della guida autonoma. Tuttavia, gli approcci esistenti sono principalmente addestrati su dataset di guida del mondo reale, che contengono per lo più scenari di guida naturali e sicuri. Di conseguenza, i modelli attuali spesso falliscono quando vengono condizionati su traiettorie complesse o controfattuali - come traiettorie imperfette generate da simulatori o sistemi di pianificazione - producendo video con gravi incongruenze fisiche e artefatti. Per affrontare questa limitazione, proponiamo PhyGenesis, un modello del mondo progettato per generare video di guida con alta fedeltà visiva e forte coerenza fisica. La nostra architettura si compone di due elementi chiave: (1) un generatore di condizioni fisiche che trasforma input di traiettorie potenzialmente non valide in condizioni fisicamente plausibili, e (2) un generatore video potenziato con fisica che produce video di guida multi-vista ad alta fedeltà sotto queste condizioni. Per addestrare efficacemente questi componenti, abbiamo costruito un dataset eterogeneo su larga scala e ricco di fisica. Nello specifico, oltre ai video di guida del mondo reale, generiamo scenari di guida complessi e diversificati utilizzando il simulatore CARLA, dai quali ricaviamo segnali di supervisione che guidano il modello ad apprendere dinamiche fisicamente fondate in condizioni estreme. Questa strategia di apprendimento su traiettorie complesse consente la correzione della traiettoria e promuove una generazione video fisicamente coerente. Esperimenti approfonditi dimostrano che PhyGenesis supera costantemente i metodi all'avanguardia, specialmente su traiettorie complesse. La nostra pagina del progetto è disponibile all'indirizzo: https://wm-research.github.io/PhyGenesis/.
I transformer di diffusione hanno dimostrato capacità notevoli nella generazione di video. Tuttavia, il loro utilizzo pratico è fortemente limitato dall'elevato utilizzo di memoria e dai costi computazionali. La quantizzazione post-addestramento fornisce un metodo pratico per ridurre l'uso di memoria e aumentare la velocità di calcolo. I metodi di quantizzazione esistenti applicano tipicamente un'allocazione statica della larghezza di bit, trascurando la difficoltà di quantizzazione delle attivazioni attraverso i passi temporali di diffusione, portando a un compromesso subottimale tra efficienza e qualità. In questo articolo, proponiamo un framework di quantizzazione in mixed-precision NVFP4/INT8 al momento dell'inferenza. Scopriamo una forte correlazione lineare tra la differenza input-output di un blocco e la sensibilità alla quantizzazione dei suoi strati lineari interni. Sulla base di questa intuizione, progettiamo un predittore leggero che alloca dinamicamente NVFP4 agli strati temporalmente stabili per massimizzare la compressione della memoria, preservando selettivamente INT8 per gli strati volatili per garantire robustezza. Questa strategia di precisione adattiva consente una quantizzazione aggressiva senza compromettere la qualità della generazione. Oltre a ciò, osserviamo che il residuo tra l'input e l'output di un blocco Transformer mostra un'elevata coerenza temporale attraverso i passi temporali. Sfruttando questa ridondanza temporale, introduciamo il Temporal Delta Cache (TDC) per saltare i calcoli per questi blocchi invarianti, riducendo ulteriormente il costo computazionale. Esperimenti estesi dimostrano che il nostro metodo raggiunge un'accelerazione end-to-end di 1.92 volte e una riduzione della memoria di 3.32 volte, stabilendo un nuovo riferimento per l'inferenza efficiente nei Video DiT.
Applicazioni come l'intelligenza embodied si basano su un ciclo chiuso percezione-decisione-azione in tempo reale, ponendo sfide stringenti per la comprensione di video in streaming. Tuttavia, gli agenti attuali soffrono di capacità frammentate, come il supporto esclusivo alla comprensione video offline, la mancanza di meccanismi di memoria multimodale a lungo termine, o la difficoltà nel raggiungere ragionamento in tempo reale e interazione proattiva con input in streaming. Queste carenze sono diventate un collo di bottiglia cruciale che impedisce loro di sostenere la percezione, prendere decisioni tempestive ed eseguire azioni in ambienti reali. Per alleviare questi problemi, proponiamo StreamingClaw, un framework agente unificato per la comprensione di video in streaming e l'intelligenza embodied. È inoltre un framework compatibile con OpenClaw che supporta l'interazione multimodale in streaming in tempo reale. StreamingClaw integra cinque capacità fondamentali: (1) Supporta il ragionamento in streaming in tempo reale. (2) Supporta il ragionamento su eventi futuri e l'interazione proattiva durante l'evoluzione online degli obiettivi interattivi. (3) Supporta la memorizzazione multimodale a lungo termine, l'evoluzione gerarchica e il recupero efficiente della memoria condivisa tra più agenti. (4) Supporta un ciclo chiuso percezione-decisione-azione. Oltre agli strumenti e alle abilità convenzionali, fornisce anche strumenti di streaming e abilità centrate sull'azione specificamente progettate per ambienti fisici reali. (5) È compatibile con il framework OpenClaw, consentendo di sfruttare appieno le risorse e il supporto della comunità open-source. Con questi progetti, StreamingClaw integra ragionamento online in tempo reale, memoria a lungo termine multimodale e interazione proattiva in un framework unificato. Inoltre, tradurre le decisioni in azioni eseguibili gli permette di controllare direttamente il mondo fisico, supportando la distribuzione pratica di interazioni embodied.
I modelli linguistici multimodali di grandi dimensioni (MLLM) esistenti mostrano difficoltà nel ragionamento spaziale 3D, poiché non riescono a costruire astrazioni strutturate dell'ambiente tridimensionale rappresentato negli input video. Per colmare questa lacuna, traendo ispirazione dalle teorie cognitive sul ragionamento spaziale allocentrico, indaghiamo come abilitare gli MLLM a modellare e ragionare su rappresentazioni spaziali testuali del video. Nello specifico, introduciamo TRACE (Textual Representation of Allocentric Context from Egocentric Video), un metodo di prompting che induce gli MLLM a generare rappresentazioni testuali basate su testo degli ambienti 3D come tracce di ragionamento intermedie per una risposta più accurata a domande spaziali. TRACE codifica meta-contesto, traiettorie della telecamera ed entità oggetto dettagliate per supportare un ragionamento spaziale strutturato sui video egocentrici. Esperimenti approfonditi su VSI-Bench e OST-Bench dimostrano che TRACE produce miglioramenti notevoli e consistenti rispetto alle precedenti strategie di prompting su una vasta gamma di architetture MLLM, che abbracciano diverse scale parametriche e schemi di addestramento. Presentiamo inoltre studi di ablazione per convalidare le nostre scelte progettuali, insieme ad analisi dettagliate che esplorano i colli di bottiglia del ragionamento spaziale 3D negli MLLM.
Dimostriamo che i PLDR-LLM addestrati in condizioni di criticalità auto-organizzata esibiscono capacità di ragionamento al momento dell'inferenza. Le caratteristiche degli output deduttivi dei PLDR-LLM in criticalità sono simili alle transizioni di fase del secondo ordine. In criticalità, la lunghezza di correlazione diverge e gli output deduttivi raggiungono uno stato stazionario metastabile. Il comportamento di stato stazionario suggerisce che gli output deduttivi apprendono rappresentazioni equivalenti a funzioni di scaling, classi di universalità e gruppi di rinormalizzazione dal dataset di addestramento, portando nel processo a capacità di generalizzazione e ragionamento. Possiamo quindi definire un parametro d'ordine dalle statistiche globali dei parametri di output deduttivo del modello durante l'inferenza. Le capacità di ragionamento di un PLDR-LLM sono migliori quando il suo parametro d'ordine è prossimo allo zero in criticalità. Questa osservazione è supportata dai punteggi di benchmark dei modelli addestrati in condizioni di quasi-criticalità e sub-criticalità. I nostri risultati forniscono una spiegazione autonoma di come il ragionamento si manifesti nei grandi modelli linguistici, e la capacità di ragionare può essere quantificata unicamente dai valori globali dei parametri del modello degli output deduttivi in stato stazionario, senza necessità di valutare dataset di benchmark curati attraverso output induttivo per il ragionamento e la comprensione.
La segmentazione funzionale in scene 3D richiede che un agente ancori istruzioni implicite in linguaggio naturale a maschere precise di elementi interattivi a grana fine. I metodi esistenti si basano su pipeline frammentate che soffrono di cecità visiva durante l'analisi iniziale del compito. Osserviamo che questi metodi sono limitati da una selezione di frame euristicistica, passiva e a scala singola. Presentiamo UniFunc3D, un framework unificato e senza addestramento che tratta il modello linguistico multimodale di grandi dimensioni come un osservatore attivo. Consolidando il ragionamento semantico, temporale e spaziale in un'unica passata in avanti, UniFunc3D esegue un ragionamento congiunto per ancorare la scomposizione del compito all'evidenza visiva diretta. Il nostro approccio introduce un ancoraggio spazio-temporale attivo con una strategia dal grossolano al dettagliato. Ciò consente al modello di selezionare i fotogrammi video corretti in modo adattivo e di concentrarsi sulle parti interattive ad alto dettaglio, preservando al contempo il contesto globale necessario per la disambiguazione. Su SceneFun3D, UniFunc3D raggiunge prestazioni all'avanguardia, superando di ampio margine sia i metodi senza addestramento che quelli basati su addestramento, con un miglioramento relativo del 59,9% nel mIoU, senza alcun addestramento specifico per il compito. Il codice sarà rilasciato sulla nostra pagina progetto: https://jiaying.link/unifunc3d.