Articoli di ricerca IA selezionati quotidianamente con traduzioni
La crescente adozione di dispositivi XR ha alimentato una forte domanda di video stereo di alta qualità, la cui produzione rimane tuttavia costosa e soggetta ad artefatti. Per affrontare questa sfida, presentiamo StereoWorld, un framework end-to-end che riadatta un generatore di video preaddestrato per la generazione di video monoculari-stereo ad alta fedeltà. Il nostro framework condiziona congiuntamente il modello sull'input video monoculare, supervisionando esplicitamente la generazione con una regolarizzazione geometrica per garantire la fedeltà strutturale 3D. Uno schema di scomposizione spaziotemporale è inoltre integrato per consentire una sintesi efficiente ad alta risoluzione. Per abilitare addestramento e valutazione su larga scala, abbiamo curato un dataset di video stereo ad alta definizione contenente oltre 11 milioni di frame allineati alla distanza interpupillare (IPD) umana naturale. Esperimenti estensivi dimostrano che StereoWorld supera sostanzialmente i metodi precedenti, generando video stereo con fedeltà visiva e coerenza geometrica superiori. La pagina web del progetto è disponibile all'indirizzo https://ke-xing.github.io/StereoWorld/.
I recenti progressi nei modelli di diffusione hanno notevolmente migliorato la generazione e la modifica delle immagini, ma la generazione o la ricostruzione di file PSD stratificati con canali alfa trasparenti rimane estremamente impegnativa. Proponiamo OmniPSD, un framework di diffusione unificato basato sull'ecosistema Flux che consente sia la generazione da testo a PSD che la scomposizione da immagine a PSD attraverso l'apprendimento contestuale. Per la generazione da testo a PSD, OmniPSD dispone spazialmente più livelli target su una singola tela e apprende le loro relazioni compositive attraverso l'attenzione spaziale, producendo livelli semanticamente coerenti e strutturati gerarchicamente. Per la scomposizione da immagine a PSD, esegue una modifica contestuale iterativa, estraendo e cancellando progressivamente i componenti testuali e in primo piano per ricostruire livelli PSD modificabili da una singola immagine appiattita. Viene impiegato un RGBA-VAE come modulo di rappresentazione ausiliario per preservare la trasparenza senza influenzare l'apprendimento strutturale. Esperimenti estesi sul nostro nuovo dataset RGBA stratificato dimostrano che OmniPSD raggiunge una generazione ad alta fedeltà, coerenza strutturale e consapevolezza della trasparenza, offrendo un nuovo paradigma per la generazione e la scomposizione del design stratificato con transformer di diffusione.
Comprendere come il cervello umano rappresenti i concetti visivi e in quali regioni cerebrali queste rappresentazioni siano codificate rimane una sfida di lunga data. Decenni di lavoro hanno fatto progredire la nostra comprensione delle rappresentazioni visive, eppure i segnali cerebrali rimangono ampi e complessi, e lo spazio dei possibili concetti visivi è vasto. Di conseguenza, la maggior parte degli studi rimane su piccola scala, si affida all'ispezione manuale, si concentra su regioni e proprietà specifiche e raramente include una validazione sistematica. Presentiamo un framework su larga scala e automatizzato per scoprire e spiegare le rappresentazioni visive attraverso la corteccia umana. Il nostro metodo comprende due fasi principali. In primo luogo, scopriamo pattern interpretativi candidati nell'attività fMRI attraverso metodi di scomposizione guidati dai dati e non supervisionati. Successivamente, spieghiamo ciascun pattern identificando l'insieme di immagini naturali che lo evocano più intensamente e generando una descrizione in linguaggio naturale del loro significato visivo condiviso. Per scalare questo processo, introduciamo una pipeline automatizzata che testa multiple spiegazioni candidate, assegna punteggi quantitativi di affidabilità e seleziona la descrizione più coerente per ogni pattern di voxel. Il nostro framework rivela migliaia di pattern interpretabili che abbracciano molti concetti visivi distinti, incluse rappresentazioni di dettaglio finora non riportate.
La composizione di concetti visivi, che mira a integrare diversi elementi da immagini e video in un output visivo unico e coerente, presenta ancora carenze nell'estrazione accurata di concetti complessi da input visivi e nella combinazione flessibile di concetti provenienti sia da immagini che da video. Introduciamo Bind & Compose, un metodo one-shot che abilita una composizione flessibile di concetti visivi associando concetti visivi con token di prompt corrispondenti e componendo il prompt target con token associati da varie fonti. Il metodo adotta una struttura gerarchica di associazione per il condizionamento cross-attention nei Diffusion Transformer, codificando concetti visivi in corrispondenti token di prompt per una decomposizione accurata di concetti visivi complessi. Per migliorare l'accuratezza dell'associazione concetto-token, progettiamo un Meccanismo di Diversificazione e Assorbimento che utilizza un token assorbente aggiuntivo per eliminare l'impatto di dettagli irrilevanti per il concetto durante l'addestramento con prompt diversificati. Per potenziare la compatibilità tra concetti di immagini e video, presentiamo una Strategia di Disaccoppiamento Temporale che separa il processo di addestramento dei concetti video in due fasi con una struttura di associazione a doppio ramo per la modellazione temporale. Le valutazioni dimostrano che il nostro metodo raggiunge una consistenza di concetto, fedeltà al prompt e qualità del movimento superiori rispetto agli approcci esistenti, aprendo nuove possibilità per la creatività visiva.
Introduciamo MotionEdit, un nuovo dataset per l'editing di immagini incentrato sul movimento, ovvero il compito di modificare azioni e interazioni del soggetto preservando identità, struttura e plausibilità fisica. A differenza dei dataset di editing di immagini esistenti, che si concentrano su cambiamenti d'aspetto statici o contengono solo modifiche di movimento sporadiche e di bassa qualità, MotionEdit fornisce coppie di immagini ad alta fedeltà che raffigurano trasformazioni di movimento realistiche, estratte e verificate da video continui. Questo nuovo compito non è solo scientificamente impegnativo ma anche praticamente significativo, alimentando applicazioni downstream come la sintesi video controllata dai fotogrammi e l'animazione. Per valutare le prestazioni dei modelli su questo nuovo compito, introduciamo MotionEdit-Bench, un benchmark che mette alla prova i modelli su modifiche incentrate sul movimento e misura le loro prestazioni con metriche generative, discriminative e basate sulla preferenza. I risultati del benchmark rivelano che l'editing del movimento rimane estremamente impegnativo per i modelli di editing basati su diffusione allo stato dell'arte esistenti. Per colmare questa lacuna, proponiamo MotionNFT (Motion-guided Negative-aware Fine Tuning), un framework di post-addestramento che calcola ricompense di allineamento del movimento basate sulla corrispondenza tra il flusso di movimento tra le immagini di input e quelle modificate dal modello e il movimento reale di riferimento, guidando i modelli verso trasformazioni di movimento accurate. Esperimenti estensivi su FLUX.1 Kontext e Qwen-Image-Edit mostrano che MotionNFT migliora costantemente la qualità dell'editing e la fedeltà del movimento di entrambi i modelli base nel compito di editing del movimento, senza sacrificare la capacità di editing generale, dimostrandone l'efficacia.
Il ragionamento a catena del pensiero (CoT) ha avuto grande successo nel risolvere compiti complessi nell'elaborazione del linguaggio naturale, e i recenti modelli linguistici multimodali di grandi dimensioni (MLLM) hanno esteso questo paradigma al ragionamento video. Tuttavia, questi modelli si basano generalmente su catene di ragionamento prolungate e su un gran numero di token visivi in input. Sulla base di osservazioni empiriche del nostro studio comparativo, ipotizziamo che un ragionamento conciso combinato con un insieme ridotto di token visivi possa essere sufficiente per un efficace ragionamento video. Per valutare questa ipotesi, progettiamo e convalidiamo una struttura efficiente di post-addestramento e inferenza che potenzia la capacità di ragionamento di un MLLM video. La nostra struttura consente ai modelli di operare su token visivi compressi e generare tracce di ragionamento brevi prima di rispondere. I modelli risultanti raggiungono una sostanziale miglioramento nell'efficienza inferenziale, offrono prestazioni competitive su diversi benchmark ed evitano la dipendenza da annotazioni CoT manuali o da messa a punto supervisionata. Complessivamente, i nostri risultati suggeriscono che un ragionamento CoT lungo e simile a quello umano potrebbe non essere necessario per il ragionamento video generale, e che un ragionamento conciso può essere sia efficace che efficiente. Il nostro codice sarà rilasciato su https://github.com/LaVi-Lab/Rethink_CoT_Video.
L'attenzione a finestra e l'attenzione lineare rappresentano due strategie principali per mitigare la complessità quadratica e la crescente cache KV nei Modelli Visione-Linguaggio (VLA). Tuttavia, osserviamo che i VLA basati su finestra subiscono un degrado delle prestazioni quando la lunghezza della sequenza supera la dimensione della finestra, mentre l'attenzione lineare fornisce prestazioni inferiori in compiti ad alta intensità informativa come OCR e comprensione di documenti. Per superare queste limitazioni, proponiamo InfiniteVL, un'architettura VLA a complessità lineare che sinergizza l'attenzione a finestra scorrevole (SWA) con il Gated DeltaNet. Per ottenere prestazioni multimodali competitive con risorse limitate, progettiamo una strategia di addestramento in tre fasi che comprende pre-addestramento per distillazione, instruction tuning e SFT a sequenze lunghe. Notevolmente, utilizzando meno del 2% dei dati di addestramento richiesti dai VLA leader, InfiniteVL non solo supera sostanzialmente i precedenti VLA a complessità lineare, ma eguaglia anche le prestazioni dei migliori VLA basati su Transformer, dimostrando al contempo un'efficace ritenzione della memoria a lungo termine. Rispetto a VLA basati su Transformer di dimensioni simili accelerati con FlashAttention-2, InfiniteVL raggiunge un'accelerazione inferenziale superiore a 3,6× mantenendo latenza e footprint di memoria costanti. In scenari di comprensione di video in streaming, mantiene una velocità di prefill in tempo reale stabile di 24 FPS preservando la cache di memoria a lungo termine. Codice e modelli sono disponibili su https://github.com/hustvl/InfiniteVL.
I sistemi di guida autonoma (AD) incontrano difficoltà negli scenari a coda lunga a causa della limitata conoscenza del mondo e della debole modellizzazione dinamica visiva. I metodi esistenti basati su visione-linguaggio-azione (VLA) non riescono a sfruttare i video non etichettati per l'apprendimento causale visivo, mentre i metodi basati su modelli del mondo mancano di capacità di ragionamento proprie dei grandi modelli linguistici. In questo articolo, costruiamo molteplici dataset specializzati che forniscono annotazioni di ragionamento e pianificazione per scenari complessi. Successivamente, viene proposto un framework unificato di Comprensione-Generazione-Pianificazione, denominato UniUGP, per sinergizzare il ragionamento sulla scena, la generazione di video futuri e la pianificazione della traiettoria attraverso un'architettura ibrida di esperti. Integrando modelli VLM e modelli di generazione video pre-addestrati, UniUGP sfrutta la dinamica visiva e il ragionamento semantico per migliorare le prestazioni di pianificazione. Prendendo in input osservazioni multi-frame e istruzioni linguistiche, produce un ragionamento a catena del pensiero interpretabile, traiettorie fisicamente consistenti e video futuri coerenti. Introduciamo una strategia di addestramento in quattro fasi che costruisce progressivamente queste capacità su molteplici dataset AD esistenti, insieme ai dataset specializzati proposti. Gli esperimenti dimostrano prestazioni all'avanguardia nella percezione, nel ragionamento e nel processo decisionale, con una superiore generalizzazione a situazioni complesse a coda lunga.
I modelli Vision-Language-Action (VLA) hanno recentemente reso possibile la manipolazione robotica fondando segnali visivi e linguistici in azioni. Tuttavia, la maggior parte dei VLA assume la proprietà di Markov, basandosi solo sull'osservazione corrente e soffrendo quindi di miopia temporale che degrada la coerenza su orizzonti lunghi. In questo lavoro, consideriamo il movimento come una rappresentazione del contesto temporale e della dinamica del mondo più compatta e informativa, in grado di catturare i cambiamenti tra stati filtrando il rumore statico a livello di pixel. Sulla base di questa idea, proponiamo HiF-VLA (Hindsight, Insight, and Foresight for VLAs), un framework unificato che sfrutta il movimento per un ragionamento temporale bidirezionale. HiF-VLA codifica le dinamiche passate attraverso prior di hindsight, anticipa il movimento futuro tramite un ragionamento di foresight, e integra entrambi attraverso un esperto congiunto modulato dall'hindsight per abilitare un paradigma di "pensare-mentre-si-agisce" per la manipolazione a lungo termine. Di conseguenza, HiF-VLA supera solidi baseline sui benchmark LIBERO-Long e CALVIN ABC-D, comportando al contempo una latenza inferenziale aggiuntiva trascurabile. Inoltre, HiF-VLA raggiunge miglioramenti sostanziali in compiti di manipolazione a lungo termine nel mondo reale, dimostrando la sua ampia efficacia in contesti robotici pratici.
Presentiamo WonderZoom, un approccio innovativo per generare scene 3D con contenuti su scale spaziali multiple a partire da una singola immagine. I modelli di generazione di mondi 3D esistenti rimangono limitati alla sintesi su scala singola e non possono produrre contenuti di scena coerenti a diversi livelli di granularità. La sfida fondamentale è l'assenza di una rappresentazione 3D consapevole della scala, capace di generare e renderizzare contenuti con dimensioni spaziali molto diverse. WonderZoom affronta questo problema attraverso due innovazioni chiave: (1) surfel gaussiani adattivi alla scala per la generazione e il rendering in tempo reale di scene 3D multi-scala, e (2) un sintetizzatore di dettagli progressivo che genera iterativamente contenuti 3D a scale più fini. Il nostro approccio consente agli utenti di "zoomare" su una regione 3D e sintetizzare in modo autoregressivo dettagli fini precedentemente inesistenti, dai paesaggi fino alle caratteristiche microscopiche. Gli esperimenti dimostrano che WonderZoom supera significamente i modelli all'avanguardia per video e 3D sia in qualità che in allineamento, abilitando la creazione di mondi 3D multi-scala da una singola immagine. Mostriamo risultati video e un visualizzatore interattivo dei mondi 3D multi-scala generati su https://wonderzoom.github.io/
I modelli linguistici di grandi dimensioni a diffusione (dLLM) rappresentano una promettente alternativa ai modelli autoregressivi, ma la loro utilità pratica è fortemente limitata da un campionamento lento e iterativo. Presentiamo SchED, un algoritmo di early-exit agnostico rispetto al modello e che non richiede addestramento, il quale aggrega i margini dei logit su tutto lo span e interrompe il decoding non appena viene raggiunta una soglia di confidenza fluida e dipendente dal progresso. Abbiamo valutato SchED su due famiglie di dLLM (Dream e LLaDA), nelle varianti base e instruction-tuned, attraverso dieci benchmark che coprono task downstream tra cui question answering a scelta multipla (MCQ), matematica, QA/sommario in forma estesa e traduzione. SchED fornisce accelerazioni consistenti e significative: sui modelli instruction-tuned, raggiunge un aumento di velocità di 3,8-4,0 volte mantenendo in media il 99,8-100% del punteggio di baseline. Sui modelli base, SchED produce guadagni di velocità costanti con una ritenzione delle prestazioni del 99,1-100%, fino a 2,34 volte in configurazioni più aggressive. Utilizzando una metrica di velocità conservativa che penalizza fortemente la perdita di qualità (QPS, γ=4), dimostriamo che SchED è robusto e supera chiaramente i precedenti metodi di early-exit basati sulla confidenza, che falliscono nella generazione in forma estesa. Un'analisi dell'entropia delle previsioni di token del modello rivela che l'instruction tuning accelera il decadimento dell'entropia predittiva. Convertendo la stabilizzazione della confidenza genuina in risparmi computazionali, SchED rende il decoding dei dLLM sostanzialmente più efficiente.
La modifica della conoscenza mira ad aggiornare fatti specifici nei grandi modelli linguistici (LLM) senza un addestramento completo. I precedenti tentativi hanno cercato di ottimizzare gli strati di conoscenza degli LLM, dimostrandosi efficaci per apportare modifiche selettive. Tuttavia, esiste un divario significativo tra le loro prestazioni nelle valutazioni controllate con teacher forcing e la loro efficacia reale in scenari di apprendimento continuo, il che ne limita notevolmente l'applicabilità pratica. La nostra analisi empirica rivela due problemi ricorrenti associati a questo divario: (1) La maggior parte dei metodi tradizionali induce il modello modificato a un overfitting sul nuovo fatto, degradando così le capacità pre-addestrate; (2) Manca criticamente una fase di consolidamento della conoscenza, lasciando i nuovi fatti insufficientemente integrati nel comportamento inferenziale degli LLM durante la generazione autoregressiva, portando così a una discrepanza tra conoscenza parametrica e comportamento generativo effettivo. A tal fine, proponiamo Edit-then-Consolidate, un nuovo paradigma di modifica della conoscenza che mira a colmare il divario tra i metodi teorici di editing e la loro applicabilità nel mondo reale. Nello specifico, (1) la nostra architettura mitiga l'overfitting tramite Targeted Proximal Supervised Fine-Tuning (TPSFT), che localizza la modifica attraverso un obiettivo di trust region per limitare la deriva della politica; (2) Successivamente, una fase di consolidamento che utilizza Group Relative Policy Optimization (GRPO) allinea la conoscenza modificata con la politica inferenziale basata sul CoT, ottimizzando il comportamento a livello di traiettoria mediante segnali di reward completi. Esperimenti estensivi dimostrano che la nostra architettura migliora costantemente l'affidabilità e la generalizzazione della modifica nelle valutazioni reali, preservando meglio la località e le capacità pre-addestrate.
Gli agenti, sistemi basati su modelli linguistici (LM) in grado di ragionare, pianificare e agire, stanno diventando il paradigma dominante per le applicazioni di IA nel mondo reale. Nonostante questa ampia adozione, i principi che ne determinano le prestazioni rimangono poco esplorati, costringendo i professionisti a fare affidamento su euristiche piuttosto che su scelte di progettazione basate su principi consolidati. Colmiamo questa lacuna derivando principi quantitativi di scalabilità per i sistemi agentivi. Valutiamo ciò attraverso quattro benchmark diversi: Finance-Agent, BrowseComp-Plus, PlanCraft e Workbench. Utilizzando cinque architetture canoniche (Singolo, Indipendente, Centralizzato, Decentralizzato, Ibrido) istanziate su tre famiglie di LLM, eseguiamo una valutazione controllata che copre 180 configurazioni con strumenti standardizzati e budget di token prefissati. Deriviamo un modello predittivo utilizzando metriche di coordinamento empiriche, tra cui efficienza, overhead, amplificazione degli errori e ridondanza, che raggiunge un R² convalidato incrociatamente di 0,513. Identifichiamo tre effetti dominanti: (1) un compromesso coordinamento-strumenti: con budget computazionali fissi, i task ad alto utilizzo di strumenti soffrono sproporzionatamente dell'overhead multi-agente. (2) una saturazione delle capacità: il coordinamento produce rendimenti decrescenti o negativi (beta=-0,408, p<0,001) una volta che i benchmark ad agente singolo superano circa il 45%. (3) un'amplificazione degli errori dipendente dalla topologia: gli agenti indipendenti amplificano gli errori di 17,2x attraverso una propagazione incontrollata, mentre il coordinamento centralizzato la contiene a 4,4x. Il coordinamento centralizzato migliora le prestazioni dell'80,9% su task parallelizzabili come il ragionamento finanziario, mentre il coordinamento decentralizzato eccelle nella navigazione web dinamica (+9,2% vs. +0,2%). Tuttavia, per task di ragionamento sequenziale, tutte le varianti multi-agente hanno degradato le prestazioni del 39-70%. Il framework predice la strategia di coordinamento ottimale per l'87% delle configurazioni di test, fornendo un principio predittivo per la scalabilità agentiva basato su proprietà misurabili del task.
Basandosi sul successo dello Splatting Gaussiano 3D (3DGS) nella rappresentazione di scene 3D statiche, la sua estensione a scene dinamiche, comunemente indicata come 4DGS o 3DGS dinamico, ha attirato un'attenzione crescente. Tuttavia, la progettazione di schemi di deformazione più compatti ed efficienti, unitamente a strategie di compressione ottimizzate per il rateo-distorsione per le rappresentazioni 3DGS dinamiche, rimane un'area poco esplorata. I metodi precedenti si basano su 4DGS spazio-temporale con primitive gaussiane sovraspecificate e di breve durata, oppure su 3DGS canonico con deformazione che manca di un controllo temporale esplicito. Per affrontare questo problema, presentiamo TED-4DGS, uno schema di deformazione basato su attivazione temporale ed embedding per la compressione 4DGS ottimizzata per il rateo-distorsione, che unisce i punti di forza di entrambe le famiglie. TED-4DGS è costruito su una rappresentazione 3DGS sparsa basata su ancore. A ciascuna ancora canonica vengono assegnati parametri di attivazione temporale apprendibili per specificare le sue transizioni di apparizione e scomparsa nel tempo, mentre un embedding temporale leggero per ancora interroga un banco di deformazione condiviso per produrre una deformazione specifica per ancora. Per la compressione rateo-distorsione, incorporiamo un iperpriore basato sulla rappresentazione neurale implicita (INR) per modellare le distribuzioni degli attributi delle ancore, insieme a un modello autoregressivo per canale per catturare le correlazioni intra-ancora. Con questi elementi innovativi, il nostro schema raggiunge prestazioni state-of-the-art in termini di rateo-distorsione su diversi dataset del mondo reale. Per quanto a nostra conoscenza, questo lavoro rappresenta uno dei primi tentativi di perseguire un framework di compressione ottimizzato per il rateo-distorsione per rappresentazioni 3DGS dinamiche.
I modelli linguistici di diffusione (dLLM) ora eguagliano le prestazioni downstream delle loro controparti autoregressive in molte attività, mantenendo al contempo la promessa di una maggiore efficienza durante l'inferenza. Una variante particolarmente riuscita è la diffusione discreta mascherata, in cui un buffer riempito con token mascheratura speciali viene progressivamente sostituito con token campionati dal vocabolario del modello. È possibile ottenere efficienza smascherando più token in parallelo, ma smascherarne troppi in una volta rischia di degradare la qualità della generazione. Pertanto, un aspetto progettuale critico dei dLLM è la procedura di campionamento che seleziona, ad ogni passo del processo di diffusione, quali token sostituire. Infatti, lavori recenti hanno rilevato che strategie euristiche come la soglia di confidenza portano sia a una qualità più elevata che a un throughput di token superiore rispetto allo smascheramento casuale. Tuttavia, tali euristiche presentano degli svantaggi: richiedono una regolazione manuale e osserviamo che le loro prestazioni si degradano con dimensioni del buffer maggiori. In questo lavoro, proponiamo invece di addestrare le procedure di campionamento utilizzando l'apprendimento per rinforzo. Nello specifico, formalizziamo il campionamento per diffusione mascherata come un processo decisionale di Markov in cui il dLLM funge da ambiente, e proponiamo un'architettura policy leggera basata su un transformer a singolo strato che mappa le confidenze dei token del dLLM alle decisioni di smascheramento. I nostri esperimenti mostrano che queste policy addestrate eguagliano le prestazioni delle euristiche più all'avanguardia se combinate con la generazione semi-autoregressiva, superandole nell'impostazione di diffusione completa. Esaminiamo anche la trasferibilità di queste policy, riscontrando che possono generalizzare a nuovi dLLM sottostanti e a lunghezze di sequenza maggiori. Tuttavia, osserviamo anche che le loro prestazioni si degradano quando applicate a dati fuori dominio, e che una regolazione fine del compromesso precisione-efficienza può essere impegnativa con il nostro approccio.
I recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLM) hanno portato a impressionanti avanzamenti in vari benchmark. Tuttavia, la loro capacità di comprensione delle immagini all'infrarosso rimane inesplorata. Per colmare questa lacuna, introduciamo IF-Bench, il primo benchmark di alta qualità progettato per valutare la comprensione multimodale delle immagini all'infrarosso. IF-Bench è composto da 499 immagini provenienti da 23 dataset infrarossi e 680 coppie domanda-risposta visive accuratamente curate, che coprono 10 dimensioni essenziali della comprensione delle immagini. Sulla base di questo benchmark, valutiamo sistematicamente oltre 40 MLLM open-source e closed-source, impiegando strategie di valutazione ciclica, valutazione bilingue e giudizio ibrido per migliorare l'affidabilità dei risultati. La nostra analisi rivela come la scala del modello, l'architettura e i paradigmi di inferenza influenzino la comprensione delle immagini all'infrarosso, fornendo spunti preziosi per questo ambito. Inoltre, proponiamo un metodo generativo di prompt visivo (GenViP) senza necessità di addestramento, che sfrutta modelli avanzati di editing delle immagini per convertire le immagini infrarosse in controparti RGB allineate semanticamente e spazialmente, mitigando così gli spostamenti della distribuzione di dominio. Esperimenti estensivi dimostrano che il nostro metodo produce costantemente miglioramenti significativi delle prestazioni su un'ampia gamma di MLLM. Il benchmark e il codice sono disponibili all'indirizzo https://github.com/casiatao/IF-Bench.
La diffusione autoregressiva (AR) consente la generazione interattiva e in streaming di video lunghi producendo i fotogrammi in modo causale, ma mantenere la coerenza su orizzonti di durata nell'ordine dei minuti rimane una sfida a causa di errori accumulati, deriva del moto e ripetizione di contenuti. Affrontiamo questo problema da una prospettiva di memoria, trattando la sintesi video come un processo dinamico ricorrente che richiede un contesto coordinato a breve e lungo termine. Proponiamo VideoSSM, un Modello per Video Lunghi che unisce la diffusione AR con una memoria ibrida a spazio degli stati. Il modello a spazio degli stati (SSM) funge da memoria globale in evoluzione per la dinamica della scena lungo l'intera sequenza, mentre una finestra di contesto fornisce una memoria locale per suggerimenti di movimento e dettagli fini. Questo design ibrido preserva la coerenza globale senza pattern congelati e ripetitivi, supporta l'interazione adattiva al prompt e scala in tempo lineare con la lunghezza della sequenza. Esperimenti su benchmark a corto e lungo raggio dimostrano una coerenza temporale e una stabilità del moto allo stato dell'arte tra i generatori video autoregressivi, specialmente su orizzonti di scala minuti, abilitando diversità di contenuti e controllo interattivo basato su prompt, stabilendo così un framework scalabile e consapevole della memoria per la generazione di video lunghi.
I sistemi di sintesi vocale leggeri e in tempo reale sono cruciali per l'accessibilità. Tuttavia, i modelli TTS più efficienti si basano spesso su fonemizzatori leggeri che faticano a gestire le sfide dipendenti dal contesto. Al contrario, fonemizzatori più avanzati, dotati di una comprensione linguistica più profonda, comportano tipicamente costi computazionali elevati, il che impedisce le prestazioni in tempo reale. Questo articolo esamina il compromesso tra qualità della fonemizzazione e velocità di inferenza nei sistemi TTS assistiti da G2P, introducendo un quadro pratico per colmare questa lacuna. Proponiamo strategie leggere per la fonemizzazione consapevole del contesto e un'architettura TTS orientata ai servizi che esegue questi moduli come servizi indipendenti. Questo progetto disaccoppia i componenti pesanti e consapevoli del contesto dal motore TTS centrale, superando efficacemente la barriera della latenza e consentendo l'uso in tempo reale di modelli di fonemizzazione di alta qualità. I risultati sperimentali confermano che il sistema proposto migliora la correttezza della pronuncia e l'accuratezza linguistica mantenendo al contempo la reattività in tempo reale, rendendolo particolarmente adatto per applicazioni TTS offline e su dispositivi finali.
Per affrontare il compromesso tra robustezza e prestazioni nei VLM robusti, osserviamo che le parole funzionali possono introdurre vulnerabilità nei VLM contro attacchi adversarial cross-modali, e proponiamo di conseguenza la Function-word De-Attention (FDA) per mitigare l'impatto delle parole funzionali. Similmente agli amplificatori differenziali, la nostra FDA calcola l'attenzione incrociata originale e quella relativa alle parole funzionali all'interno delle teste di attenzione, e sottrae differenzialmente la seconda dalla prima per ottenere VLM più allineati e robusti. Esperimenti completi includono 2 baseline state-of-the-art sotto 6 diversi attacchi su 2 task downstream, 3 dataset e 3 modelli. Nel complesso, la nostra FDA produce in media un calo del ASR del 18/13/53% con riduzioni prestazionali di solo lo 0,2/0,3/0,6% sui 3 modelli testati per il retrieval, e un calo del ASR del 90% con un guadagno prestazionale dello 0,3% per il visual grounding. Dimostriamo sperimentalmente la scalabilità, la generalizzazione e le prestazioni zero-shot della FDA, unitamente a studi di ablazione e analisi approfonditi. Il codice sarà reso pubblico su https://github.com/michaeltian108/FDA.
Il dialogo clinico rappresenta una dualità complessa che richiede sia la fluidità empatica della conversazione naturale sia il rigore preciso della medicina basata sulle evidenze. Sebbene i Large Language Model possiedano capacità linguistiche senza precedenti, la loro architettura, basata su un'elaborazione reattiva e senza stato, tende a privilegiare la plausibilità probabilistica rispetto alla veridicità fattuale. Questa limitazione strutturale ha catalizzato un cambio di paradigma nell'IA medica, spostando l'attenzione dalla generazione testuale predittiva all'autonomia agentiva, dove il modello funge da motore di ragionamento centrale capace di pianificazione deliberata e memoria persistente. Andando oltre le revisioni esistenti che principalmente catalogano applicazioni downstream, questo survey fornisce un'analisi basata sui principi primi dell'architettura cognitiva che sostiene questo cambiamento. Introduciamo una nuova tassonomia strutturata lungo gli assi ortogonali della fonte di conoscenza e dell'obiettivo di agency per delineare la provenienza della conoscenza clinica rispetto allo scopo operativo del sistema. Questo quadro facilita un'analisi sistematica dei compromessi intrinseci tra creatività e affidabilità categorizzando i metodi in quattro archetipi: Clinici dello Spazio Latente, Pianificatori Emergenti, Sintetizzatori Grounded e Automatori di Workflow Verificabili. Per ogni paradigma, decostruiamo la realizzazione tecnica lungo l'intera pipeline cognitiva, comprendente pianificazione strategica, gestione della memoria, esecuzione delle azioni, collaborazione ed evoluzione, per rivelare come scelte architetturali distinte bilancino la tensione tra autonomia e sicurezza.
I recenti progressi nella generazione video da testo hanno raggiunto un realismo notevole, tuttavia il controllo granulare sul movimento e l'orientamento della telecamera rimane elusivo. Gli approcci esistenti codificano tipicamente le traiettorie della telecamera attraverso rappresentazioni relative o ambigue, limitando il controllo geometrico esplicito. Introduciamo GimbalDiffusion, un framework che abilita il controllo della telecamera ancorato a coordinate del mondo fisico, utilizzando la gravità come riferimento globale. Invece di descrivere il movimento rispetto ai fotogrammi precedenti, il nostro metodo definisce le traiettorie della telecamera in un sistema di coordinate assoluto, consentendo un controllo preciso e interpretabile sui parametri della telecamera senza richiedere un fotogramma di riferimento iniziale. Sfruttiamo video panoramici a 360 gradi per costruire un'ampia varietà di traiettorie di telecamera, che vanno ben oltre le traiettorie prevalentemente rettilinee e frontali osservate nei dati video convenzionali. Per migliorare ulteriormente la guida della telecamera, introduciamo il condizionamento null-pitch, una strategia di annotazione che riduce la dipendenza del modello dal contenuto testuale quando questo entra in conflitto con le specifiche della telecamera (ad esempio, generare dell'erba mentre la telecamera punta verso il cielo). Infine, stabiliamo un benchmark per la generazione video consapevole della telecamera riequilibrando SpatialVID-HQ per una valutazione completa sotto un'ampia variazione dell'inclinazione (pitch) della telecamera. Insieme, questi contributi fanno avanzare la controllabilità e la robustezza dei modelli video da testo, abilitando una manipolazione precisa e allineata alla gravità della telecamera all'interno di framework generativi.
L'acquisizione di hardware per il mining di Bitcoin richiede un tempismo strategico a causa della volatilità dei mercati, della rapida obsolescenza tecnologica e dei cicli di ricavo determinati dal protocollo. Nonostante l'evoluzione del mining in un'industria ad alta intensità di capitale, esistono poche linee guida su quando acquistare nuovi hardware ASIC (Application-Specific Integrated Circuit), e nessun framework computazionale precedente affronta questo problema decisionale. Colmiamo questa lacuna formulando l'acquisizione dell'hardware come un task di classificazione di serie temporali, prevedendo se l'acquisto di macchine ASIC generi rendimenti redditizi (ROI >= 1), marginali (0 < ROI < 1) o non redditizi (ROI <= 0) entro un anno. Proponiamo MineROI-Net, un'architettura open source basata su Transformer, progettata per catturare pattern temporali multi-scala nella redditività del mining. Valutato su dati di 20 miner ASIC rilasciati tra il 2015 e il 2024 in diversi regimi di mercato, MineROI-Net supera i baseline basati su LSTM e TSLANet, raggiungendo un'accuratezza dell'83.7% e un macro F1-score dell'83.1%. Il modello dimostra una forte rilevanza economica, raggiungendo una precisione del 93.6% nel rilevare periodi non redditizi e del 98.5% per quelli redditizi, evitando al contempo di classificare erroneamente scenari redditizi come non redditizi e viceversa. Questi risultati indicano che MineROI-Net offre uno strumento pratico e basato sui dati per il tempismo delle acquisizioni di hardware per il mining, potenzialmente riducendo il rischio finanziario nelle operazioni di mining ad alta intensità di capitale. Il modello è disponibile all'indirizzo: https://github.com/AMAAI-Lab/MineROI-Net.