Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti modelli di diffusione text-to-video sono in grado di generare sequenze video convincenti, ma rimangono silenziosi, privi degli indizi semantici, emotivi e atmosferici forniti dall'audio. Presentiamo LTX-2, un modello fondazionale open-source capace di generare contenuti audiovisivi di alta qualità e temporalmente sincronizzati in modo unificato. LTX-2 è composto da un trasformatore a doppio flusso asimmetrico con un flusso video da 14 miliardi di parametri e un flusso audio da 5 miliardi di parametri, accoppiati attraverso strati di cross-attenzione bidirezionale audio-video con incorporamenti posizionali temporali e AdaLN cross-modalità per un condizionamento condiviso del timestep. Questa architettura consente un addestramento e un'inferenza efficienti di un modello audiovisivo unificato, allocando al contempo una maggiore capacità per la generazione video rispetto a quella audio. Utilizziamo un codificatore di testo multilingue per una comprensione più ampia dei prompt e introduciamo un meccanismo di classifier-free guidance consapevole della modalità (modality-CFG) per migliorare l'allineamento e la controllabilità audiovisiva. Oltre a generare parlato, LTX-2 produce tracce audio ricche e coerenti che seguono i personaggi, l'ambiente, lo stile e l'emozione di ogni scena, complete di elementi naturali di sottofondo e foley. Nelle nostre valutazioni, il modello raggiunge una qualità audiovisiva e un'aderenza al prompt allo stato dell'arte tra i sistemi open-source, fornendo risultati paragonabili a quelli di modelli proprietari a una frazione del loro costo computazionale e tempo di inferenza. Tutti i pesi del modello e il codice sono rilasciati pubblicamente.
I metodi esistenti di stima della profondità sono fondamentalmente limitati alla predizione della profondità su griglie di immagine discrete. Tali rappresentazioni ne limitano la scalabilità a risoluzioni di output arbitrarie e ostacolano il recupero dei dettagli geometrici. Questo articolo introduce InfiniDepth, che rappresenta la profondità come campi impliciti neurali. Attraverso un decoder implicito locale semplice ma efficace, possiamo interrogare la profondità a coordinate 2D continue, consentendo una stima della profondità a risoluzione arbitraria e ad alto livello di dettaglio. Per valutare meglio le capacità del nostro metodo, abbiamo curato un benchmark sintetico di alta qualità in 4K ricavato da cinque diversi videogiochi, che abbraccia scene diverse con ricchi dettagli geometrici e di aspetto. Esperimenti estesi dimostrano che InfiniDepth raggiunge prestazioni all'avanguardia su benchmark sia sintetici che del mondo reale in compiti di stima della profondità relativa e metrica, eccellendo in particolare nelle regioni con dettagli fini. Il metodo apporta benefici anche al compito di sintesi di nuove viste sotto ampi spostamenti del punto di vista, producendo risultati di alta qualità con meno buchi e artefatti.
La Trascrizione con Attribuzione del Parlante e Marcatura Temporale (SATS) mira a trascrivere ciò che viene detto e a determinare con precisione i tempi di intervento di ciascun parlante, aspetto particolarmente prezioso per la trascrizione di riunioni. I sistemi SATS esistenti raramente adottano una formulazione end-to-end e sono ulteriormente limitati da finestre di contesto ridotte, una debole memoria a lungo raggio dei parlanti e dall'incapacità di produrre marcature temporali. Per affrontare queste limitazioni, presentiamo MOSS Transcribe Diarize, un modello linguistico di grandi dimensioni multimodale unificato che esegue congiuntamente la Trascrizione con Attribuzione del Parlante e Marcatura Temporale in un paradigma end-to-end. Addestrato su estesi dati reali e complessi e dotato di una finestra di contesto di 128k per input fino a 90 minuti, MOSS Transcribe Diarize scala efficacemente e generalizza in modo robusto. In valutazioni complete, supera i sistemi commerciali all'avanguardia su molteplici benchmark pubblici e interni.
Mentre i Modelli Multimodali Unificati (UMM) hanno ottenuto un notevole successo nella comprensione cross-modale, persiste un divario significativo nella loro capacità di sfruttare tale conoscenza interna per una generazione di alta qualità. Formalizziamo questa discrepanza come Afasia di Conduzione, un fenomeno in cui i modelli interpretano accuratamente gli input multimodali ma faticano a tradurre tale comprensione in una sintesi fedele e controllabile. Per affrontare questo problema, proponiamo UniCorn, un framework di auto-miglioramento semplice ma elegante che elimina la necessità di dati esterni o supervisione di un insegnante. Suddividendo un singolo UMM in tre ruoli collaborativi: Proponente, Risolutore e Giudice, UniCorn genera interazioni di alta qualità attraverso il self-play e impiega la ricostruzione di pattern cognitivi per distillare la comprensione latente in segnali generativi espliciti. Per convalidare il ripristino della coerenza multimodale, introduciamo UniCycle, un benchmark di cycle-consistency basato su un ciclo di ricostruzione da Testo a Immagine a Testo. Esperimenti estensivi dimostrano che UniCorn raggiunge miglioramenti completi e sostanziali rispetto al modello base su sei benchmark generali di generazione di immagini. In particolare, ottiene prestazioni all'avanguardia su TIIF(73.8), DPG(86.8), CompBench(88.5) e UniCycle, conseguendo inoltre guadagni sostanziali di +5.0 su WISE e +6.5 su OneIG. Questi risultati evidenziano che il nostro metodo migliora significativamente la generazione da testo a immagine (T2I) mantenendo al contempo una robusta comprensione, dimostrando la scalabilità dell'ottimizzazione completamente auto-supervisionata per l'intelligenza multimodale unificata.
Introduciamo NitroGen, un modello foundation visione-azione per agenti di gioco generalisti, addestrato su 40.000 ore di video di gameplay provenienti da oltre 1.000 giochi. Incorporiamo tre elementi chiave: 1) un dataset video-azione su scala internet costruito estraendo automaticamente le azioni dei giocatori da video di gameplay pubblicamente disponibili, 2) un ambiente di benchmark multi-gioco in grado di misurare la generalizzazione cross-game, e 3) un modello unificato visione-azione addestrato con cloning comportamentale su larga scala. NitroGen dimostra una forte competenza in domini diversificati, inclusi scontri in giochi d'azione 3D, controlli ad alta precisione in platformer 2D ed esplorazione in mondi generati proceduralmente. Il modello trasferisce efficacemente le sue capacità a giochi non visti, raggiungendo un miglioramento relativo fino al 52% nei tassi di successo delle attività rispetto a modelli addestrati da zero. Rilasciamo il dataset, la suite di valutazione e i pesi del modello per far progredire la ricerca sugli agenti embodied generalisti.
Gli agenti tradizionali basati su workflow mostrano capacità limitate nell'affrontare problemi del mondo reale che richiedono l'invocazione di strumenti. Gli agenti di ragionamento integrato con strumenti (TIR), capaci di ragionamento autonomo e invocazione di tool, stanno emergendo rapidamente come approccio potente per compiti decisionali complessi che implicano interazioni multi-step con ambienti esterni. In questo lavoro presentiamo MindWatcher, un agente TIR che integra un paradigma di pensiero interlacciato e ragionamento multimodale a catena del pensiero (CoT). MindWatcher può decidere autonomamente se e come invocare strumenti diversificati e coordinarne l'uso, senza dipendere da prompt umani o workflow predefiniti. Il paradigma di pensiero interlacciato consente al modello di alternare pensiero e invocazione di strumenti in qualsiasi fase intermedia, mentre la sua capacità CoT multimodale permette la manipolazione di immagini durante il ragionamento per ottenere risultati di ricerca più precisi. Implementiamo pipeline automatizzate di auditing e valutazione dei dati, affiancate da dataset di alta qualità curati manualmente per l'addestramento, e costruiamo un benchmark, denominato MindWatcher-Evaluate Bench (MWE-Bench), per valutarne le prestazioni. MindWatcher è dotato di una suite completa di strumenti di ragionamento ausiliari, consentendogli di affrontare problemi multimodali su domini ampi. Un database locale di retrieval di immagini su larga scala e di alta qualità, che copre otto categorie inclusi automobili, animali e piante, conferisce al modello un robusto riconoscimento di oggetti nonostante le sue dimensioni compatte. Infine, progettiamo un'infrastruttura di addestramento più efficiente per MindWatcher, migliorando velocità di training e utilizzazione hardware. Gli esperimenti dimostrano non solo che MindWatcher eguaglia o supera le prestazioni di modelli più grandi o recenti grazie a un'invocazione di strumenti superiore, ma rivelano anche insight cruciali per l'addestramento di agenti, come il fenomeno dell'ereditarietà genetica nel reinforcement learning agentico.
Presentiamo SciEvalKit, un toolkit unificato per il benchmarking, progettato per valutare i modelli di IA per la scienza in un'ampia gamma di discipline scientifiche e capacità operative. A differenza delle piattaforme di valutazione generaliste, SciEvalKit si concentra sulle competenze fondamentali dell'intelligenza scientifica, che includono la Percezione Multimodale Scientifica, il Ragionamento Multimodale Scientifico, la Comprensione Multimodale Scientifica, il Ragionamento Simbolico Scientifico, la Generazione di Codice Scientifico, la Generazione di Ipotesi Scientifiche e la Comprensione della Conoscenza Scientifica. Supporta sei principali domini scientifici, che spaziano dalla fisica e chimica all'astronomia e scienza dei materiali. SciEvalKit costruisce una base di benchmark scientifici di livello esperto, curati a partire da dataset reali e specifici per dominio, garantendo che i compiti riflettano sfide scientifiche autentiche. Il toolkit presenta una pipeline di valutazione flessibile ed estensibile che consente valutazioni in batch su modelli e dataset, supporta l'integrazione personalizzata di modelli e dataset e fornisce risultati trasparenti, riproducibili e confrontabili. Colmando il divario tra la valutazione basata sulle capacità e la diversità disciplinare, SciEvalKit offre un'infrastruttura standardizzata ma personalizzabile per testare le prestazioni della prossima generazione di modelli fondanti scientifici e agenti intelligenti. Il toolkit è open-source e mantenuto attivamente per promuovere uno sviluppo guidato dalla comunità e i progressi nell'IA per la Scienza.
Presentiamo MiMo-V2-Flash, un modello Mixture-of-Experts (MoE) con 309 miliardi di parametri totali e 15 miliardi di parametri attivi, progettato per capacità di ragionamento rapide e solide e abilità agentiche. MiMo-V2-Flash adotta un'architettura di attenzione ibrida che intercala Sliding Window Attention (SWA) con attenzione globale, utilizzando una finestra scorrevole di 128 token con un rapporto ibrido di 5:1. Il modello è pre-addestrato su 27 trilioni di token con Multi-Token Prediction (MTP), impiegando un context length nativo di 32k successivamente esteso a 256k. Per scalare efficientemente il calcolo post-addestramento, MiMo-V2-Flash introduce un nuovo paradigma di distillazione on-policy multi-docente (Multi-Teacher On-Policy Distillation, MOPD). In questo framework, docenti specializzati per dominio (ad esempio, addestrati tramite reinforcement learning su larga scala) forniscono una ricompensa densa e a livello di token, permettendo al modello studente di padroneggiare perfettamente l'expertise del docente. MiMo-V2-Flash rivaleggia con modelli open-weight di primo piano come DeepSeek-V3.2 e Kimi-K2, nonostante utilizzi rispettivamente solo 1/2 e 1/3 dei loro parametri totali. Durante l'inferenza, riproponendo MTP come draft model per lo speculative decoding, MiMo-V2-Flash raggiunge fino a 3.6 di acceptance length e un'accelerazione di decodifica di 2.6x con tre layer MTP. Rendiamo open-source sia i pesi del modello che i pesi MTP a tre strati per promuovere la ricerca aperta e la collaborazione comunitaria.
I modelli visione-linguaggio-azione (VLA) raggiungono una forte generalizzazione attraverso un pre-addestramento su larga scala, ma il dispiegamento nel mondo reale richiede una competenza di livello esperto nei compiti, oltre a un'ampia generalità. Gli approcci di post-addestramento esistenti per i modelli VLA sono tipicamente offline, a singolo robot o specifici per compito, limitando un'adattamento efficace on-policy e un apprendimento scalabile dall'interazione nel mondo reale. Introduciamo un sistema di Post-Addestramento Online Scalabile (SOP) che abilita il post-addestramento online, distribuito e multi-task di modelli VLA generalisti direttamente nel mondo fisico. SOP accoppia strettamente esecuzione e apprendimento attraverso un'architettura a ciclo chiuso in cui una flotta di robot trasmette continuamente esperienze on-policy e segnali di intervento umano a un learner cloud centralizzato, e riceve in modo asincrono politiche aggiornate. Questo progetto supporta una correzione on-policy immediata, scala la raccolta di esperienze attraverso il dispiegamento parallelo e preserva la generalità durante l'adattamento. SOP è agnostico rispetto alla scelta dell'algoritmo di post-addestramento; lo istanziamo sia con l'apprendimento per imitazione interattivo (HG-DAgger) che con l'apprendimento per rinforzo (RECAP). In una serie di compiti di manipolazione nel mondo reale, tra cui piegare indumenti, assemblare scatole e rifornire scaffali di generi alimentari, mostriamo che SOP migliora sostanzialmente le prestazioni di grandi modelli VLA pre-addestrati, mantenendo al contempo una singola politica condivisa tra i compiti. Un post-addestramento efficace può essere raggiunto in poche ore di interazione nel mondo reale e le prestazioni scalano in modo quasi lineare con il numero di robot nella flotta. Questi risultati suggeriscono che l'accoppiamento stretto dell'apprendimento online con il dispiegamento su scala di flotta è fondamentale per abilitare un post-addestramento efficiente, affidabile e scalabile di politiche robotiche generaliste nel mondo fisico.
La stilizzazione video, un'importante attività derivata dei modelli di generazione video, non è stata ancora esplorata approfonditamente. Le sue condizioni di stile in input includono tipicamente testo, immagine di stile e primo fotogramma stilizzato. Ogni condizione presenta un vantaggio caratteristico: il testo è più flessibile, l'immagine di stile fornisce un ancoraggio visivo più preciso e il primo fotogramma stilizzato rende fattibile la stilizzazione di video lunghi. Tuttavia, i metodi esistenti sono largamente confinati a un singolo tipo di condizione di stile, il che ne limita l'ambito di applicazione. Inoltre, la mancanza di dataset di alta qualità porta a incoerenze stilistiche e sfarfallii temporali. Per affrontare queste limitazioni, introduciamo DreamStyle, un framework unificato per la stilizzazione video che supporta (1) la stilizzazione video guidata da testo, (2) guidata da immagine di stile e (3) guidata dal primo fotogramma, accompagnato da una pipeline ben progettata per la cura dei dati per acquisire dati video accoppiati di alta qualità. DreamStyle è costruito su un modello base da immagine a video (I2V) e addestrato utilizzando un adattamento a basso rango (LoRA) con matrici di up specifiche per token che riducono la confusione tra i diversi token di condizione. Valutazioni sia qualitative che quantitative dimostrano che DreamStyle è competente in tutte e tre le attività di stilizzazione video e supera i concorrenti in coerenza stilistica e qualità video.
I digital twin, in quanto rappresentazioni digitali precise di sistemi fisici, si sono evoluti da strumenti di simulazione passivi a entità intelligenti e autonome attraverso l'integrazione di tecnologie di intelligenza artificiale. Questo articolo presenta un quadro unificato in quattro fasi che caratterizza sistematicamente l'integrazione dell'IA lungo l'intero ciclo di vita del digital twin, abbracciando modellazione, mirroring, intervento e gestione autonoma. Sintetizzando le tecnologie e le pratiche esistenti, distilliamo un quadro unificato in quattro fasi che caratterizza sistematicamente come le metodologie di IA sono incorporate nel ciclo di vita del digital twin: (1) modellazione del gemello fisico attraverso approcci di IA basati sulla fisica e informati dalla fisica, (2) mirroring del sistema fisico in un digital twin con sincronizzazione in tempo reale, (3) intervento sul gemello fisico attraverso modelli predittivi, rilevamento di anomalie e strategie di ottimizzazione, e (4) raggiungimento di una gestione autonoma attraverso modelli linguistici di grandi dimensioni, modelli di fondazione e agenti intelligenti. Analizziamo la sinergia tra la modellazione basata sulla fisica e l'apprendimento guidato dai dati, evidenziando il passaggio dai tradizionali risolutori numerici a modelli informati dalla fisica e modelli di fondazione per i sistemi fisici. Inoltre, esaminiamo come le tecnologie di IA generativa, inclusi i modelli linguistici di grandi dimensioni e i modelli generativi mondiali, trasformino i digital twin in sistemi cognitivi proattivi e auto-miglioranti capaci di ragionamento, comunicazione e generazione di scenari creativi. Attraverso una rassegna trasversale che abbraccia undici domini applicativi, tra cui sanità, aerospaziale, manifatturiero intelligente, robotica e città intelligenti, identifichiamo le comuni sfide relative a scalabilità, spiegabilità e affidabilità, e delinea le direzioni per sistemi di digital twin guidati da IA responsabile.
Nonostante i significativi progressi, i modelli linguistici multimodali di grandi dimensioni continuano a mostrare difficoltà nella risoluzione visiva di problemi matematici. Alcuni lavori recenti riconoscono che la percezione visiva costituisce un collo di bottiglia nel ragionamento matematico visivo, ma le loro soluzioni si limitano a migliorare l'estrazione e l'interpretazione degli input visivi. In particolare, tutti trascurano la questione cruciale di whether gli indizi visivi estratti vengano fedelmente integrati e utilizzati correttamente nel ragionamento successivo. Spinti da questa osservazione, presentiamo CogFlow, un innovativo framework ispirato alla cognizione umana che articola il processo in tre fasi, incorporando uno stadio di internalizzazione della conoscenza per simulare esplicitamente il flusso gerarchico del ragionamento umano: percezione ⇒ internalizzazione ⇒ ragionamento. In linea con questo flusso gerarchico, potenziamo in modo olistico tutte le sue fasi. Progettiamo Ricompense Visive Sinergiche per potenziare le capacità percettive negli spazi parametrico e semantico, migliorando congiuntamente l'estrazione di informazioni visive da simboli e diagrammi. Per garantire l'integrazione fedele degli indizi visivi estratti nel ragionamento successivo, introduciamo un modello a Ricompensa per l'Internalizzazione della Conoscenza nella fase di internalizzazione, che funge da ponte tra percezione e ragionamento. Inoltre, progettiamo un algoritmo di Ottimizzazione della Politica Controllata dal Visivo per imporre ulteriormente che il ragionamento sia ancorato alla conoscenza visiva, prevenendo che i modelli cerchino scorciatoie costituite da catene di ragionamento apparentemente coerenti ma prive di fondamento visivo. Inoltre, contribuiamo con un nuovo dataset, MathCog, per l'addestramento dei modelli, che contiene campioni con oltre 120mila annotazioni di alta qualità allineate tra percezione e ragionamento. Esperimenti e analisi completi su benchmark comunemente utilizzati per il ragionamento matematico visivo convalidano la superiorità del CogFlow proposto.
Presentiamo WebGym, l'ambiente open-source più vasto fino ad oggi per l'addestramento di agenti web visivi realistici. I siti web reali sono non stazionari e diversificati, rendendo insoddisfacenti per un apprendimento robusto delle policy gli insiemi di compiti artificiali o su piccola scala. WebGym contiene quasi 300.000 compiti con valutazioni basate su rubriche che coprono siti web reali eterogenei e diversi livelli di difficoltà. Addestriamo gli agenti con una semplice ricetta di apprendimento per rinforzo (RL), che si addestra sulle tracce di interazione (rollout) dell'agente stesso, utilizzando le ricompense del compito come feedback per guidare l'apprendimento. Per permettere la scalabilità del RL, acceleriamo il campionamento delle traiettorie in WebGym sviluppando un sistema di rollout asincrono ad alta velocità, progettato specificamente per agenti web. Il nostro sistema raggiunge un'accelerazione del rollout di 4-5x rispetto alle implementazioni naive. In secondo luogo, aumentiamo l'ampiezza, la profondità e le dimensioni dell'insieme di compiti, il che si traduce in un miglioramento continuo delle prestazioni. Il fine-tuning di un solido modello base visione-linguaggio, Qwen-3-VL-8B-Instruct, su WebGym comporta un miglioramento del tasso di successo su un insieme di test fuori distribuzione dal 26,2% al 42,9%, superando significativamente agenti basati su modelli proprietari come GPT-4o e GPT-5-Thinking che raggiungono rispettivamente il 27,1% e il 29,8%. Questo miglioramento è sostanziale perché il nostro insieme di test è composto esclusivamente da compiti su siti web mai visti durante l'addestramento, a differenza di molti altri lavori precedenti sull'addestramento di agenti web visivi.
La rapida integrazione dei Modelli Linguistici Multimodali (MLLM) in applicazioni critiche è sempre più ostacolata da persistenti vulnerabilità in termini di sicurezza. Tuttavia, i benchmark esistenti di red-teaming sono spesso frammentati, limitati a interazioni testuali a turno singolo e privi della scalabilità necessaria per una valutazione sistematica. Per affrontare questo problema, introduciamo OpenRT, un framework di red-teaming unificato, modulare e ad alta produttività, progettato per una valutazione completa della sicurezza degli MLLM. Il suo nucleo propone un cambio di paradigma nel red-teaming automatizzato introducendo un kernel avversario che consente una separazione modulare lungo cinque dimensioni critiche: integrazione del modello, gestione dei dataset, strategie di attacco, metodi di giudizio e metriche di valutazione. Standardizzando le interfacce di attacco, disaccoppia la logica avversaria da un runtime asincrono ad alta produttività, consentendo una scalabilità sistematica su modelli diversi. Il nostro framework integra 37 metodologie di attacco eterogenee, che spaziano da gradienti white-box e perturbazioni multimodali a sofisticate strategie evolutive multi-agente. Attraverso un ampio studio empirico su 20 modelli avanzati (inclusi GPT-5.2, Claude 4.5 e Gemini 3 Pro), abbiamo evidenziato lacune critiche nella sicurezza: persino i modelli all'avanguardia non riescono a generalizzare attraverso i paradigmi di attacco, con i modelli leader che mostrano Tassi di Successo dell'Attacco medi fino al 49,14%. Significativamente, i nostri risultati rivelano che i modelli di ragionamento non possiedono intrinsecamente una robustezza superiore contro jailbreak complessi e multi-turn. Rendi OpenRT open-source fornisce un'infrastruttura sostenibile, estensibile e continuamente mantenuta che accelera lo sviluppo e la standardizzazione della sicurezza dell'IA.
Nonostante i notevoli progressi nella sintesi di immagini ad alta fedeltà, i modelli generativi continuano a incontrare difficoltà nel seguire istruzioni ad alta intensità logica, rivelando un persistente divario tra ragionamento ed esecuzione. Nel frattempo, sistemi closed-source (ad esempio, Nano Banana) hanno dimostrato capacità avanzate di generazione di immagini guidata dal ragionamento, evidenziando un divario sostanziale rispetto agli attuali modelli open-source. Sosteniamo che colmare questo divario richieda non solo generatori visivi migliori, ma un *ragionamento eseguibile*: scomporre intenzioni di alto livello in piani fondati e verificabili che guidino direttamente il processo generativo. A tal fine, proponiamo Unified Thinker, un'architettura di ragionamento indipendente dal compito per la generazione generale di immagini, concepita come un nucleo di pianificazione unificato che può essere integrato in generatori e flussi di lavoro diversi. Unified Thinker disaccoppia un Thinker dedicato dal Generatore di immagini, consentendo aggiornamenti modulari del ragionamento senza dover riaddestrare l'intero modello generativo. Introduciamo inoltre un paradigma di addestramento in due fasi: prima costruiamo un'interfaccia di pianificazione strutturata per il Thinker, poi applichiamo l'apprendimento per rinforzo per fondare la sua politica su feedback a livello di pixel, incentivando piani che ottimizzano la correttezza visiva rispetto alla plausibilità testuale. Esperimenti estesi sulla generazione di immagini da testo e sul photoediting dimostrano che Unified Thinker migliora sostanzialmente la qualità del ragionamento e della generazione delle immagini.
Presentiamo Muses, il primo metodo senza addestramento per la generazione di creature 3D fantastiche in un paradigma feed-forward. I metodi precedenti, che si basano su ottimizzazione part-aware, assemblaggio manuale o generazione di immagini 2D, spesso producono asset 3D irrealistici o incoerenti a causa delle sfide legate alla manipolazione intricata a livello di parti e alla limitata generazione out-of-domain. Al contrario, Muses sfrutta lo scheletro 3D, una rappresentazione fondamentale delle forme biologiche, per comporre esplicitamente e razionalmente elementi diversi. Questa base scheletrica formalizza la creazione di contenuti 3D come una pipeline structure-aware di progettazione, composizione e generazione. Muses inizia costruendo uno scheletro 3D creativamente composto con layout e scala coerenti attraverso un ragionamento vincolato da grafi. Questo scheletro guida poi un processo di assemblaggio basato su voxel all'interno di uno spazio latente strutturato, integrando regioni provenienti da oggetti diversi. Infine, viene applicata una modellazione dell'aspetto guidata da immagini sotto condizioni scheletriche per generare una texture stilisticamente coerente e armoniosa per la forma assemblata. Esperimenti estensivi stabiliscono le prestazioni all'avanguardia di Muses in termini di fedeltà visiva e allineamento con le descrizioni testuali, oltre al suo potenziale per la modifica flessibile di oggetti 3D. Pagina del progetto: https://luhexiao.github.io/Muses.github.io/.
La propagazione dal primo fotogramma (FFP) rappresenta un paradigma promettente per l'editing video controllabile, ma i metodi esistenti sono ostacolati dalla dipendenza da una complessa guida in fase di esecuzione. Identifichiamo la causa principale di questa limitazione nell'inadeguatezza degli attuali dataset di addestramento, che sono spesso troppo brevi, a bassa risoluzione e privi della diversità di compiti necessaria per insegnare robusti prior temporali. Per colmare questa lacuna dati fondamentale, introduciamo innanzitutto FFP-300K, un nuovo dataset su larga scala composto da 300.000 coppie video ad alta fedeltà con risoluzione 720p e lunghezza di 81 fotogrammi, costruito tramite una pipeline bilanciata e metodica per editing locali e globali diversificati. Basandoci su questo dataset, proponiamo una nuova architettura progettata per una FFP veramente priva di guida, che risolve la tensione critica tra il mantenimento dell'aspetto del primo fotogramma e la preservazione del movimento del video sorgente. A livello architetturale, introduciamo l'Adaptive Spatio-Temporal RoPE (AST-RoPE), che rimappa dinamicamente le codifiche posizionali per separare i riferimenti di aspetto e movimento. A livello dell'obiettivo, impieghiamo una strategia di auto-distillazione in cui un compito di propagazione d'identità agisce come un potente regolarizzatore, garantendo stabilità temporale a lungo termine e prevenendo la deriva semantica. Esperimenti completi sul benchmark EditVerseBench dimostrano che il nostro metodo supera significativamente i modelli accademici e commerciali esistenti, ottenendo un miglioramento di circa 0,2 punti PickScore e 0,3 punti VLM rispetto a questi competitor.
I grandi modelli di ragionamento (LRM) ottengono prestazioni elevate in compiti di ragionamento matematico, spesso attribuite alla loro capacità di generare spiegazioni esplicite a catena del pensiero (CoT). Tuttavia, lavori recenti mostrano che gli LRM spesso giungono alla risposta corretta prima di completare questi passaggi di ragionamento testuale, indicando la presenza di un *ragionamento latente* – un calcolo interno e non verbale codificato negli stati nascosti. Sebbene questo fenomeno sia stato esplorato in inglese, il suo comportamento multilingue rimane in gran parte sconosciuto. In questo articolo, conduciamo un'indagine sistematica sul ragionamento latente multilingue negli LRM attraverso 11 lingue. Utilizzando una strategia basata sulla troncatura, esaminiamo come la risposta corretta emerga quando al modello vengono fornite solo tracce di ragionamento parziali, permettendoci di misurare la formazione latente delle previsioni passo dopo passo. I nostri risultati rivelano chiare evidenze di ragionamento latente multilingue, sebbene in modo disomogeneo: forte nelle lingue ad alte risorse, più debole in quelle a basse risorse, e generalmente meno osservabile su benchmark più difficili. Per capire se queste differenze riflettano meccanismi interni distinti, eseguiamo ulteriori analisi rappresentative. Nonostante le disparità superficiali, scopriamo che l'evoluzione interna delle previsioni è altamente coerente tra le lingue e si allinea ampiamente con l'inglese – uno schema che suggerisce un percorso di ragionamento latente centrato sulla lingua inglese.
I modelli linguistici di grandi dimensioni (LLM), nonostante le prestazioni elevate su problemi matematici complessi, mostrano limitazioni sistematiche nelle attività di conteggio. Questa problematica deriva dai limiti architetturali dei transformer, dove il conteggio viene eseguito attraverso i layer, portando a una precisione degradata per problemi di conteggio più grandi a causa dei vincoli di profondità. Per affrontare questa limitazione, proponiamo una semplice strategia al momento del test, ispirata ai processi cognitivi del Sistema-2, che scompone i compiti di conteggio di grandi dimensioni in sottoproblemi più piccoli e indipendenti che il modello può risolvere in modo affidabile. Valutiamo questo approccio utilizzando analisi di mediazione osservazionale e causale per comprendere il meccanismo sottostante di questa strategia simile al Sistema-2. La nostra analisi meccanicistica identifica componenti chiave: i conteggi latenti vengono calcolati e memorizzati nelle rappresentazioni finali degli elementi di ogni parte, trasferiti ai passaggi intermedi tramite specifici attention head, e aggregati nella fase finale per produrre il conteggio totale. I risultati sperimentali dimostrano che questa strategia consente agli LLM di superare i limiti architetturali e raggiungere un'elevata accuratezza in compiti di conteggio su larga scala. Questo lavoro fornisce una comprensione meccanicistica del conteggio di tipo Sistema-2 negli LLM e presenta un approccio generalizzabile per migliorare e comprendere il loro comportamento di ragionamento.
La rilevazione di manipolazioni deepfake sconosciute rimane uno dei problemi più complessi nel campo dell'identificazione di falsificazioni facciali. Gli approcci allo stato dell'arte attuali non riescono a generalizzare per manipolazioni non viste, poiché si basano principalmente su addestramento supervisionato con deepfake esistenti o pseudo-falsi, il che porta a un overfitting verso pattern di falsificazione specifici. Al contrario, i metodi self-supervised offrono un potenziale di generalizzazione maggiore, ma i lavori esistenti faticano ad apprendere rappresentazioni discriminative unicamente dall'auto-supervisione. In questo articolo, proponiamo ExposeAnyone, un approccio completamente self-supervised basato su un modello di diffusione che genera sequenze di espressioni a partire dall'audio. L'idea chiave è che, una volta che il modello viene personalizzato per soggetti specifici utilizzando set di riferimento, esso può calcolare le distanze d'identità tra video sospetti e soggetti personalizzati attraverso gli errori di ricostruzione della diffusione, abilitando così il rilevamento di falsificazioni facciali per persone di interesse. Esperimenti estensivi dimostrano che 1) il nostro metodo supera il precedente metodo state-of-the-art di 4,22 punti percentuali nella AUC media sui dataset DF-TIMIT, DFDCP, KoDF e IDForge, 2) il nostro modello è anche in grado di rilevare video generati da Sora2, scenario in cui gli approcci precedenti performano scarsamente, e 3) il nostro metodo è altamente robusto a corruzioni come blur e compressione, evidenziando l'applicabilità nel rilevamento di falsificazioni facciali nel mondo reale.
L'acquisizione di preferenze utente complesse da sequenze comportamentali sparse rimane una sfida fondamentale nel recommendation sequenziale. I recenti metodi di ragionamento latente hanno mostrato potenzialità estendendo il calcolo al momento del test attraverso ragionamenti multi-step, ma si basano esclusivamente su un ridimensionamento a livello di profondità lungo una singola traiettoria, soffrendo di rendimenti decrescenti all'aumentare della profondità di ragionamento. Per superare questa limitazione, proponiamo Parallel Latent Reasoning (PLR), un framework innovativo che introduce per la prima volta un ridimensionamento computazionale a livello di ampiezza esplorando simultaneamente multiple traiettorie di ragionamento diverse. PLR costruisce flussi di ragionamento paralleli mediante token di attivazione apprendibili in spazio latente continuo, preserva la diversità tra i flussi attraverso una regolarizzazione del ragionamento globale e sintetizza adattivamente gli output multi-flusso mediante un'aggregazione di tipo mixture-of-reasoning-streams. Esperimenti estesi su tre dataset del mondo reale dimostrano che PLR supera sostanzialmente i baseline state-of-the-art mantenendo al contempo un'efficienza inferenziale in tempo reale. L'analisi teorica valida ulteriormente l'efficacia del ragionamento parallelo nel migliorare la capacità di generalizzazione. Il nostro lavoro apre nuove strade per potenziare la capacità di ragionamento nel recommendation sequenziale oltre i limiti del ridimensionamento in profondità esistente.
Introduciamo AceFF, un potenziale interatomico pre-addestrato basato su machine learning (MLIP) ottimizzato per la scoperta di farmaci a piccole molecole. Sebbene gli MLIP siano emersi come alternative efficienti alla Teoria del Funzionale della Densità (DFT), la generalizzabilità attraverso diversi spazi chimici rimane difficile. AceFF affronta questa sfida tramite un'architettura TensorNet2 raffinata, addestrata su un dataset completo di composti simili a farmaci. Questo approccio produce un campo di forze che bilancia la velocità di inferenza ad alto throughput con l'accuratezza a livello DFT. AceFF supporta completamente gli elementi essenziali della chimica farmaceutica (H, B, C, N, O, F, Si, P, S, Cl, Br, I) ed è esplicitamente addestrato per gestire stati carichi. La validazione rispetto a benchmark rigorosi, incluse scansioni complesse di energia torsionale, traiettorie di dinamica molecolare, minimizzazioni in batch e accuratezza di forze ed energia, dimostra che AceFF stabilisce un nuovo stato dell'arte per le molecole organiche. I pesi del modello AceFF-2 e il codice per l'inferenza sono disponibili su https://huggingface.co/Acellera/AceFF-2.0.
Il rilevamento dell'incitamento all'odio sui social media affronta sfide sia in termini di accuratezza che di spiegabilità, specialmente per le lingue indiane poco esplorate. Proponiamo una nuova metodologia di addestramento guidata dalla spiegabilità, X-MuTeST (eXplainable Multilingual haTe Speech deTection), per il rilevamento dell'incitamento all'odio che combina il ragionamento semantico di alto livello dei modelli linguistici di grandi dimensioni (LLM) con le tecniche tradizionali di potenziamento dell'attenzione. Estendiamo questa ricerca all'hindi e al telugu insieme all'inglese fornendo benchmark con razionali annotati manualmente per ogni parola per giustificare l'etichetta di classe assegnata. Il metodo di spiegabilità X-MuTeST calcola la differenza tra le probabilità di predizione del testo originale e quelle di unigrammi, bigrammi e trigrammi. Le spiegazioni finali sono calcolate come l'unione tra le spiegazioni degli LLM e le spiegazioni di X-MuTeST. Dimostriamo che l'utilizzo di razionali umani durante l'addestramento migliora sia le prestazioni di classificazione che la spiegabilità. Inoltre, combinare i razionali umani con il nostro metodo di spiegabilità per affinare l'attenzione del modello produce ulteriori miglioramenti. Valutiamo la spiegabilità utilizzando metriche di Plausibilità come Token-F1 e IOU-F1 e metriche di Fedeltà come Completezza e Sufficienza. Concentrandoci su lingue con risorse limitate, il nostro lavoro avanza il rilevamento dell'incitamento all'odio in contesti linguistici diversificati. Il nostro dataset include annotazioni di razionale a livello di token per 6.004 campioni in hindi, 4.492 in telugu e 6.334 in inglese. Dati e codice sono disponibili su https://github.com/ziarehman30/X-MuTeST.
La rimozione della foschia dalle immagini rappresenta una sfida cruciale nel campo della visione artificiale, essenziale per migliorare la nitidezza delle immagini in condizioni di foschia. I metodi tradizionali si basano spesso su modelli di scattering atmosferico, mentre le recenti tecniche di deep learning, in particolare le Reti Neurali Convoluzionali (CNN) e i Transformer, hanno migliorato le prestazioni analizzando efficacemente le caratteristiche delle immagini. Tuttavia, le CNN mostrano limitazioni nel modellare dipendenze a lungo raggio, mentre i Transformer richiedono risorse computazionali significative. Per affrontare queste limitazioni, proponiamo DehazeSNN, un'architettura innovativa che integra un design simil-U-Net con le Reti Neurali a Spiking (SNN). DehazeSNN cattura le caratteristiche multiscala delle immagini gestendo efficientemente sia le dipendenze locali che quelle a lungo raggio. L'introduzione del Blocco Orthogonal Leaky-Integrate-and-Fire (OLIFBlock) potenzia la comunicazione cross-canale, determinando prestazioni di rimozione della foschia superiori con un carico computazionale ridotto. I nostri esperimenti mostrano che DehazeSNN è altamente competitivo rispetto ai metodi allo stato dell'arte su dataset di benchmark, producendo immagini prive di foschia di alta qualità con dimensioni del modello ridotte e minori operazioni di moltiplicazione-accumulo. Il metodo proposto è pubblicamente disponibile all'indirizzo https://github.com/HaoranLiu507/DehazeSNN.
La geo-localizzazione mira a dedurre l'origine geografica di un dato segnale. In computer vision, la geo-localizzazione è servita come benchmark impegnativo per il ragionamento composizionale ed è rilevante per la sicurezza pubblica. Al contrario, i progressi nella geo-localizzazione audio sono stati limitati dalla mancanza di coppie audio-posizione di alta qualità. Per colmare questa lacuna, introduciamo AGL1K, il primo benchmark di geo-localizzazione audio per modelli linguistici audio (ALM), che copre 72 paesi e territori. Per estrarre campioni affidabilmente localizzabili da una piattaforma crowdsourced, proponiamo la metrica di Localizzabilità Audio che quantifica il contenuto informativo di ogni registrazione, producendo 1.444 clip audio curate. Le valutazioni su 16 ALM mostrano che gli ALM hanno sviluppato capacità di geo-localizzazione audio. Rileviamo che i modelli closed-source superano sostanzialmente quelli open-source e che gli indizi linguistici spesso dominano come impalcatura per la previsione. Analizziamo inoltre le tracce di ragionamento degli ALM, il bias regionale, le cause di errore e l'interpretabilità della metrica di localizzabilità. Nel complesso, AGL1K stabilisce un punto di riferimento per la geo-localizzazione audio e potrebbe far progredire gli ALM con una migliore capacità di ragionamento geospaziale.
Esaminiamo due proprietà dei sistemi di IA: la capacità (ciò che un sistema può fare) e la governabilità (l'affidabilità con cui è possibile modificare il comportamento verso esiti desiderati). Una questione centrale è se la crescita della capacità riduca la governabilità e rischi un collasso del controllo. Distinguiamo inoltre tra governabilità autorizzata (la capacità dei creatori di raggiungere in modo affidabile i comportamenti previsti) e governabilità non autorizzata (la capacità degli aggressori di elicitare comportamenti non consentiti). Questa distinzione evidenzia un fondamentale dilemma sicurezza-sicurezza dei modelli di IA: la sicurezza richiede un'alta governabilità per imporre il controllo (ad esempio, fermarsi/rifiutare), mentre la sicurezza informatica richiede una bassa governabilità per impedire a attori malevoli di elicitare comportamenti dannosi. Questa tensione rappresenta una sfida significativa per i modelli open-weight, che attualmente mostrano un'alta governabilità attraverso tecniche comuni come il fine-tuning o gli attacchi avversariali. Utilizzando Qwen3 e InstrumentalEval, scopriamo che un breve suffisso prompt anti-strumentale riduce drasticamente il tasso di convergenza misurato (ad esempio, evitamento dello spegnimento, auto-replicazione). Per Qwen3-30B Instruct, il tasso di convergenza scende dall'81,69% sotto un suffisso pro-strumentale al 2,82% sotto un suffisso anti-strumentale. Sotto prompt anti-strumentali, i modelli allineati più grandi mostrano tassi di convergenza inferiori rispetto a quelli più piccoli (Instruct: 2,82% vs. 4,23%; Thinking: 4,23% vs. 9,86%). Il codice è disponibile su github.com/j-hoscilowicz/instrumental_steering.
L'implementazione di Large Vision-Language Models (LVLM) per attività di question answering su documenti reali è spesso vincolata da politiche dinamiche, definite dall'utente, che dettano la divulgazione delle informazioni in base al contesto. Sebbene garantire l'aderenza a questi vincoli espliciti sia cruciale, la ricerca esistente sulla sicurezza si concentra principalmente su norme sociali implicite o su ambienti esclusivamente testuali, trascurando le complessità dei documenti multimodali. In questo articolo, introduciamo Doc-PP (Document Policy Preservation Benchmark), un nuovo benchmark costruito a partire da report del mondo reale che richiedono ragionamenti su elementi eterogenei visivi e testuali sotto rigide politiche di non divulgazione. La nostra valutazione mette in luce un sistematico Divario di Sicurezza Indotto dal Ragionamento: i modelli divulgano frequentemente informazioni sensibili quando le risposte devono essere inferite attraverso una sintesi complessa o aggregate tra diverse modalità, eludendo di fatto i vincoli di sicurezza esistenti. Inoltre, identifichiamo come la fornitura di testo estratto migliori la percezione ma faciliti inavvertitamente la divulgazione. Per affrontare queste vulnerabilità, proponiamo DVA (Decomponi-Verifica-Aggrega), un framework di inferenza strutturale che disaccoppia il ragionamento dalla verifica delle politiche. I risultati sperimentali dimostrano che DVA supera significativamente le difese basate su prompting standard, offrendo una baseline robusta per la comprensione dei documenti conforme alle politiche.