Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti progressi nella generazione video basata su diffusione hanno aperto nuove possibilità per l'editing video controllabile, ma l'inserimento realistico di oggetti video (VOI) rimane una sfida a causa della limitata comprensione 4D della scena e della gestione inadeguata delle occlusioni e degli effetti di illuminazione. Presentiamo InsertAnywhere, un nuovo framework VOI che raggiunge un posizionamento di oggetti geometricamente coerente e una sintesi video fedele all'aspetto. Il nostro metodo inizia con un modulo di generazione di maschere consapevole in 4D che ricostruisce la geometria della scena e propaga il posizionamento dell'oggetto specificato dall'utente attraverso i fotogrammi, mantenendo la coerenza temporale e la consistenza delle occlusioni. Basandosi su questo fondamento spaziale, estendiamo un modello di generazione video basato su diffusione per sintetizzare congiuntamente l'oggetto inserito e le sue variazioni locali circostanti, come l'illuminazione e l'ombreggiatura. Per abilitare l'addestramento supervisionato, introduciamo ROSE++, un dataset sintetico consapevole dell'illuminazione, costruito trasformando il dataset di rimozione oggetti ROSE in triplette di video con oggetto rimosso, video con oggetto presente e un'immagine di riferimento generata da un VLM. Attraverso esperimenti estesi, dimostriamo che il nostro framework produce inserimenti di oggetti geometricamente plausibili e visivamente coerenti in diversi scenari del mondo reale, superando significativamente i modelli di ricerca e commerciali esistenti.
Gli esseri umani comprendono testi lunghi e complessi basandosi su una rappresentazione semantica olistica del contenuto. Questa visione globale aiuta a organizzare le conoscenze pregresse, interpretare nuove informazioni e integrare prove disperse all'interno di un documento, come rivelato dalla Capacità di Consapevolezza del Mindscape umano in psicologia. Gli attuali sistemi di Retrieval-Augmented Generation (RAG) mancano di tale guida e quindi faticano con compiti che richiedono contesti estesi. In questo articolo, proponiamo Mindscape-Aware RAG (MiA-RAG), il primo approccio che fornisce ai sistemi RAG basati su LLM una consapevolezza esplicita del contesto globale. MiA-RAG costruisce un mindscape attraverso una summarizzazione gerarchica e condiziona sia il retrieval che la generazione su questa rappresentazione semantica globale. Ciò consente al retriever di formare embedding di query arricchiti e al generatore di ragionare sulle prove recuperate all'interno di un contesto globale coerente. Valutiamo MiA-RAG su diversi benchmark bilingue e per contesti lunghi, relativi alla comprensione basata su prove e al sense-making globale. Il sistema supera costantemente i baseline, e un'analisi più approfondita mostra che allinea i dettagli locali con una rappresentazione globale coerente, abilitando un retrieval e un ragionamento su contesti lunghi più simili a quelli umani.
I modelli visione-linguaggio (VLM) su larga scala hanno recentemente ottenuto risultati notevoli nella comprensione multimodale, ma le loro dimensioni massicce li rendono impraticabili per la distribuzione su dispositivi mobili o edge. Ciò solleva l'esigenza di VLM compatti ma capaci che possano apprendere efficientemente da insegnanti di grandi dimensioni e potenti. Tuttavia, la distillazione della conoscenza da un insegnante di grandi dimensioni a uno studente piccolo rimane impegnativa a causa del loro ampio divario dimensionale: lo studente spesso non riesce a riprodurre le rappresentazioni complesse e ad alta dimensionalità dell'insegnante, portando a un apprendimento instabile e a prestazioni degradate. Per affrontare questo problema, proponiamo Masters (Masking Teacher and Reinforcing Student), un framework di distillazione per reinforcement learning (RL) progressivo basato sul masking. Masters prima maschera i pesi non dominanti dell'insegnante per ridurre la complessità non necessaria, poi ripristina progressivamente l'insegnante aumentandone gradualmente la capacità durante l'addestramento. Questa strategia consente allo studente di apprendere rappresentazioni più ricche dall'insegnante in modo fluido e stabile. Per perfezionare ulteriormente il trasferimento di conoscenza, Masters integra una fase di RL offline con due ricompense complementari: una ricompensa di accuratezza che misura la correttezza delle risposte generate e una ricompensa di distillazione che quantifica la facilità di trasferire le risposte dall'insegnante allo studente. A differenza dei paradigmi di RL online "pensa-rispondi", che sono computazionalmente costosi e generano risposte lunghe, il nostro RL offline sfrutta risposte pre-generate da insegnanti mascherati. Queste forniscono una guida ricca ma efficiente, consentendo agli studenti di ottenere prestazioni solide senza richiedere il processo "pensa-rispondi".
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno ottenuto progressi notevoli in compiti di comprensione visiva come il grounding visivo, la segmentazione e la generazione di didascalie. Tuttavia, la loro capacità di percepire le caratteristiche dell'immagine a livello percettivo rimane limitata. In questo lavoro, presentiamo UniPercept-Bench, un framework unificato per la comprensione dell'immagine a livello percettivo in tre domini chiave: Estetica, Qualità, Struttura e Tessitura. Stabiliamo un sistema di definizione gerarchico e costruiamo dataset su larga scala per valutare la comprensione dell'immagine a livello percettivo. Su questa base, sviluppiamo un solido baseline, UniPercept, addestrato tramite Pre-Addestramento Adattativo al Dominio e RL Allineato al Compito, che consente una robusta generalizzazione sia per i compiti di Valutazione Visiva (VR) che di Risposta a Domande Visive (VQA). UniPercept supera gli MLLM esistenti nella comprensione dell'immagine a livello percettivo e può fungere da modello di ricompanda plug-and-play per la generazione di immagini da testo. Questo lavoro definisce la Comprensione dell'Immagine a Livello Percettivo nell'era degli MLLM e, attraverso l'introduzione di un benchmark completo insieme a un solido baseline, fornisce una base solida per far progredire la comprensione multimodale dell'immagine a livello percettivo.
Lo sviluppo di agenti GUI potrebbe rivoluzionare la prossima generazione di interazione uomo-computer. Spinti da questa visione, presentiamo MAI-UI, una famiglia di agenti GUI fondazionali che copre l'intero spettro di dimensioni, incluse varianti da 2B, 8B, 32B e 235B-A22B. Identifichiamo quattro sfide chiave per una distribuzione realistica: la mancanza di un'interazione nativa agente-utente, i limiti del funzionamento basato esclusivamente sull'interfaccia utente, l'assenza di un'architettura di distribuzione pratica e la fragilità in ambienti dinamici. MAI-UI affronta questi problemi con una metodologia unificata: una pipeline di dati auto-evolutiva che espande i dati di navigazione per includere l'interazione utente e le chiamate agli strumenti MCP, un sistema nativo di collaborazione dispositivo-cloud che instrada l'esecuzione in base allo stato del compito e un framework di RL online con ottimizzazioni avanzate per scalare ambienti paralleli e lunghezza del contesto. MAI-UI stabilisce nuovi state-of-the-art nel grounding GUI e nella navigazione mobile. Sui benchmark di grounding, raggiunge il 73,5% su ScreenSpot-Pro, il 91,3% su MMBench GUI L2, il 70,9% su OSWorld-G e il 49,2% su UI-Vision, superando Gemini-3-Pro e Seed1.8 su ScreenSpot-Pro. Nella navigazione GUI mobile, stabilisce un nuovo SOTA del 76,7% su AndroidWorld, superando UI-Tars-2, Gemini-2.5-Pro e Seed1.8. Su MobileWorld, MAI-UI ottiene un tasso di successo del 41,7%, superando significativamente i modelli GUI end-to-end e risultando competitivo con i framework agentistici basati su Gemini-3-Pro. I nostri esperimenti di RL online mostrano miglioramenti significativi derivanti dal ridimensionamento degli ambienti paralleli da 32 a 512 (+5,2 punti) e dall'aumento del budget di step ambientali da 15 a 50 (+4,3 punti). Infine, il sistema nativo di collaborazione dispositivo-cloud migliora le prestazioni sul dispositivo del 33%, riduce le chiamate al modello cloud di oltre il 40% e preserva la privacy dell'utente.
I grandi modelli visione-linguaggio (VLM) spesso traggono vantaggio da segnali visivi intermedi, iniettati tramite strumenti esterni o generati come token visivi latenti durante il ragionamento, ma questi meccanismi continuano a trascurare l'evidenza visiva di grana fine (ad esempio, le polilinee nei grafici), generalizzano male tra diversi domini e comportano un costo computazionale elevato in fase di inferenza. In questo articolo, proponghiamo il Modellamento Percettivo Bidirezionale (BiPS), che trasforma viste mascherate condizionate alla domanda in segnali bidirezionali su dove guardare, modellando la percezione durante l'addestramento. BiPS applica prima un vincolo di consistenza KL tra l'immagine originale e una vista che preserva l'evidenza, mantenendo solo le regioni rilevanti per la domanda, incoraggiando una copertura approssimativa ma completa dei pixel di supporto. Successivamente, applica un vincolo di separazione KL tra l'originale e una vista in cui l'evidenza è stata rimossa, mascherando i pixel critici in modo che l'immagine non supporti più la risposta originale, scoraggiando così le scorciatoie basate solo sul testo (rispondere usando solo il testo) e imponendo una dipendenza visiva di grana fine. Su otto benchmark, BiPS migliora Qwen2.5-VL-7B dell'8.2% in media e mostra una forte generalizzazione fuori dominio su dataset e tipi di immagine non visti.
I Large Language Model (LLM) sono sempre più impiegati in sistemi time-critical, come la robotica, la guida autonoma, l'intelligenza embodied e l'automazione industriale, dove la generazione di risposte accurate entro un determinato budget temporale è cruciale per attività di decision-making, controllo o compiti safety-critical. Tuttavia, il processo di generazione auto-regressivo degli LLM rende complesso modellare e stimare il tempo di esecuzione end-to-end. Inoltre, i metodi di inferenza efficienti esistenti, basati su un rapporto di rimozione (eviction ratio) fisso della key-value (KV) cache, faticano ad adattarsi a compiti variabili con diversi budget temporali, dove un rapporto di rimozione inappropriato può portare a un'inferenza incompleta o a un calo delle prestazioni della risposta. In questo articolo, proponiamo TimeBill, un nuovo framework di inferenza time-budgeted per LLM che bilancia l'efficienza inferenziale e le prestazioni della risposta. Nello specifico, proponiamo un predittore a grana fine della lunghezza della risposta (Response Length Predictor - RLP) e uno stimatore del tempo di esecuzione (Execution Time Estimator - ETE) per prevedere accuratamente il tempo di esecuzione end-to-end degli LLM. Successivamente, sviluppiamo un approccio di inferenza efficiente time-budgeted che adatta dinamicamente il rapporto di rimozione della KV cache in base alla previsione del tempo di esecuzione e al budget temporale assegnato. Infine, attraverso esperimenti approfonditi, dimostriamo i vantaggi di TimeBill nel migliorare il tasso di completamento dei task e nel mantenere le prestazioni della risposta sotto varie strategie di superamento del budget (overrun).
La capacità degli agenti di IA di "pensare con le immagini" richiede una sofisticata combinazione di ragionamento e percezione. Tuttavia, gli attuali agenti multimodali open si rivelano ancora largamente carenti nell'aspetto del ragionamento, cruciale per compiti del mondo reale come l'analisi di documenti con grafici/diagrammi densi e la navigazione di mappe. Per colmare questa lacuna, introduciamo O3-Bench, un nuovo benchmark progettato per valutare il ragionamento multimodale con attenzione alternata ai dettagli visivi. O3-Bench presenta problemi complessi che richiedono agli agenti di integrare informazioni visive sottili da distinte aree dell'immagine attraverso un ragionamento a più fasi. I problemi sono estremamente impegnativi anche per sistemi all'avanguardia come OpenAI o3, che ottiene solo il 40,8% di accuratezza su O3-Bench. Per fare progressi, proponiamo InSight-o3, un framework multi-agente composto da un agente di ragionamento visivo (vReasoner) e un agente di ricerca visiva (vSearcher) per il quale introduciamo il compito di ricerca visiva generalizzata – individuare regioni relazionali, sfumate o concettuali descritte in linguaggio libero, andando oltre la semplice identificazione di oggetti o figure in immagini naturali. Presentiamo quindi un LLM multimodale addestrato specificamente per questo compito tramite apprendimento per rinforzo. Come agente plug-and-play, il nostro vSearcher potenzia i modelli multimodali all'avanguardia (come vReasoner), migliorando significativamente le loro prestazioni su un'ampia gamma di benchmark. Questo rappresenta un passo concreto verso potenti sistemi open simili a o3. Il nostro codice e dataset sono disponibili su https://github.com/m-Just/InSight-o3.
L'editing visivo basato sull'inversione fornisce un metodo efficace e senza addestramento per modificare un'immagine o un video in base alle istruzioni dell'utente. I metodi esistenti iniettano tipicamente informazioni dell'immagine sorgente durante il processo di campionamento per mantenere la coerenza dell'editing. Tuttavia, questa strategia di campionamento si affida eccessivamente alle informazioni sorgente, il che influisce negativamente sulle modifiche nell'immagine target (ad esempio, fallendo nel cambiare attributi del soggetto come posa, numero o colore come richiesto). In questo lavoro, proponiamo ProEdit per affrontare questo problema sia a livello di attenzione che di latente. Nell'aspetto dell'attenzione, introduciamo KV-mix, che combina le caratteristiche KV della sorgente e del target nella regione modificata, mitigando l'influenza dell'immagine sorgente sulla regione di editing mentre mantiene la coerenza dello sfondo. Nell'aspetto latente, proponiamo Latents-Shift, che perturba la regione modificata del latente sorgente, eliminando l'influenza del latente invertito sul campionamento. Esperimenti estesi su diversi benchmark di editing di immagini e video dimostrano che il nostro metodo raggiunge prestazioni allo stato dell'arte. Inoltre, il nostro design è plug-and-play e può essere integrato perfettamente in metodi di inversione ed editing esistenti, come RF-Solver, FireFlow e UniEdit.
I recenti modelli di generazione testo-video mostrano progressi notevoli nel realismo visivo, nella fedeltà del movimento e nell'allineamento testo-video, ma rimangono fondamentalmente limitati nella loro capacità di generare comportamenti socialmente coerenti. A differenza degli esseri umani, che inferiscono senza sforzo intenzioni, credenze, emozioni e norme sociali da brevi indizi visivi, i modelli attuali tendono a rappresentare scene in modo letterale senza cogliere la logica causale o psicologica sottostante. Per valutare sistematicamente questo divario, introduciamo il primo benchmark per il ragionamento sociale nella generazione video. Basandosi sui risultati della psicologia dello sviluppo e sociale, il nostro benchmark organizza trenta paradigmi classici della cognizione sociale in sette dimensioni fondamentali, tra cui l'inferenza degli stati mentali, l'azione finalizzata, l'attenzione condivisa, il coordinamento sociale, il comportamento prosociale, le norme sociali e le strategie multi-agente. Per rendere operativi questi paradigmi, sviluppiamo una pipeline completamente priva di addestramento basata su agenti che (i) distilla il meccanismo di ragionamento di ogni esperimento, (ii) sintetizza scenari diversificati pronti per il video, (iii) impone la neutralità concettuale e il controllo della difficoltà attraverso una critica basata su indizi, e (iv) valuta i video generati utilizzando un giudice VLM ad alta capacità attraverso cinque dimensioni interpretabili del ragionamento sociale. Utilizzando questo framework, conduciamo il primo studio su larga scala su sette sistemi all'avanguardia per la generazione video. I nostri risultati rivelano divari prestazionali sostanziali: mentre i modelli moderni eccellono nella plausibilità superficiale, falliscono sistematicamente nel riconoscimento delle intenzioni, nel ragionamento sulle credenze, nell'attenzione condivisa e nell'inferenza prosociale.
La modellazione meteorologica richiede sia previsioni accurate che un'interpretazione meccanicistica, eppure i metodi esistenti trattano questi obiettivi in modo isolato, separando la generazione dalla comprensione. Per colmare questa lacuna, presentiamo Omni-Weather, il primo modello fondamento multimodale che unifica generazione e comprensione meteorologica all'interno di un'unica architettura. Omni-Weather integra un encoder radar per le attività di generazione meteorologica, seguito da un'elaborazione unificata mediante un meccanismo di self-attention condiviso. Inoltre, abbiamo costruito un dataset Chain-of-Thought per il ragionamento causale nella generazione meteorologica, consentendo output interpretabili e una migliore qualità percettiva. Esperimenti estensivi dimostrano che Omni-Weather raggiunge prestazioni allo stato dell'arte sia nella generazione che nella comprensione meteorologica. I nostri risultati indicano inoltre che i compiti di generazione e comprensione nel dominio meteorologico possono rafforzarsi reciprocamente. Omni-Weather dimostra anche la fattibilità e il valore dell'unificazione tra generazione e comprensione meteorologica.
La generazione automatica di diapositive per presentazioni può ottimizzare notevolmente la creazione di contenuti. Tuttavia, poiché le preferenze di ciascun utente possono variare, le formulazioni esistenti sotto-specificate spesso producono risultati subottimali che non soddisfano le esigenze individuali. Introduciamo un nuovo compito che condiziona la generazione di diapositive da articoli scientifici in base alle preferenze specificate dall'utente. Proponiamo SlideTailor, un framework agentivo ispirato al comportamento umano, che genera progressivamente diapositive modificabili in modo allineato alle preferenze dell'utente. Invece di richiedere agli utenti di descrivere le proprie preferenze in forma testuale dettagliata, il nostro sistema richiede solo una coppia di esempio carta-diapositive e un template visivo - elementi naturali e facili da fornire che codificano implicitamente le ricche preferenze dell'utente sia per il contenuto che per lo stile visivo. Nonostante la natura implicita e non etichettata di questi input, il nostro framework distilla e generalizza efficacemente le preferenze per guidare la generazione personalizzata di diapositive. Introduciamo inoltre un innovativo meccanismo a catena del discorso per allineare il contenuto delle diapositive con la narrazione orale pianificata. Tale design migliora significativamente la qualità delle diapositive generate e abilita applicazioni downstream come presentazioni video. Per supportare questo nuovo compito, abbiamo costruito un dataset di benchmark che cattura preferenze utente diversificate, con metriche interpretabili progettate attentamente per una valutazione robusta. Esperimenti estensivi dimostrano l'efficacia del nostro framework.
I feedback basati sull'esecuzione come i test unitari sono ampiamente utilizzati nello sviluppo di agenti di codifica attraverso il test-time scaling (TTS) e il reinforcement learning (RL). Questo paradigma richiede una raccolta scalabile e affidabile di casi di test unitari per fornire un feedback accurato, e il feedback risultante è spesso sparso e non può distinguere efficacemente tra traiettorie che sono entrambe di successo o entrambe fallimentari. Al contrario, i feedback indipendenti dall'esecuzione forniti da modelli di reward possono offrire segnali più granulari senza dipendere da casi di test unitari. Nonostante questo potenziale, i feedback indipendenti dall'esecuzione per agenti realistici di ingegneria del software (SWE) rimangono poco esplorati. Con l'obiettivo di sviluppare modelli di reward versatili ed efficaci sia in TTS che in RL, tuttavia, osserviamo che due verificatori con prestazioni TTS quasi identiche possono comunque produrre risultati molto diversi in RL. Intuitivamente, il TTS riflette principalmente la capacità del modello di selezionare la traiettoria migliore, ma questa capacità non necessariamente si generalizza al RL. Per affrontare questa limitazione, identifichiamo due aspetti aggiuntivi cruciali per l'addestramento RL: l'accuratezza nella classificazione e la calibrazione. Successivamente conduciamo esperimenti controllati completi per investigare come addestrare un modello di reward robusto che performi bene su queste metriche. In particolare, analizziamo l'impatto di vari fattori come la scala dei dati di addestramento, i mix di policy e la composizione delle fonti dati. Guidati da queste indagini, introduciamo SWE-RM, un modello di reward accurato e robusto che adotta un'architettura mixture-of-experts con 30B parametri totali e 3B attivati durante l'inferenza. SWE-RM migliora sostanzialmente gli agenti SWE sia nelle prestazioni TTS che RL. Ad esempio, aumenta l'accuratezza di Qwen3-Coder-Flash dal 51.6% al 62.0%, e di Qwen3-Coder-Max dal 67.0% al 74.6% su SWE-Bench Verified utilizzando il TTS, raggiungendo nuove prestazioni state-of-the-art tra i modelli open-source.
Questo articolo presenta un nuovo algoritmo all'avanguardia per la moltiplicazione esatta di matrici 3x3 su anelli non commutativi generali, raggiungendo uno schema di rango 23 con sole 58 addizioni scalari. Questo risultato migliora la precedente migliore complessità additiva di 60 addizioni senza un cambio di base. Il risultato è stato scoperto attraverso una ricerca automatizzata che combina l'esplorazione del grafo di ribaltamento ternario-ristretto con la riduzione greedy dell'intersezione per l'eliminazione delle sottoespressioni comuni. Lo schema risultante utilizza solo coefficienti da {-1, 0, 1}, garantendo sia efficienza che portabilità su campi arbitrari. Il conteggio totale delle operazioni scalari è ridotto da 83 a 81.
I grandi modelli di ragionamento (LRM) vengono tipicamente addestrati utilizzando l'apprendimento per rinforzo con ricompensa verificabile (RLVR) per potenziare le loro capacità deduttive. In questo paradigma, le politiche vengono aggiornate utilizzando sia rollout auto-generati positivi che negativi, i quali corrispondono a polarità campionarie distinte. In questo articolo, forniamo un'indagine sistematica su come queste polarità campionarie influenzino le dinamiche e i comportamenti dell'addestramento RLVR. Scopriamo che i campioni positivi affinano i modelli di ragionamento corretti esistenti, mentre i campioni negativi incoraggiano l'esplorazione di nuovi percorsi deduttivi. Esploriamo ulteriormente come la regolazione dei valori di vantaggio dei campioni positivi e negativi, sia a livello di campione che a livello di token, influenzi l'addestramento RLVR. Sulla base di queste intuizioni, proponiamo un metodo di modellazione del vantaggio a livello di token Adattivo e Asimmetrico per l'Ottimizzazione delle Politiche, denominato A3PO, che alloca i segnali di vantaggio in modo più preciso ai token chiave attraverso le diverse polarità. Esperimenti condotti su cinque benchmark di ragionamento dimostrano l'efficacia del nostro approccio.