Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'attuale panorama dei modelli generativi di immagini ad alte prestazioni è dominato da sistemi proprietari come Nano Banana Pro e Seedream 4.0. Le principali alternative open-source, tra cui Qwen-Image, Hunyuan-Image-3.0 e FLUX.2, sono caratterizzate da un numero elevatissimo di parametri (da 20 a 80 miliardi), che le rende impraticabili per inferenza e fine-tuning su hardware consumer. Per colmare questa lacuna, proponiamo Z-Image, un modello generativo foundation efficiente da 6 miliardi di parametri, basato su un'architettura Scalable Single-Stream Diffusion Transformer (S3-DiT) che sfida il paradigma del "scale-at-all-costs". Ottimizzando sistematicamente l'intero ciclo di vita del modello – da un'infrastruttura dati curata a un percorso di training semplificato – completiamo l'intero flusso di addestramento in sole 314.000 ore GPU H800 (circa 630.000 dollari). Il nostro schema di distillazione a pochi passi con post-addestramento basato su reward produce inoltre Z-Image-Turbo, che offre sia una latenza di inferenza inferiore al secondo su una GPU H800 di livello enterprise sia compatibilità con hardware consumer (<16 GB di VRAM). Inoltre, il nostro paradigma di omni-pre-training consente anche l'addestramento efficiente di Z-Image-Edit, un modello di editing con impressionanti capacità di seguire istruzioni. Esperimenti qualitativi e quantitativi dimostrano che il nostro modello raggiunge prestazioni paragonabili o superiori a quelle dei principali competitor in varie dimensioni. Soprattutto, Z-Image mostra capacità eccezionali nella generazione di immagini fotorealistiche e nel rendering di testo bilingue, producendo risultati che rivaleggiano con i modelli commerciali di primo livello, dimostrando così che risultati all'avanguardia sono raggiungibili con un overhead computazionale significativamente ridotto. Rilasciamo pubblicamente il nostro codice, i pesi e una demo online per favorire lo sviluppo di modelli generativi accessibili, economici e allo stato dell'arte.
I recenti progressi nei modelli di editing di immagini hanno mostrato sviluppi notevoli. Una progettazione architetturale comune prevede l'accoppiamento di un encoder multimodale basato su large language model (MLLM) con un decoder di diffusione, come si osserva in sistemi quali Step1X-Edit e Qwen-Image-Edit, dove l'MLLM codifica sia l'immagine di riferimento che l'istruzione ma rimane congelato durante l'addestramento. In questo lavoro, dimostriamo che sbloccare le capacità di ragionamento dell'MLLM può spingere ulteriormente i confini dei modelli di editing. Nello specifico, esploriamo due meccanismi di ragionamento, pensiero e riflessione, che migliorano la comprensione delle istruzioni e l'accuratezza dell'editing. Su questa base, la nostra proposta di framework abilita l'editing di immagini in un ciclo pensiero-editing-riflessione: il meccanismo di pensiero sfrutta la conoscenza del mondo dell'MLLM per interpretare istruzioni astratte, mentre la riflessione analizza i risultati dell'editing, corregge automaticamente manipolazioni non volute e identifica il round di arresto. Esperimenti estensivi dimostrano che il nostro approccio basato sul ragionamento ottiene significativi miglioramenti delle prestazioni, con incrementi di ImgEdit (+4.3%), GEdit (+4.7%) e Kris (+8.2%) quando inizializziamo la nostra DiT a partire da Step1X-Edit (ReasonEdit-S), e supera anche i precedenti metodi open-source sia su GEdit che su Kris quando integrato con Qwen-Image-Edit (ReasonEdit-Q).
Recentemente, la generazione di video multipersona ha iniziato a guadagnare rilevanza. Sebbene alcuni lavori preliminari abbiano esplorato la generazione di video parlanti multipersona guidati dall'audio, essi incontrano spesso difficoltà a causa degli elevati costi per la raccolta di dati multipersona diversificati e della difficoltà nel guidare più identità con un'interattività coerente. Per affrontare queste sfide, proponiamo AnyTalker, un framework di generazione multipersona che presenta un'architettura di elaborazione multi-stream estensibile. Nello specifico, estendiamo il blocco di attenzione del Diffusion Transformer con un innovativo meccanismo di attenzione identity-aware che elabora iterativamente coppie identità-audio, consentendo una scalabilità arbitraria delle identità guidabili. Inoltre, l'addestramento di modelli generativi multipersona richiede enormi quantità di dati multipersona. La nostra pipeline di addestramento proposta si basa esclusivamente su video di singole persone per apprendere modelli di parlato multipersona e affina l'interattività utilizzando solo pochi clip reali multipersona. Inoltre, contribuiamo con una metrica e un dataset specifici progettati per valutare la naturalezza e l'interattività dei video multipersona generati. Esperimenti estensivi dimostrano che AnyTalker raggiunge una notevole sincronizzazione labiale, qualità visiva e interattività naturale, trovando un favorevole equilibrio tra costi dei dati e scalabilità delle identità.
Introduciamo Vision Bridge Transformer (ViBT), un'implementazione su larga scala dei Modelli a Ponte Browniano progettata per la generazione condizionata. A differenza dei tradizionali modelli di diffusione che trasformano il rumore in dati, i Modelli a Ponte modellano direttamente la traiettoria tra input e output, creando un paradigma efficiente di traduzione dato-a-dato. Scalando questi modelli a 20 e 1,3 miliardi di parametri, ne dimostriamo l'efficacia per compiti di traduzione di immagini e video. Per supportare questa scala, adottiamo un'architettura Transformer e proponiamo un obiettivo di corrispondenza della velocità con varianza stabilizzata per un addestramento robusto. Nel complesso, questi progressi evidenziano la potenza della scalabilità dei Modelli a Ponte per l'editing di immagini basato su istruzioni e la traduzione di video complessi.
I modelli multimodali unificati per la generazione e comprensione di immagini rappresentano un passo significativo verso l'AGI e hanno attirato un'ampia attenzione da parte dei ricercatori. La sfida principale di questo compito risiede nella difficoltà di stabilire un paradigma di addestramento ottimale a causa degli obiettivi intrinsecamente conflittuali nei compiti di comprensione e generazione. Per alleviare questi conflitti e perseguire prestazioni più elevate, molti ricercatori adottano vari gradi di disaccoppiamento del modello (ad esempio, doppi encoder di immagini, architetture MOE/MOT o MLLM congelati). Tuttavia, un eccessivo disaccoppiamento del modello può portare alla perdita della capacità di generazione intervallata, minando l'intento originale dei modelli unificati. In questo lavoro, miriamo a esplorare come mitigare i conflitti tra compiti senza ricorrere al disaccoppiamento del modello. In primo luogo, analizziamo il motivo per cui il disaccoppiamento allevia i conflitti studiando il comportamento dell'attenzione cross-modale dei modelli. Osserviamo che il disaccoppiamento del modello spinge essenzialmente i modelli verso pattern di interazione multimodale specifici per il compito, come si vede in Qwen-VL e HunyuanImage, e che più approfondito è il disaccoppiamento, più coerente diventa il comportamento. Motivati da questa osservazione, proponiamo una loss di Allineamento dell'Interazione di Attenzione (AIA), che impara esplicitamente pattern di interazione multimodale specifici per il compito durante l'addestramento. Per dimostrare la generalizzabilità della nostra loss AIA, la applichiamo a Emu3 e Janus-Pro rispettivamente durante la fase di SFT e post-addestramento. Senza inutili complicazioni, l'AIA non solo perfeziona i pattern di attenzione cross-modale, ma migliora anche le prestazioni sia di generazione che di comprensione.
I grandi modelli linguistici hanno compiuto progressi significativi nel ragionamento matematico, che funge da importante banco di prova per l'IA e potrebbe influenzare la ricerca scientifica se ulteriormente perfezionato. Scalando il ragionamento con l'apprendimento per rinforzo che premia le risposte finali corrette, i LLM sono migliorati da scarse prestazioni alla saturazione di competizioni di ragionamento quantitativo come AIME e HMMT in un anno. Tuttavia, questo approccio presenta limitazioni fondamentali. Perseguire una maggiore accuratezza delle risposte finali non affronta un problema chiave: risposte corrette non garantiscono un ragionamento corretto. Inoltre, molti compiti matematici come la dimostrazione di teoremi richiedono una derivazione rigorosa passo-passo piuttosto che risposte numeriche, rendendo inapplicabili i premi per la risposta finale. Per spingere i limiti del ragionamento profondo, riteniamo necessario verificare la completezza e il rigore del ragionamento matematico. L'auto-verifica è particolarmente importante per scalare il calcolo al momento del test, specialmente per problemi aperti senza soluzioni note. Verso un ragionamento matematico auto-verificabile, investigiamo come addestrare un verificatore accurato e fedele basato su LLM per la dimostrazione di teoremi. Addestriamo quindi un generatore di dimostrazioni utilizzando il verificatore come modello di ricompensa, incentivando il generatore a identificare e risolvere il maggior numero possibile di problemi nelle proprie dimostrazioni prima di finalizzarle. Per mantenere il divario generazione-verifica man mano che il generatore diventa più forte, proponiamo di scalare il calcolo di verifica per etichettare automaticamente nuove dimostrazioni difficili da verificare, creando dati di addestramento per migliorare ulteriormente il verificatore. Il nostro modello risultante, DeepSeekMath-V2, dimostra forti capacità di dimostrazione di teoremi, raggiungendo punteggi di livello oro alle IMO 2025 e CMO 2024 e un quasi perfetto 118/120 al Putnam 2024 con calcolo scalato al momento del test.
I modelli di diffusione affrontano un compromesso fondamentale tra qualità della generazione ed efficienza computazionale. I Modelli di Diffusione Latente (LDM) offrono una soluzione efficiente ma soffrono di potenziale perdita di informazioni e addestramento non end-to-end. Al contrario, i modelli esistenti nello spazio dei pixel evitano l'uso di VAE ma sono computazionalmente proibitivi per la sintesi ad alta risoluzione. Per risolvere questo dilemma, proponiamo DiP, un framework efficiente di diffusione nello spazio dei pixel. DiP dissocia la generazione in una fase globale e una locale: un'architettura principale di Diffusion Transformer (DiT) opera su patch di grandi dimensioni per una costruzione efficiente della struttura globale, mentre un leggero modulo Patch Detailer, addestrato congiuntamente, sfrutta le feature contestuali per ripristinare i dettagli locali granulari. Questo design sinergico raggiunge un'efficienza computazionale paragonabile agli LDM senza fare affidamento su un VAE. DiP si realizza con velocità di inferenza fino a 10 volte superiori rispetto ai metodi precedenti, aumentando il numero totale di parametri solo dello 0.3%, e raggiunge un punteggio FID di 1.79 su ImageNet 256x256.
Per costruire un modello Vision-Language-Action (VLA) generalizzabile con forti capacità di ragionamento, una strategia comune consiste nell'addestrare prima uno specialista VLA su dimostrazioni robotiche per acquisire abilità di manipolazione affidabili, per poi incorporare dati robotici annotati misti insieme a dati multimodali per ripristinare capacità di ragionamento più ampie. Tuttavia, osserviamo che il VLA per il ragionamento risultante spesso soffre di una performance d'azione degradata rispetto al modello specialista prima del fine-tuning, un fenomeno che definiamo degenerazione dell'azione. Per affrontare questo problema, proponiamo DualVLA, che migliora le prestazioni d'azione attraverso un post-addestramento accuratamente progettato, preservando al contempo la capacità di ragionamento. Introduciamo innanzitutto un metodo di pruning dei dati a doppio strato che rimuove il ragionamento embodied ridondante, impedendogli di influenzare negativamente l'apprendimento dell'azione. Per rafforzare ulteriormente la generazione dell'azione, progettiamo una strategia di distillazione adattiva a doppio insegnante che assegna diversi segnali di supervisione a diversi domini di dati mantenendo la capacità di ragionamento. Per colmare la lacuna valutativa per i VLA generalisti, proponiamo anche VLA Score, che scompone la capacità VLA nelle dimensioni di ragionamento, intenzione, azione e allineamento per una valutazione più granulare. Gli esperimenti mostrano che DualVLA raggiunge un tasso di successo medio del 61.0 in SimplerEnv e un punteggio medio di 65.4 su otto benchmark multimodali competitivi, dimostrando un equilibrio più forte tra esecuzione precisa dell'azione e comprensione multimodale. Sito del progetto: https://costaliya.github.io/DualVLA/.
Presentiamo i modelli di flusso adversarial, una classe di modelli generativi che unifica i modelli adversarial e i modelli di flusso. Il nostro metodo supporta la generazione nativa in uno o più passaggi ed è addestrato utilizzando l'obiettivo adversarial. A differenza delle GAN tradizionali, in cui il generatore apprende un piano di trasporto arbitrario tra le distribuzioni del rumore e dei dati, il nostro generatore apprende una mappatura deterministica dal rumore ai dati, che corrisponde allo stesso trasporto ottimale presente nei modelli di flow-matching. Ciò stabilizza significativamente l'addestramento adversarial. Inoltre, a differenza dei metodi basati sulla consistenza, il nostro modello apprende direttamente la generazione in uno o pochi passaggi senza dover apprendere i passaggi temporali intermedi del flusso di probabilità per la propagazione. Ciò consente di risparmiare capacità del modello, ridurre le iterazioni di addestramento ed evitare l'accumulo di errori. Nella stessa configurazione 1NFE su ImageNet-256px, il nostro modello B/2 si avvicina alle prestazioni dei modelli basati sulla consistenza XL/2, mentre il nostro modello XL/2 stabilisce un nuovo record con un FID di 2.38. Dimostriamo inoltre la possibilità di addestrare end-to-end modelli a 56 e 112 strati attraverso la ripetizione in profondità senza alcuna supervisione intermedia, raggiungendo FID di 2.08 e 1.94 utilizzando un unico passaggio in avanti, superando le loro controparti 2NFE e 4NFE.
Questo lavoro esplora la sfida di costruire "Macchine che Possono Ricordare", inquadrando la memoria a lungo termine come il problema della modellazione efficiente di contesti ultra-lunghi. Sosteniamo che ciò richieda tre proprietà fondamentali: sparsità, flessibilità di accesso casuale e generalizzazione della lunghezza. Per affrontare la modellazione di contesti ultra-lunghi, sfruttiamo l'Attenzione Sparsa Gerarchica (HSA), un nuovo meccanismo di attenzione che soddisfa tutte e tre le proprietà. Integriamo HSA nei Transformer per costruire HSA-UltraLong, un modello MoE da 8 miliardi di parametri addestrato su oltre 8 trilioni di token e valutato rigorosamente su diversi compiti con lunghezze di contesto in-dominio e out-of-dominio per dimostrare la sua capacità di gestire contesti ultra-lunghi. I risultati mostrano che il nostro modello performa in modo comparabile ai baseline con attenzione completa su lunghezze in-dominio, raggiungendo oltre il 90% di accuratezza sulla maggior parte dei compiti di retrieval in-contexto con contesti fino a 16 milioni di token. Questo rapporto delinea le nostre intuizioni sperimentali e i problemi aperti, contribuendo a gettare le basi per la ricerca futura nella modellazione di contesti ultra-lunghi.
La distillazione di modelli di diffusione è emersa come una tecnica potente per creare generatori efficienti a pochi passi e a singolo passo. Tra questi, la Distribution Matching Distillation (DMD) e le sue varianti si distinguono per le prestazioni impressionanti, ampiamente attribuite al loro meccanismo centrale di allineamento della distribuzione di output dello studente a quella di un modello insegnante pre-addestrato. In questo lavoro, mettiamo in discussione questa interpretazione convenzionale. Attraverso una rigorosa scomposizione dell'obiettivo di addestramento DMD, riveliamo che in compiti complessi come la generazione di immagini da testo, dove la CFG è tipicamente richiesta per prestazioni desiderabili a pochi passi, il principale motore della distillazione a pochi passi non è l'allineamento distributivo, ma una componente precedentemente trascurata che identifichiamo come CFG Augmentation (CA). Dimostriamo che questo termine agisce come il "motore" centrale della distillazione, mentre il termine Distribution Matching (DM) funge da "regolarizzatore" che garantisce la stabilità dell'addestramento e mitiga gli artefatti. Convalidiamo ulteriormente questa dissociazione dimostrando che, sebbene il termine DM sia un regolarizzatore altamente efficace, non è unico; vincoli non parametrici più semplici o obiettivi basati su GAN possono svolgere la stessa funzione stabilizzante, sebbene con diversi compromessi. Questa dissociazione dei compiti motiva un'analisi più principiata delle proprietà di entrambi i termini, portando a una comprensione più sistematica e approfondita. Questa nuova comprensione ci permette inoltre di proporre modifiche principiate al processo di distillazione, come dissociare gli scheduli del rumore per il motore e il regolarizzatore, portando a ulteriori guadagni prestazionali. Degno di nota, il nostro metodo è stato adottato dal progetto Z-Image ( https://github.com/Tongyi-MAI/Z-Image ) per sviluppare un modello di generazione di immagini di primo livello a 8 passi, convalidando empiricamente la generalizzazione e la robustezza delle nostre scoperte.
I modelli linguistici (LM) possono affinare autonomamente le proprie risposte? Questa domanda è sempre più rilevante poiché una vasta gamma di interazioni reali con gli utenti implica richieste di perfezionamento. Tuttavia, gli studi precedenti hanno testato per lo più le capacità di raffinamento degli LM su compiti verificabili, come la matematica da competizione o il ragionamento simbolico con impalcature semplificate, mentre gli utenti pongono spesso query aperte e forniscono feedback di vario grado su ciò che desiderano. La recente comparsa di modelli di ragionamento che mostrano pattern di auto-riflessione nelle loro catene di pensiero motiva ulteriormente questa questione. Per analizzarla, introduciamo RefineBench, un benchmark di 1.000 problemi complessi in 11 domini, abbinato a un framework di valutazione basato su checklist. Valutiamo due modalità di raffinamento: (1) raffinamento guidato, in cui a un LM viene fornito un feedback in linguaggio naturale, e (2) auto-raffinamento, in cui gli LM tentano di migliorare senza guida. Nell'ambito dell'auto-raffinamento, persino LM all'avanguardia come Gemini 2.5 Pro e GPT-5 raggiungono punteggi baseline modesti, rispettivamente del 31,3% e del 29,1%, e la maggior parte dei modelli non riesce a migliorare in modo coerente tra le iterazioni (ad esempio, Gemini-2.5-Pro guadagna solo +1,8%, mentre DeepSeek-R1 registra un calo di -0,1%). Al contrario, nel raffinamento guidato, sia i LM proprietari che i LM open-weight di grandi dimensioni (>70B) possono sfruttare feedback mirati per affinare le risposte a livelli quasi perfetti entro cinque turni. Questi risultati suggeriscono che gli LM all'avanguardia richiedono innovazioni decisive per affinare autonomamente le proprie risposte errate e che RefineBench fornisce un banco di prova prezioso per monitorare i progressi.
La distribuzione efficiente di piccoli modelli linguistici (SLM) è essenziale per numerose applicazioni reali con stringenti vincoli di latenza. Mentre i precedenti lavori sulla progettazione di SLM si sono concentrati principalmente sulla riduzione del numero di parametri per ottenere SLM ottimali in termini parametrici, l'efficienza parametrica non si traduce necessariamente in miglioramenti di velocità proporzionali sui dispositivi reali. Questo lavoro mira a identificare i determinanti chiave della latenza degli SLM sui dispositivi reali e a offrire principi e metodologie generalizzabili per la progettazione e l'addestramento degli SLM quando la latenza sul dispositivo reale è la considerazione primaria. Nello specifico, identifichiamo due fattori architetturali centrali: i rapporti profondità-larghezza e le scelte degli operatori. Il primo è cruciale per la latenza con dimensioni del batch piccole, mentre il secondo influisce sia sulla latenza che sul throughput con dimensioni del batch grandi. Alla luce di ciò, studiamo innanzitutto i rapporti profondità-larghezza ottimali per la latenza, con la scoperta chiave che, sebbene i modelli profondi e stretti generalmente raggiungano una migliore accuratezza a parità di budget parametrico, essi potrebbero non trovarsi sulla frontiera del compromesso accuratezza-latenza. Successivamente, esploriamo alternative emergenti per l'attenzione efficiente per valutarne il potenziale come operatori costitutivi candidati. Utilizzando gli operatori promettenti identificati, costruiamo un framework di ricerca evolutiva per scoprire automaticamente combinazioni ottimali per la latenza di questi operatori all'interno di SLM ibridi, avanzando così la frontiera accuratezza-latenza. Oltre ai miglioramenti architetturali, potenziamo ulteriormente l'addestramento degli SLM utilizzando una tecnica di normalizzazione dei pesi che consente aggiornamenti dei pesi più efficaci e migliora la convergenza finale. Combinando questi metodi, introduciamo una nuova famiglia di SLM ibridi, chiamata Nemotron-Flash, che avanza significativamente la frontiera accuratezza-efficienza degli SLM all'avanguardia, ad esempio raggiungendo un'accuratezza media superiore di oltre il +5,5%, una latenza inferiore di 1,3x/1,9x e un throughput più alto di 18,7x/45,6x rispetto a Qwen3-1.7B/0.6B, rispettivamente.
I motori mondiali mirano a sintetizzare video lunghi e 3D-consistenti che supportino l'esplorazione interattiva di una scena sotto un movimento della camera controllato dall'utente. Tuttavia, i sistemi esistenti faticano con traiettorie 6-DoF aggressive e layout esterni complessi: perdono coerenza geometrica a lungo raggio, deviano dal percorso target o collassano in un movimento eccessivamente conservativo. A tal fine, introduciamo Captain Safari, un motore mondiale condizionato dalla posa che genera video recuperando informazioni da una memoria mondiale persistente. Dato un percorso della camera, il nostro metodo mantiene una memoria locale dinamica e utilizza un retriever per recuperare token mondiali allineati alla posa, che poi condizionano la generazione del video lungo la traiettoria. Questo design permette al modello di mantenere una struttura 3D stabile mentre esegue accuratamente manovre complesse della camera. Per valutare questo scenario, abbiamo curato OpenSafari, un nuovo dataset FPV in-the-wild contenente video dinamici ripresi da droni con traiettorie verificate, costruito attraverso una pipeline di validazione geometrica e cinematica multi-stadio. In termini di qualità video, coerenza 3D e aderenza alla traiettoria, Captain Safari supera sostanzialmente i generatori controllati da camera allo stato dell'arte. Riduce il MEt3R da 0.3703 a 0.3690, migliora l'AUC@30 da 0.181 a 0.200 e produce un FVD sostanzialmente inferiore rispetto a tutti i baseline controllati da camera. Ancora più importante, in uno studio umano con 50 partecipanti e 5 modelli, in cui gli annotatori selezionano il miglior risultato tra cinque modelli anonimi, il 67.6% delle preferenze favorisce il nostro metodo su tutti gli assi. I nostri risultati dimostrano che la memoria mondiale condizionata dalla posa è un meccanismo potente per la generazione di video controllabile a lungo orizzonte e forniscono OpenSafari come un nuovo benchmark impegnativo per la futura ricerca sui motori mondiali.
In un mondo globalizzato, elementi culturali di diversa origine compaiono frequentemente insieme all'interno di una singola scena visiva. Definiamo questi casi come scenari di mescolanza culturale, ma la percezione che i Large Vision-Language Models (LVLM) hanno di essi rimane poco esplorata. Indaghiamo la mescolanza culturale come una sfida cruciale per gli LVLM ed esaminiamo il comportamento dei modelli attuali quando elementi culturali provenienti da più regioni appaiono insieme. Per analizzare sistematicamente questi comportamenti, abbiamo creato CultureMix, un benchmark di Visual Question Answering (VQA) sul cibo composto da 23k immagini di mescolanza culturale generate tramite diffusione e verificate da esseri umani, articolato in quattro sottocompiti: (1) solo cibo, (2) cibo+cibo, (3) cibo+sfondo, (4) cibo+cibo+sfondo. Valutando 10 LVLM, riscontriamo fallimenti consistenti nel preservare le identità culturali individuali in contesti misti. I modelli mostrano una forte dipendenza dallo sfondo, con un'accuratezza che cala del 14% quando si aggiungono sfondi culturali ai benchmark di solo cibo, e producono previsioni incoerenti per gli stessi alimenti in contesti diversi. Per affrontare queste limitazioni, esploriamo tre strategie di robustezza. Rileviamo che un fine-tuning supervisionato che utilizza un dataset diversificato di mescolanza culturale migliora sostanzialmente la coerenza del modello e riduce la sensibilità allo sfondo. Sollecitiamo una maggiore attenzione verso gli scenari di mescolanza culturale come passo critico per sviluppare LVLM in grado di operare in modo affidabile in ambienti real-world culturalmente diversificati.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno dimostrato un enorme potenziale in numerose specialità mediche; tuttavia, l'odontoiatria rimane un campo poco esplorato, in parte a causa della limitata disponibilità di dati specifici del dominio, della scarsità di annotazioni da parte di esperti odontoiatrici, della modellizzazione insufficiente per modalità specifiche e delle sfide in termini di affidabilità. In questo articolo, presentiamo OralGPT-Omni, il primo MLLM specializzato in odontoiatria, progettato per un'analisi completa e affidabile attraverso diverse modalità di imaging odontoiatrico e compiti clinici. Per catturare esplicitamente il ragionamento diagnostico dei dentisti, abbiamo costruito TRACE-CoT, un dataset basato su catene di ragionamento clinicamente fondato che rispecchia i processi decisionali dei radiologi odontoiatrici. Questa supervisione del ragionamento, combinata con il nostro paradigma di addestramento in quattro fasi proposto, rafforza sostanzialmente la capacità del modello di comprendere e analizzare le immagini odontoiatriche. Parallelamente, introduciamo MMOral-Uni, il primo benchmark multimodale unificato per l'analisi delle immagini odontoiatriche. Esso comprende 2.809 coppie domanda-risposta a risposta libera che abbracciano cinque modalità e cinque compiti, offrendo la suite di valutazione più completa fino ad oggi per gli MLLM nell'odontoiatria digitale. OralGPT-Omni raggiunge un punteggio complessivo di 51,84 sul benchmark MMOral-Uni e di 45,31 sul benchmark MMOral-OPG, superando notevolmente i punteggi di GPT-4V. Il nostro lavoro promuove l'odontoiatria intelligente e apre la strada a futuri progressi nell'analisi delle immagini odontoiatriche. Tutto il codice, i benchmark e i modelli saranno resi pubblicamente disponibili.
L'osservazione di determinate regioni in un'immagine riduce l'incertezza di altre. La loro realizzazione abbassa l'entropia della distribuzione di ciascuna caratteristica rimanente della regione, in analogia al collasso della funzione d'onda di una particella nella meccanica quantistica. Questo fenomeno può essere intuitivamente definito collasso delle regioni. Per identificare quali regioni sono maggiormente determinanti durante il collasso di una regione target, apprendiamo un autoencoder che seleziona dolcemente un sottoinsieme di regioni per ricostruire ogni regione target. Rappresentando graficamente queste dipendenze apprese per il punteggio PageRank di ciascuna regione, si rivela l'ordine ottimale di realizzazione delle regioni per un'immagine. Dimostriamo che rispettare questo ordine apporta benefici a vari metodi di modellazione di immagini mascherate. In primo luogo, la generazione autoregressiva di immagini può essere potenziata riaddestrando il modello all'avanguardia MAR. Successivamente, introduciamo una nuova configurazione per la classificazione delle immagini esponendo i Vision Transformer solo alle regioni ad alto rango nell'ordine di collasso. L'osservazione del 22% di tali regioni è sufficiente per raggiungere un'elevata accuratezza. Con questi esperimenti, proponiamo il collasso delle regioni come una nuova prospettiva di modellazione delle immagini che promuove l'efficienza visiva. Il nostro progetto è disponibile all'indirizzo https://github.com/wguo-ai/CoP.
I recenti modelli linguistici su larga scala raggiungono prestazioni di ragionamento solide generando tracce dettagliate del pensiero a catena (chain-of-thought), ma ciò spesso porta a un uso eccessivo di token e a un'elevata latenza di inferenza. Gli approcci esistenti per l'efficienza si concentrano tipicamente su interventi di tipo modellistico, come l'apprendimento per rinforzo o la messa a punto supervisionata, per ridurre la verbosità. Al contrario, noi proponiamo un approccio incentrato sull'input, che non richiede addestramento. Ispirati dalla psicologia cognitiva, introduciamo la Catena di Pensiero Focalizzata (F-CoT), che separa l'estrazione delle informazioni dal processo di ragionamento. L'F-CoT organizza prima le informazioni essenziali di una query in un contesto strutturato e conciso, per poi guidare il modello a ragionare esclusivamente su questo contesto. Impedendo l'attenzione ai dettagli irrilevanti, l'F-CoT produce naturalmente percorsi di ragionamento più brevi. Su problemi aritmetici espressi in linguaggio naturale, l'F-CoT riduce i token generati di 2-3 volte mantenendo un'accuratezza paragonabile allo standard zero-shot CoT. Questi risultati evidenziano come un input strutturato rappresenti una leva semplice ma efficace per un ragionamento più efficiente negli LLM.
Le didascalie delle immagini fungono da efficienti sostituti del contenuto visivo in sistemi multimodali come recupero informazioni, raccomandazione e pipeline di inferenza agentica multi-step. Tuttavia, le attuali pratiche di valutazione tralasciano una domanda fondamentale: le didascalie possono sostituire le immagini in compiti downstream reali? Proponiamo un benchmark basato sull'utilità, CaptionQA, per valutare le didascalie generate dai modelli, dove la qualità della didascalia è misurata dalla sua capacità di supportare i compiti downstream. CaptionQA è un benchmark estensibile e dipendente dal dominio che copre 4 ambiti—Naturale, Documenti, E-commerce e Intelligenza Artificiale Embodied—ciascuno con tassonomie granulari (25 categorie di primo livello e 69 sottocategorie) che identificano informazioni utili per compiti specifici del dominio. CaptionQA costruisce 33.027 domande a scelta multipla con annotazioni dense (50,3 per immagine in media) che richiedono esplicitamente informazioni visive per essere risposte, fornendo un'analisi completa dell'utilità delle didascalie. Nel nostro protocollo di valutazione, un LLM risponde a queste domande utilizzando solo le didascalie, misurando direttamente se le didascalie preservano l'utilità a livello di immagine e sono utilizzabili da un LLM downstream. La valutazione di MLLM all'avanguardia rivela divari sostanziali tra l'immagine e l'utilità della sua didascalia. Significativamente, modelli quasi identici sui tradizionali benchmark di image-QA registrano un calo fino al 32% nell'utilità della didascalia. Rilasciamo CaptionQA insieme a una pipeline open-source per l'estensione a nuovi domini. Il codice è disponibile all'indirizzo https://github.com/bronyayang/CaptionQA.
Una ricetta comune per migliorare i modelli di diffusione durante il test, in modo che i campioni ottengano punteggi elevati rispetto a una ricompensa specificata dall'utente, consiste nell'introdurre il gradiente della ricompensa nelle dinamiche della diffusione stessa. Questa procedura è spesso mal posta, poiché le ricompense specificate dall'utente sono solitamente ben definite solo sulla distribuzione dei dati alla fine della generazione. Mentre le soluzioni alternative comuni a questo problema prevedono l'uso di un denoiser per stimare quale sarebbe stato un campione alla fine della generazione, noi proponiamo una soluzione semplice a questo problema lavorando direttamente con una mappa di flusso. Sfruttando una relazione tra la mappa di flusso e il campo di velocità che governa il trasporto istantaneo, costruiamo un algoritmo, Flow Map Trajectory Tilting (FMTT), che dimostrabilmente esegue una risalita sulla ricompensa migliore rispetto ai metodi standard di test che coinvolgono il gradiente della ricompensa. L'approccio può essere utilizzato per eseguire un campionamento esatto tramite pesatura d'importanza o una ricerca principiata che identifica i massimizzatori locali della distribuzione distort dalla ricompensa. Dimostriamo l'efficacia del nostro approccio rispetto ad altre tecniche di look-ahead e mostriamo come la mappa di flusso consenta di interagire con funzioni di ricompensa complesse che rendono possibili nuove forme di editing di immagini, ad esempio interfacciandosi con modelli linguistici visivi.
I modelli linguistici multimodali di grandi dimensioni (MLLM) vengono sempre più impiegati in contesti reali e agentivi, dove gli output non devono solo essere corretti, ma devono anche conformarsi a schemi di dati predefiniti. Nonostante i recenti progressi nella generazione strutturata in ambito testuale, manca ancora un benchmark che valuti sistematicamente l'estrazione di informazioni e il ragionamento vincolati a schemi su input visivi. In questo lavoro, conduciamo uno studio completo sulle capacità di output strutturato visivo per gli MLLM con il nostro benchmark SO-Bench, progettato con cura. Coprendo quattro domini visivi, tra cui schermate UI, immagini naturali, documenti e grafici, SO-Bench è costruito a partire da oltre 6.500 schemi JSON diversificati e 1.800 coppie immagine-schema curate con qualità verificata da esseri umani. Esperimenti di benchmarking su modelli proprietari all'avanguardia e open-source rivelano lacune persistenti nella previsione di output accurati e conformi allo schema, evidenziando la necessità di un migliore ragionamento strutturato multimodale. Oltre al benchmarking, conduciamo ulteriori esperimenti di addestramento per migliorare notevolmente la capacità di output strutturato del modello. Prevediamo di rendere il benchmark disponibile alla comunità.
Presentiamo Split-then-Merge (StM), un framework innovativo progettato per migliorare il controllo nella composizione generativa di video e affrontare il problema della scarsità di dati. A differenza dei metodi convenzionali che si basano su dataset annotati o regole predefinite, StM suddivide un ampio corpus di video non etichettati in livelli dinamici di primo piano e sfondo, per poi ricomporli autonomamente per apprendere come i soggetti dinamici interagiscono con scene diverse. Questo processo consente al modello di apprendere le complesse dinamiche compositive necessarie per una generazione video realistica. StM introduce una nuova pipeline di addestramento transformation-aware che utilizza una fusione e un aumento multi-livello per ottenere una composizione affordance-aware, affiancata da una funzione di perdita per la preservazione dell'identità che mantiene la fedeltà del primo piano durante la fusione. Gli esperimenti dimostrano che StM supera i metodi allo stato dell'arte sia nei benchmark quantitativi che nelle valutazioni qualitative basate su umani e VLLM. Maggiori dettagli sono disponibili sulla nostra pagina progetto: https://split-then-merge.github.io
Sebbene i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) siano abili nel rispondere a cosa c'è in un'immagine - identificando oggetti e descrivendo scene - spesso mancano della capacità di comprendere come un'immagine viene percepita da un osservatore umano. Questo divario è particolarmente evidente quando si considerano proprietà cognitive soggettive, come ciò che rende un'immagine memorabile, divertente, esteticamente gradevole o emotivamente evocativa. Per affrontare sistematicamente questa sfida, introduciamo CogIP-Bench, un benchmark completo per valutare gli MLLM su tali proprietà cognitive delle immagini. La nostra valutazione rivela un divario significativo: i modelli attuali sono scarsamente allineati con la percezione umana di queste proprietà sfumate. Dimostriamo quindi che una fase di post-addestramento può colmare efficacemente questo divario, migliorando significativamente l'allineamento del modello con i giudizi umani. Inoltre, mostriamo che questo allineamento cognitivo appreso non è meramente predittivo ma anche trasferibile a compiti creativi downstream. Integrando il nostro MLLM cognitivamente allineato in una pipeline di generazione di immagini, possiamo guidare il processo di sintesi per produrre immagini che incarnano meglio tratti desiderati, come essere più memorabili o visivamente accattivanti. Il nostro lavoro fornisce un benchmark per misurare questa percezione simile a quella umana, una pipeline di post-addestramento per migliorarla e una dimostrazione che tale allineamento abilita un'IA più incentrata sull'umano.
La generazione di immagini guidata da riferimento ha compiuto rapidi progressi, tuttavia gli attuali modelli di diffusione faticano ancora a preservare dettagli visivi granulari quando perfezionano un'immagine generata utilizzando un riferimento. Questa limitazione sorge perché la compressione latente basata su VAE scarta intrinsecamente le sottili informazioni di texture, causando la scomparsa di indizi identitari e attributo-specifici. Inoltre, gli approcci di post-editing che amplificano i dettagli locali basati su metodi esistenti spesso producono risultati inconsistenti con l'immagine originale in termini di illuminazione, texture o forma. Per affrontare ciò, introduciamo , un framework di perfezionamento consapevole dei dettagli che esegue due stadi consecutivi di correzione guidata da riferimento per migliorare la coerenza a livello di pixel. Adattiamo prima un editor di diffusione a immagine singola mettendolo a punto per ingerire congiuntamente l'immagine bozza e l'immagine di riferimento, consentendo un perfezionamento globalmente coerente mantenendo la fedeltà strutturale. Applichiamo poi l'apprendimento per rinforzo per rafforzare ulteriormente la capacità di editing localizzato, ottimizzando esplicitamente per l'accuratezza dei dettagli e la coerenza semantica. Esperimenti estensivi dimostrano che migliora significativamente l'allineamento al riferimento e la preservazione dei dettagli granulari, producendo modifiche fedeli e visivamente coerenti che superano sia i modelli open-source che quelli commerciali su benchmark impegnativi di restauro guidato da riferimento.
Questo articolo presenta un innovativo framework Mixture-of-Experts per il rilevamento di oggetti, che incorpora un instradamento adattivo tra molteplici esperti YOLOv9-T per consentire una specializzazione dinamica delle caratteristiche e ottenere un valore più elevato di Average Precision medio (mAP) e Average Recall (AR) rispetto a un singolo modello YOLOv9-T.
I modelli di diffusione hanno ottenuto impressionanti risultati generativi in diverse modalità come immagini 2D, video e forme 3D, ma la loro inferenza rimane computazionalmente costosa a causa del processo iterativo di denoising. Sebbene i recenti metodi basati sulla cache permettano di riutilizzare efficacemente calcoli ridondanti per accelerare la generazione di contenuti 2D e video, l'applicazione diretta di queste tecniche ai modelli di diffusione 3D può compromettere gravemente la coerenza geometrica. Nella sintesi 3D, anche piccoli errori numerici nelle feature latenti memorizzate nella cache si accumulano, causando artefatti strutturali e inconsistenze topologiche. Per superare questa limitazione, proponiamo Fast3Dcache, un framework di caching training-free e geometricamente consapevole che accelera l'inferenza della diffusione 3D preservando la fedeltà geometrica. Il nostro metodo introduce un Vincolo di Schedulazione della Cache Predittiva (PCSC) per determinare dinamicamente le quote di cache in base ai modelli di stabilizzazione dei voxel e un Criterio di Stabilità Spazio-Temporale (SSC) per selezionare le feature stabili da riutilizzare basandosi sulla magnitudine della velocità e su un criterio di accelerazione. Esperimenti completi dimostrano che Fast3Dcache accelera significativamente l'inferenza, raggiungendo un miglioramento fino al 27,12% nella velocità e una riduzione del 54,8% nelle FLOP, con un degrado minimo della qualità geometrica misurato tramite Chamfer Distance (2,48%) e F-Score (1,95%).
Affrontiamo la sfida di rilevare anomalie rare e diversificate nei video di sorveglianza utilizzando esclusivamente supervisione a livello di video. Il nostro framework a doppia backbone combina rappresentazioni convoluzionali e transformer attraverso il top-k pooling, raggiungendo il 90,7% di area sotto la curva (AUC) sul dataset UCF-Crime.
La risonanza magnetica (MRI) ad alta risoluzione (HR) è fondamentale per molte applicazioni cliniche e di ricerca. Tuttavia, conseguirla rimane costosa e vincolata da compromessi tecnici e limitazioni sperimentali. La super-risoluzione (SR) rappresenta un approccio computazionale promettente per superare queste sfide generando immagini HR da scansioni a bassa risoluzione (LR) più economiche, potenzialmente migliorando l'accuratezza e l'efficienza diagnostica senza richiedere hardware aggiuntivo. Questa rassegna esamina i recenti progressi nelle tecniche di SR per MRI, con un focus sugli approcci di deep learning (DL). Analizza i metodi di SR per MRI basati sul DL dalle prospettive della visione artificiale, dell'imaging computazionale, dei problemi inversi e della fisica della risonanza magnetica, coprendo fondamenti teorici, progetti architetturali, strategie di apprendimento, dataset di benchmark e metriche di prestazione. Proponiamo una tassonomia sistematica per categorizzare questi metodi e presentiamo uno studio approfondito sia delle tecniche di SR consolidate che di quelle emergenti applicabili alla MRI, considerando le sfide uniche nei contesti clinici e di ricerca. Evidenziamo inoltre le sfide aperte e le direzioni che la comunità deve affrontare. In aggiunta, forniamo una raccolta di risorse open-access essenziali, strumenti e tutorial, disponibili sul nostro GitHub: https://github.com/mkhateri/Awesome-MRI-Super-Resolution. Parole chiave IEEE: MRI, Super-Risoluzione, Deep Learning, Imaging Computazionale, Problema Inverso, Rassegna.
Proponiamo una strategia di selezione dei frame basata sul clustering per mitigare la perdita di informazioni nei dataset derivati da video. Raggruppando i frame visivamente simili prima della suddivisione in set di addestramento, validazione e test, il metodo produce partizioni del dataset più rappresentative, bilanciate e affidabili.
L'apprendimento federato (FL) consente l'addestramento collaborativo tra client senza compromettere la privacy. Sebbene la maggior parte dei metodi FL esistenti presupponga architetture di modello omogenee, l'eterogeneità dei client in termini di dati e risorse rende questa ipotesi impraticabile, motivando l'FL eterogeneo per modello. Per affrontare questo problema, proponiamo la Federated Representation Entanglement (FedRE), un framework basato su una nuova forma di conoscenza del client denominata rappresentazione entangled. In FedRE, ogni client aggrega le sue rappresentazioni locali in una singola rappresentazione entangled utilizzando pesi casuali normalizzati e applica gli stessi pesi per integrare le corrispondenti codifiche one-hot delle etichette nella codifica entangled delle etichette. Queste vengono poi caricate sul server per addestrare un classificatore globale. Durante l'addestramento, ogni rappresentazione entangled è supervisionata attraverso le categorie tramite la sua codifica entangled delle etichette, mentre i pesi casuali vengono ricampionati ogni round per introdurre diversità, mitigando l'eccessiva confidenza del classificatore globale e promuovendo confini decisionali più levigati. Inoltre, ogni client carica una singola rappresentazione entangled trans-categoria insieme alla sua codifica entangled delle etichette, mitigando il rischio di attacchi di inversione della rappresentazione e riducendo il sovraccarico comunicativo. Esperimenti estensivi dimostrano che FedRE raggiunge un efficace compromesso tra prestazioni del modello, protezione della privacy e sovraccarico comunicativo. I codici sono disponibili su https://github.com/AIResearch-Group/FedRE.