Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo articolo introduce il Group Sequence Policy Optimization (GSPO), il nostro algoritmo di apprendimento per rinforzo stabile, efficiente e performante per l'addestramento di modelli linguistici di grandi dimensioni. A differenza degli algoritmi precedenti che adottano rapporti di importanza a livello di token, il GSPO definisce il rapporto di importanza basandosi sulla probabilità di sequenza ed esegue il clipping, la ricompensa e l'ottimizzazione a livello di sequenza. Dimostriamo che il GSPO raggiunge una superiore efficienza e prestazioni di addestramento rispetto all'algoritmo GRPO, stabilizza in modo significativo l'addestramento RL con Mixture-of-Experts (MoE) e ha il potenziale per semplificare la progettazione dell'infrastruttura RL. Questi meriti del GSPO hanno contribuito ai notevoli miglioramenti nei più recenti modelli Qwen3.
I recenti progressi nelle architetture basate su transformer hanno dimostrato un successo notevole nei compiti di generazione video. Tuttavia, la complessità quadratica dei meccanismi di attenzione completa rimane un collo di bottiglia critico, specialmente per sequenze video ad alta risoluzione e di lunga durata. In questo articolo, proponiamo NABLA, un nuovo meccanismo di attenzione a livello di blocco adattivo al vicinato che si adatta dinamicamente ai modelli di sparsità nei transformer di diffusione video (DiTs). Sfruttando l'attenzione a blocchi con una soglia adattiva guidata dalla sparsità, NABLA riduce il sovraccarico computazionale preservando la qualità generativa. Il nostro metodo non richiede la progettazione di operatori di basso livello personalizzati e può essere integrato senza soluzione di continuità con l'operatore Flex Attention di PyTorch. Gli esperimenti dimostrano che NABLA raggiunge un addestramento e un'inferenza fino a 2,7 volte più veloci rispetto alla linea di base, quasi senza compromettere le metriche quantitative (punteggio CLIP, punteggio VBench, punteggio di valutazione umana) e il calo della qualità visiva. Il codice e i pesi del modello sono disponibili qui: https://github.com/gen-ai-team/Wan2.1-NABLA
I Large Language Model (LLM) hanno ottenuto prestazioni impressionanti in compiti ad alta intensità di ragionamento, ma ottimizzare la loro efficienza di ragionamento rimane una sfida aperta. Sebbene il Test-Time Scaling (TTS) migliori la qualità del ragionamento, spesso porta a un eccesso di pensiero, sprecando token su calcoli ridondanti. Questo lavoro indaga come guidare in modo efficiente e adattivo il test-time scaling degli LLM senza ulteriore addestramento. Ispirati dal concetto di momento in fisica, proponiamo il Momentum Uncertainty-guided Reasoning (MUR), che assegna dinamicamente budget di pensiero ai passaggi critici del ragionamento monitorando e aggregando l'incertezza passo-passo nel tempo. Per supportare un controllo flessibile al momento dell'inferenza, introduciamo il gamma-control, un meccanismo semplice che regola il budget di ragionamento attraverso un singolo iperparametro. Forniamo una prova teorica approfondita per supportare la superiorità di MUR in termini di stabilità e bias. MUR è valutato in modo completo rispetto a vari metodi TTS su quattro benchmark impegnativi (MATH-500, AIME24, AIME25 e GPQA-diamond) utilizzando diverse dimensioni dei recenti modelli Qwen3 (1.7B, 4B e 8B). I risultati dimostrano che MUR riduce il calcolo di oltre il 50% in media, migliorando al contempo l'accuratezza dello 0.62-3.37%.
Presentiamo Captain Cinema, un framework di generazione per la creazione di brevi filmati. Data una descrizione testuale dettagliata della trama di un film, il nostro approccio genera inizialmente una sequenza di fotogrammi chiave che delineano l'intera narrazione, garantendo coerenza a lungo raggio sia nella trama che nell'aspetto visivo (ad esempio, scene e personaggi). Questo passaggio è definito pianificazione top-down dei fotogrammi chiave. Questi fotogrammi fungono poi da segnali di condizionamento per un modello di sintesi video, che supporta l'apprendimento di contesti lunghi, per produrre le dinamiche spazio-temporali tra di essi. Questo passaggio è denominato sintesi video bottom-up. Per supportare la generazione stabile ed efficiente di opere cinematografiche narrative lunghe e multi-scena, introduciamo una strategia di addestramento intervallato per i Multimodal Diffusion Transformers (MM-DiT), specificamente adattata per dati video a contesto lungo. Il nostro modello è addestrato su un dataset cinematografico appositamente curato composto da coppie di dati intervallati. I nostri esperimenti dimostrano che Captain Cinema si distingue favorevolmente nella creazione automatizzata di brevi filmati visivamente coerenti e narrativamente consistenti, con alta qualità ed efficienza. Pagina del progetto: https://thecinema.ai
I grandi modelli di ragionamento hanno ottenuto prestazioni notevoli attraverso sequenze estese di pensiero a catena, tuttavia questa libertà computazionale porta a una generazione eccessiva di token anche per problemi semplici. Presentiamo Length-Adaptive Policy Optimization (LAPO), un nuovo framework che trasforma il controllo della lunghezza del ragionamento da un vincolo esterno a una capacità intrinseca del modello. A differenza degli approcci esistenti che impongono limiti rigidi o si affidano a interventi post-hoc, LAPO consente ai modelli di interiorizzare una comprensione della profondità di ragionamento appropriata attraverso un processo di apprendimento per rinforzo in due fasi. Nella prima fase, i modelli apprendono schemi di ragionamento naturali scoprendo la distribuzione statistica delle lunghezze delle soluzioni di successo. La seconda fase sfrutta questi schemi come guida meta-cognitiva, incorporandoli direttamente nel contesto di ragionamento del modello per garantire flessibilità durante l'inferenza. Esperimenti su benchmark di ragionamento matematico dimostrano che LAPO riduce l'uso di token fino al 40,9% migliorando al contempo l'accuratezza del 2,3%. La nostra analisi rivela che i modelli addestrati con LAPO sviluppano capacità emergenti di allocare risorse computazionali in base alla complessità del problema, raggiungendo un ragionamento efficiente senza sacrificare la qualità.
Nonostante i notevoli progressi ottenuti dai recenti lavori sulla generazione 3D, scalare questi metodi a estensioni geografiche, come la modellazione di migliaia di chilometri quadrati della superficie terrestre, rimane una sfida aperta. Affrontiamo questo problema attraverso una duplice innovazione nell'infrastruttura dei dati e nell'architettura del modello. In primo luogo, introduciamo Aerial-Earth3D, il più grande dataset aereo 3D fino ad oggi, composto da 50k scene curate (ciascuna di 600m x 600m) catturate in tutto il territorio continentale degli Stati Uniti, comprendenti 45M frame multi-vista di Google Earth. Ogni scena fornisce immagini multi-vista annotate con pose, mappe di profondità, normali, segmentazione semantica e pose della telecamera, con un controllo di qualità esplicito per garantire la diversità del terreno. Basandoci su questa base, proponiamo EarthCrafter, un framework su misura per la generazione 3D su larga scala della Terra tramite diffusione latente sparsa-disaccoppiata. La nostra architettura separa la generazione strutturale e quella testurale: 1) Dual sparse 3D-VAEs comprimono voxel geometrici ad alta risoluzione e splatting 2D Gaussiani (2DGS) testurali in spazi latenti compatti, allevando in gran parte il costo computazionale derivante dalle vaste scale geografiche pur preservando le informazioni critiche. 2) Proponiamo modelli di flow matching consapevoli delle condizioni, addestrati su input misti (semantica, immagini o nessuno dei due) per modellare flessibilmente le caratteristiche geometriche e testurali latenti in modo indipendente. Esperimenti estensivi dimostrano che EarthCrafter performa sostanzialmente meglio nella generazione su scala estremamente ampia. Il framework supporta ulteriormente applicazioni versatili, dalla generazione di layout urbani guidati dalla semantica alla sintesi incondizionata del terreno, mantenendo la plausibilità geografica attraverso i nostri ricchi dati a priori di Aerial-Earth3D. La nostra pagina del progetto è disponibile all'indirizzo https://whiteinblue.github.io/earthcrafter/
Il ridimensionamento dei modelli di generazione visiva è essenziale per la creazione di contenuti nel mondo reale, ma richiede costi di addestramento e computazionali sostanziali. In alternativa, il ridimensionamento al momento del test ha attirato crescente attenzione grazie all'efficienza delle risorse e alle prestazioni promettenti. In questo lavoro, presentiamo TTS-VAR, il primo framework generale di ridimensionamento al momento del test per modelli visivi auto-regressivi (VAR), modellando il processo di generazione come un problema di ricerca di percorsi. Per bilanciare dinamicamente l'efficienza computazionale con la capacità di esplorazione, introduciamo prima una pianificazione adattiva della dimensione del batch decrescente durante il processo di generazione causale. Inoltre, ispirati dalla generazione multi-scala gerarchica dal grossolano al fine dei VAR, il nostro framework integra due componenti chiave: (i) Alle scale grossolane, osserviamo che i token generati sono difficili da valutare, potendo portare all'accettazione errata di campioni inferiori o al rifiuto di campioni superiori. Notando che le scale grossolane contengono sufficienti informazioni strutturali, proponiamo una ricerca della diversità basata sul clustering. Questa preserva la varietà strutturale attraverso il clustering di caratteristiche semantiche, consentendo una successiva selezione di campioni con maggiore potenziale. (ii) Alle scale fini, la selezione del potenziale basata sul ricampionamento dà priorità ai candidati promettenti utilizzando punteggi di potenziale, definiti come funzioni di ricompensa che incorporano la storia della generazione multi-scala. Gli esperimenti sul potente modello VAR Infinity mostrano un miglioramento significativo dell'8.7% nel punteggio GenEval (da 0.69 a 0.75). Le intuizioni chiave rivelano che le caratteristiche strutturali nelle fasi iniziali influenzano efficacemente la qualità finale e che l'efficacia del ricampionamento varia tra le scale di generazione. Il codice è disponibile all'indirizzo https://github.com/ali-vilab/TTS-VAR.
I modelli di ragionamento su larga scala raggiungono prestazioni notevoli attraverso un'ampia generazione di catene di pensiero, ma mostrano una significativa inefficienza computazionale applicando strategie di ragionamento uniformi indipendentemente dalla complessità del problema. Presentiamo l'Optimizzazione Gerarchica delle Politiche di Budget (HBPO), un framework di apprendimento per rinforzo che consente ai modelli di apprendere profondità di ragionamento specifiche per problema senza sacrificare le capacità. HBPO affronta la sfida fondamentale del collasso dello spazio di esplorazione nell'addestramento orientato all'efficienza, dove le penalità sulla lunghezza dell'output deviano sistematicamente i modelli dai percorsi di ragionamento lunghi necessari. Attraverso l'esplorazione gerarchica del budget, il nostro approccio suddivide i campioni di rollout in più sottogruppi con budget di token distinti, mirando a consentire un'allocazione efficiente delle risorse prevenendo al contempo il degrado delle capacità. Introduciamo meccanismi di ricompensa differenziati che creano incentivi consapevoli del budget allineati con la complessità del problema, permettendo ai modelli di scoprire corrispondenze naturali tra i requisiti del compito e lo sforzo computazionale. Esperimenti estensivi dimostrano che HBPO riduce l'uso medio di token fino al 60,6% migliorando l'accuratezza del 3,14% su quattro benchmark di ragionamento. A differenza dei metodi esistenti che impongono vincoli esterni o si basano sulla selezione discreta delle modalità, HBPO mostra un comportamento adattivo emergente in cui i modelli regolano automaticamente la profondità di ragionamento in base alla complessità del problema. I nostri risultati suggeriscono che l'efficienza e le capacità di ragionamento non sono intrinsecamente in conflitto e possono essere ottimizzate simultaneamente attraverso un addestramento gerarchico strutturato in modo appropriato che preserva la diversità dell'esplorazione.
L'estrazione di informazioni (IE) è fondamentale per numerose applicazioni di NLP, tuttavia le soluzioni esistenti spesso richiedono modelli specializzati per diversi compiti o si basano su modelli linguistici di grandi dimensioni computazionalmente costosi. Presentiamo GLiNER2, un framework unificato che migliora l'architettura originale di GLiNER per supportare il riconoscimento di entità nominate, la classificazione del testo e l'estrazione di dati strutturati gerarchici all'interno di un singolo modello efficiente. Basato su un'architettura di codificatore transformer pre-addestrato, GLiNER2 mantiene l'efficienza su CPU e dimensioni compatte, introducendo al contempo una composizione multi-task attraverso un'interfaccia intuitiva basata su schema. I nostri esperimenti dimostrano prestazioni competitive in compiti di estrazione e classificazione, con sostanziali miglioramenti nell'accessibilità di distribuzione rispetto alle alternative basate su LLM. Rilasciamo GLiNER2 come libreria open-source installabile via pip, con modelli pre-addestrati e documentazione disponibile all'indirizzo https://github.com/fastino-ai/GLiNER2.
L'apprendimento da flussi di dati non stazionari soggetti a concept drift richiede modelli in grado di adattarsi in tempo reale mantenendo un uso efficiente delle risorse. I metodi di ensemble adattativi esistenti spesso si basano su meccanismi di adattamento a grana grossa o su semplici schemi di voto che non sfruttano in modo ottimale la conoscenza specializzata. Questo articolo introduce DriftMoE, un'architettura online Mixture-of-Experts (MoE) che affronta queste limitazioni attraverso un nuovo framework di co-training. DriftMoE presenta un router neurale compatto che viene co-addestrato insieme a un pool di esperti basati su alberi di Hoeffding incrementali. L'innovazione chiave risiede in un ciclo di apprendimento simbiotico che consente la specializzazione degli esperti: il router seleziona l'esperto più adatto per la previsione, gli esperti rilevanti si aggiornano in modo incrementale con l'etichetta vera, e il router affina i suoi parametri utilizzando una maschera di correttezza multi-hot che rinforza ogni esperto accurato. Questo ciclo di feedback fornisce al router un segnale di addestramento chiaro mentre accelera la specializzazione degli esperti. Valutiamo le prestazioni di DriftMoE su nove benchmark all'avanguardia per l'apprendimento da flussi di dati, che coprono drift improvvisi, graduali e del mondo reale, testando due configurazioni distinte: una in cui gli esperti si specializzano su regimi di dati (variante multi-classe), e un'altra in cui si concentrano sulla specializzazione a singola classe (variante basata su task). I nostri risultati dimostrano che DriftMoE ottiene risultati competitivi rispetto agli ensemble adattativi all'avanguardia per l'apprendimento da flussi, offrendo un approccio principiato ed efficiente all'adattamento al concept drift. Tutto il codice, le pipeline di dati e gli script di riproducibilità sono disponibili nel nostro repository GitHub pubblico: https://github.com/miguel-ceadar/drift-moe.
Presentiamo l'ultima serie di modelli TeleChat: TeleChat2, TeleChat2.5 e T1, che rappresentano un significativo miglioramento rispetto al loro predecessore, TeleChat. Nonostante i minimi cambiamenti apportati all'architettura del modello, la nuova serie raggiunge sostanziali guadagni di prestazioni grazie a strategie di addestramento potenziate sia nella fase di pre-training che in quella di post-training. La serie inizia con TeleChat2, che viene sottoposto a pre-training su 10 trilioni di token di alta qualità e diversificati. Segue poi il Fine-Tuning Supervisionato (SFT) e l'Optimizzazione Diretta delle Preferenze (DPO) per migliorarne ulteriormente le capacità. TeleChat2.5 e T1 ampliano la pipeline incorporando una fase di pre-training continuo con dataset specifici per dominio, combinata con l'apprendimento per rinforzo (RL) per migliorare le prestazioni nelle attività di generazione di codice e ragionamento matematico. La variante T1 è progettata per il ragionamento complesso, supportando lunghi processi di ragionamento a catena (Chain-of-Thought, CoT) e dimostrando sostanziali miglioramenti in matematica e programmazione. Al contrario, TeleChat2.5 privilegia la velocità, offrendo inferenze rapide. Entrambi i modelli di punta, T1 e TeleChat2.5, sono architetture dense basate su Transformer con 115 miliardi di parametri, che mostrano significativi progressi nel ragionamento e nelle prestazioni generali rispetto al TeleChat originale. In particolare, T1-115B supera modelli proprietari come o1-mini di OpenAI e GPT-4o. Rilasciamo pubblicamente TeleChat2, TeleChat2.5 e T1, includendo versioni post-addestrate con 35 miliardi e 115 miliardi di parametri, per fornire a sviluppatori e ricercatori modelli linguistici all'avanguardia adatti a diverse applicazioni.
I recenti progressi nella sintesi di immagini da testo traggono grande beneficio da strategie di campionamento sofisticate e dalla guida senza classificatore (CFG) per garantire una generazione di alta qualità. Tuttavia, la dipendenza della CFG da due passaggi in avanti, specialmente se combinata con algoritmi di campionamento complessi, comporta costi di inferenza proibitivamente elevati. Per affrontare questo problema, introduciamo TeEFusion (Fusione di Embedding di Testo), un metodo di distillazione nuovo ed efficiente che incorpora direttamente l'entità della guida negli embedding di testo e distilla la complessa strategia di campionamento del modello insegnante. Semplicemente fondendo gli embedding di testo condizionali e incondizionali mediante operazioni lineari, TeEFusion ricostruisce la guida desiderata senza aggiungere parametri extra, consentendo contemporaneamente al modello studente di apprendere dall'output del modello insegnante prodotto attraverso il suo approccio di campionamento sofisticato. Esperimenti estesi su modelli all'avanguardia come SD3 dimostrano che il nostro metodo permette allo studente di imitare da vicino le prestazioni dell'insegnante con una strategia di campionamento molto più semplice ed efficiente. Di conseguenza, il modello studente raggiunge velocità di inferenza fino a 6 volte superiori rispetto al modello insegnante, mantenendo una qualità dell'immagine paragonabile a quella ottenuta attraverso l'approccio di campionamento complesso dell'insegnante. Il codice è disponibile pubblicamente all'indirizzo https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.
Questo rapporto documenta, descrive e valuta i nuovi modelli GloVe (Global Vectors for Word Representation) in inglese del 2024. Sebbene i modelli GloVe originali costruiti nel 2014 siano stati ampiamente utilizzati e ritenuti utili, le lingue e il mondo continuano a evolversi e abbiamo ritenuto che l'uso attuale potesse trarre vantaggio da modelli aggiornati. Inoltre, i modelli del 2014 non erano accuratamente documentati riguardo alle versioni esatte dei dati e al preprocessing utilizzati, e abbiamo corretto questo aspetto documentando questi nuovi modelli. Abbiamo addestrato due serie di word embedding utilizzando Wikipedia, Gigaword e un sottoinsieme di Dolma. La valutazione attraverso il confronto del vocabolario, test diretti e task di riconoscimento di entità nominate (NER) mostra che i vettori del 2024 incorporano nuove parole culturalmente e linguisticamente rilevanti, offrono prestazioni comparabili su task strutturali come analogie e similarità, e dimostrano un miglioramento delle prestazioni su dataset NER recenti e temporalmente dipendenti, come i dati di agenzia non occidentali.
Nella visione artificiale, i segmenti sono spesso definiti da considerazioni semantiche e dipendono fortemente da convenzioni specifiche per categoria. Al contrario, la psicologia dello sviluppo suggerisce che gli esseri umani percepiscono il mondo in termini di oggetti di Spelke—raggruppamenti di entità fisiche che si muovono insieme in modo affidabile quando sottoposti a forze fisiche. Gli oggetti di Spelke operano quindi su relazioni causali di movimento indipendenti dalla categoria, che potenzialmente supportano meglio compiti come la manipolazione e la pianificazione. In questo articolo, iniziamo valutando il concetto di oggetto di Spelke, introducendo il dataset SpelkeBench che contiene una vasta gamma di segmenti di Spelke ben definiti in immagini naturali. Successivamente, per estrarre algoritmicamente i segmenti di Spelke dalle immagini, costruiamo SpelkeNet, una classe di modelli del mondo visivo addestrati a prevedere distribuzioni sui movimenti futuri. SpelkeNet supporta la stima di due concetti chiave per la scoperta degli oggetti di Spelke: (1) la mappa delle affordance di movimento, che identifica le regioni probabilmente soggette a movimento in seguito a una spinta, e (2) la mappa degli spostamenti attesi, che cattura come il resto della scena si muoverà. Questi concetti sono utilizzati per il "probing controfattuale statistico", dove diverse "spinte virtuali" vengono applicate su regioni con alta affordance di movimento, e le mappe degli spostamenti attesi risultanti sono utilizzate per definire i segmenti di Spelke come aggregati statistici di statistiche di movimento correlate. Troviamo che SpelkeNet supera i baseline supervisionati come SegmentAnything (SAM) su SpelkeBench. Infine, dimostriamo che il concetto di Spelke è praticamente utile per applicazioni downstream, ottenendo prestazioni superiori sul benchmark 3DEditBench per la manipolazione di oggetti fisici quando utilizzato in una varietà di modelli di manipolazione di oggetti pronti all'uso.
I sistemi di sintesi vocale (TTS) basati su diffusione hanno compiuto progressi significativi nella sintesi vocale zero-shot, ma ottimizzare tutti i componenti per le metriche percettive rimane una sfida. Il lavoro precedente con DMOSpeech ha dimostrato l'ottimizzazione diretta delle metriche per i componenti di generazione del parlato, ma la previsione della durata è rimasta non ottimizzata. Questo articolo presenta DMOSpeech 2, che estende l'ottimizzazione delle metriche al predittore della durata attraverso un approccio di apprendimento per rinforzo. Il sistema proposto implementa un nuovo framework di politica della durata utilizzando l'ottimizzazione delle preferenze relative di gruppo (GRPO) con la somiglianza del parlante e il tasso di errore sulle parole come segnali di ricompensa. Ottimizzando questo componente precedentemente non ottimizzato, DMOSpeech 2 crea una pipeline di sintesi più completa e ottimizzata per le metriche. Inoltre, questo articolo introduce il campionamento guidato da insegnante, un approccio ibrido che sfrutta un modello insegnante per i passaggi iniziali di denoising prima di passare al modello studente, migliorando significativamente la diversità dell'output mantenendo l'efficienza. Valutazioni complete dimostrano prestazioni superiori in tutte le metriche rispetto ai sistemi precedenti, riducendo i passaggi di campionamento della metà senza degradazione della qualità. Questi progressi rappresentano un passo significativo verso sistemi di sintesi vocale con ottimizzazione delle metriche su più componenti. I campioni audio, il codice e i modelli pre-addestrati sono disponibili su https://dmospeech2.github.io/.
I Large Language Model (LLM) dimostrano un notevole potenziale nelle applicazioni finanziarie; tuttavia, i modelli prevalenti mostrano spesso limitazioni quando si trovano ad affrontare scenari che richiedono capacità di ragionamento sofisticate, criteri rigorosi di affidabilità e un adattamento efficiente a requisiti specifici del dominio. Presentiamo la serie Agentar-Fin-R1 di grandi modelli linguistici finanziari (8B e 32B parametri), progettati specificamente sulla base del modello di base Qwen3 per migliorare le capacità di ragionamento, l'affidabilità e la specializzazione nel dominio delle applicazioni finanziarie. Il nostro approccio di ottimizzazione integra un sistema di etichettatura sistematico e di alta qualità per i task finanziari con un quadro completo di garanzia dell'affidabilità a più livelli. Questo quadro include l'ingegneria della conoscenza affidabile di alta qualità, la sintesi di dati affidabili multi-agente e una rigorosa governance della validazione dei dati. Attraverso l'ottimizzazione automatizzata guidata dalle etichette con consapevolezza della difficoltà, una pipeline di addestramento in due fasi e sistemi di attribuzione dinamica, otteniamo miglioramenti significativi nell'efficienza dell'addestramento. I nostri modelli vengono valutati in modo completo su benchmark finanziari mainstream come Fineva, FinEval e FinanceIQ, nonché su dataset di ragionamento generale come MATH-500 e GPQA-diamond. Per valutare approfonditamente le capacità di implementazione nel mondo reale, proponiamo in modo innovativo il benchmark di valutazione Finova, che si concentra sul ragionamento finanziario a livello di agente e sulla verifica della conformità. I risultati sperimentali dimostrano che Agentar-Fin-R1 non solo raggiunge prestazioni all'avanguardia nei task finanziari, ma mostra anche capacità eccezionali di ragionamento generale, convalidando la sua efficacia come soluzione affidabile per applicazioni finanziarie ad alto rischio. Il benchmark Finova è disponibile all'indirizzo https://github.com/antgroup/Finova.
Presentiamo Iwin Transformer, un innovativo vision transformer gerarchico privo di incorporamento posizionale, che può essere ottimizzato direttamente da risoluzioni basse a risoluzioni elevate, grazie alla collaborazione tra un'attenzione a finestre intervallate innovativa e una convoluzione separabile in profondità. Questo approccio utilizza l'attenzione per connettere token distanti e applica la convoluzione per collegare token vicini, consentendo lo scambio di informazioni globali all'interno di un singolo modulo, superando la limitazione di Swin Transformer che richiede due blocchi consecutivi per approssimare l'attenzione globale. Esperimenti estesi su benchmark visivi dimostrano che Iwin Transformer mostra una forte competitività in compiti come la classificazione di immagini (87.4 di accuratezza top-1 su ImageNet-1K), la segmentazione semantica e il riconoscimento di azioni video. Validiamo inoltre l'efficacia del componente centrale di Iwin come modulo autonomo che può sostituire senza soluzione di continuità il modulo di self-attention nella generazione di immagini condizionata per classe. I concetti e i metodi introdotti da Iwin Transformer hanno il potenziale di ispirare ricerche future, come l'attenzione Iwin 3D nella generazione video. Il codice e i modelli sono disponibili all'indirizzo https://github.com/cominder/Iwin-Transformer.
Il Recupero di Video Parzialmente Rilevanti (PRVR) affronta la sfida cruciale di abbinare video non tagliati con query testuali che descrivono solo contenuti parziali. I metodi esistenti soffrono di distorsione geometrica nello spazio euclideo, che talvolta rappresenta erroneamente la struttura gerarchica intrinseca dei video e trascura alcune semantiche gerarchiche, portando infine a una modellazione temporale subottimale. Per risolvere questo problema, proponiamo il primo framework di modellazione iperbolica per PRVR, denominato HLFormer, che sfrutta l'apprendimento nello spazio iperbolico per compensare le capacità subottimali di modellazione gerarchica dello spazio euclideo. Nello specifico, HLFormer integra il Lorentz Attention Block e l'Euclidean Attention Block per codificare gli embedding video in spazi ibridi, utilizzando il Mean-Guided Adaptive Interaction Module per fondere dinamicamente le caratteristiche. Inoltre, introduciamo una Partial Order Preservation Loss per imporre la gerarchia "testo < video" attraverso i vincoli del cono lorentziano. Questo approccio migliora ulteriormente l'abbinamento cross-modale rafforzando la rilevanza parziale tra il contenuto video e le query testuali. Esperimenti estensivi dimostrano che HLFormer supera i metodi all'avanguardia. Il codice è disponibile all'indirizzo https://github.com/lijun2005/ICCV25-HLFormer.
La segmentazione delle immagini mediche è cruciale per molte attività sanitarie, tra cui la diagnosi delle malattie e la pianificazione dei trattamenti. Un'area chiave è la segmentazione delle lesioni cutanee, essenziale per diagnosticare il cancro della pelle e monitorare i pazienti. In questo contesto, questo articolo introduce SegDT, un nuovo modello di segmentazione basato sul diffusion transformer (DiT). SegDT è progettato per funzionare su hardware a basso costo e incorpora il Rectified Flow, che migliora la qualità della generazione riducendo i passaggi di inferenza e mantenendo la flessibilità dei modelli di diffusione standard. Il nostro metodo è valutato su tre dataset di benchmark e confrontato con diversi lavori esistenti, raggiungendo risultati all'avanguardia pur mantenendo velocità di inferenza elevate. Ciò rende il modello proposto interessante per applicazioni mediche nel mondo reale. Questo lavoro migliora le prestazioni e le capacità dei modelli di deep learning nell'analisi delle immagini mediche, consentendo strumenti diagnostici più rapidi e accurati per i professionisti sanitari. Il codice è reso disponibile pubblicamente su https://github.com/Bekhouche/SegDT{GitHub}.
Questo articolo presenta un nuovo approccio basato sul deep learning per la classificazione simultanea dell'età e del genere da immagini facciali, progettato per migliorare l'efficacia delle campagne pubblicitarie mirate. Proponiamo un'architettura personalizzata di Rete Neurale Convoluzionale (CNN), ottimizzata per entrambi i compiti, che sfrutta la correlazione intrinseca tra le informazioni sull'età e sul genere presenti nelle caratteristiche facciali. A differenza dei metodi esistenti che spesso trattano questi compiti in modo indipendente, il nostro modello apprende rappresentazioni condivise, portando a un miglioramento delle prestazioni. La rete è addestrata su un ampio e diversificato dataset di immagini facciali, pre-elaborato con cura per garantire robustezza rispetto a variazioni di illuminazione, posa e qualità dell'immagine. I nostri risultati sperimentali dimostrano un miglioramento significativo nell'accuratezza della classificazione del genere, raggiungendo il 95%, e un errore assoluto medio competitivo di 5,77 anni per la stima dell'età. In modo critico, analizziamo le prestazioni attraverso diversi gruppi di età, identificando specifiche sfide nella stima accurata dell'età degli individui più giovani. Questa analisi rivela la necessità di un aumento mirato dei dati e di un affinamento del modello per affrontare questi bias. Inoltre, esploriamo l'impatto di diverse architetture CNN e impostazioni degli iperparametri sulle prestazioni complessive, fornendo spunti preziosi per future ricerche.
I Modelli Linguistici Multimodali di Grande Scala (MLLMs), costruiti su robuste architetture linguistiche, hanno abilitato l'Apprendimento in Contesto Multimodale (MICL) - l'adattamento a nuovi compiti a partire da poche dimostrazioni multimodali costituite da immagini, domande e risposte. Nonostante mostrino un miglioramento significativo sui dataset standard di visione e linguaggio, gli attuali MLLMs faticano a sfruttare le informazioni visive nelle dimostrazioni. Nello specifico, tendono a trascurare gli indizi visivi e a fare eccessivo affidamento sui modelli testuali, portando a una mera imitazione del testo piuttosto che a un autentico adattamento multimodale. Questo comportamento rende il MICL ancora unimodale e ne limita fortemente l'utilità pratica. Ancora più importante, questa limitazione è spesso mascherata dal miglioramento delle prestazioni su compiti che non richiedono la comprensione del contesto visivo. Di conseguenza, come migliorare efficacemente le capacità del MICL e valutare in modo affidabile le prestazioni del MICL rimane poco esplorato. Per affrontare questi problemi, introduciamo innanzitutto la Riallocazione Dinamica dell'Attenzione (DARA), una strategia di fine-tuning efficiente che incoraggia i modelli a prestare attenzione al contesto visivo riequilibrando l'attenzione tra i token visivi e testuali. Inoltre, presentiamo TrueMICL, un dataset dedicato al MICL con set di supporto e di test che richiedono esplicitamente l'integrazione di informazioni multimodali - in particolare contenuti visivi - per il corretto completamento del compito. Esperimenti estesi dimostrano l'efficacia della nostra soluzione olistica, mostrando miglioramenti sostanziali nelle vere capacità di apprendimento in contesto multimodale. Codice e dataset sono disponibili all'indirizzo https://chenxshuo.github.io/true-micl-colm.