Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo rapporto tecnico presenta una strategia economicamente efficiente per l'addestramento di un modello di base per la generazione di video. Introduciamo un modello di ricerca di medie dimensioni con circa 7 miliardi di parametri (7B), denominato Seaweed-7B, addestrato da zero utilizzando 665.000 ore di GPU H100. Nonostante sia stato addestrato con risorse computazionali moderate, Seaweed-7B dimostra prestazioni altamente competitive rispetto ai modelli contemporanei di generazione video di dimensioni molto più grandi. Le scelte progettuali sono particolarmente cruciali in un contesto con risorse limitate. Questo rapporto tecnico evidenzia le decisioni progettuali chiave che migliorano le prestazioni del modello di diffusione di medie dimensioni. Empiricamente, osserviamo due aspetti: (1) Seaweed-7B raggiunge prestazioni paragonabili o addirittura superiori a modelli più grandi addestrati con risorse GPU significativamente maggiori, e (2) il nostro modello, che mostra una forte capacità di generalizzazione, può essere efficacemente adattato a un'ampia gamma di applicazioni downstream attraverso un fine-tuning leggero o un addestramento continuo. Visita la pagina del progetto all'indirizzo https://seaweed.video/
Nella generazione autoregressiva (AR) di immagini, i tokenizzatori visivi comprimono le immagini in token latenti discreti compatti, consentendo un addestramento efficiente di modelli autoregressivi downstream per la generazione visiva tramite la previsione del token successivo. Sebbene il ridimensionamento dei tokenizzatori visivi migliori la qualità della ricostruzione delle immagini, spesso degrada la qualità della generazione downstream — una sfida non adeguatamente affrontata nella letteratura esistente. Per risolvere questo problema, introduciamo GigaTok, il primo approccio a migliorare simultaneamente la ricostruzione delle immagini, la generazione e l'apprendimento delle rappresentazioni quando si ridimensionano i tokenizzatori visivi. Identifichiamo la crescente complessità dello spazio latente come il fattore chiave dietro il dilemma ricostruzione vs. generazione. Per mitigare ciò, proponiamo una regolarizzazione semantica, che allinea le caratteristiche del tokenizzatore con caratteristiche semanticamente coerenti provenienti da un encoder visivo pre-addestrato. Questo vincolo previene un'eccessiva complessità dello spazio latente durante il ridimensionamento, producendo miglioramenti consistenti sia nella ricostruzione che nella generazione autoregressiva downstream. Basandoci sulla regolarizzazione semantica, esploriamo tre pratiche chiave per il ridimensionamento dei tokenizzatori: (1) l'uso di tokenizzatori 1D per una migliore scalabilità, (2) la priorità del ridimensionamento del decoder quando si espandono sia l'encoder che il decoder, e (3) l'impiego della perdita di entropia per stabilizzare l'addestramento di tokenizzatori su scala miliardaria. Ridimensionando fino a 3 miliardi di parametri, GigaTok raggiunge prestazioni all'avanguardia nella ricostruzione, nella generazione AR downstream e nella qualità delle rappresentazioni AR downstream.
La modellazione del mondo è un compito cruciale per consentire agli agenti intelligenti di interagire efficacemente con gli esseri umani e operare in ambienti dinamici. In questo lavoro, proponiamo MineWorld, un modello di mondo interattivo in tempo reale su Minecraft, un gioco sandbox aperto che è stato utilizzato come banco di prova comune per la modellazione del mondo. MineWorld è guidato da un Transformer autoregressivo visivo-azione, che prende come input scene di gioco accoppiate e le azioni corrispondenti, e genera nuove scene conseguenti seguendo le azioni. Nello specifico, trasformando le scene visive del gioco e le azioni in identificatori di token discreti con un tokenizzatore di immagini e un tokenizzatore di azioni rispettivamente, componiamo l'input del modello con la concatenazione dei due tipi di identificatori intervallati. Il modello viene quindi addestrato con la previsione del token successivo per apprendere rappresentazioni ricche degli stati del gioco nonché le condizioni tra stati e azioni simultaneamente. Nell'inferenza, sviluppiamo un nuovo algoritmo di decodifica parallela che prevede i token ridondanti spaziali in ogni fotogramma contemporaneamente, consentendo ai modelli di diverse dimensioni di generare da 4 a 7 fotogrammi al secondo e abilitando interazioni in tempo reale con i giocatori. Nella valutazione, proponiamo nuove metriche per valutare non solo la qualità visiva ma anche la capacità di seguire le azioni durante la generazione di nuove scene, aspetto cruciale per un modello di mondo. La nostra valutazione completa dimostra l'efficacia di MineWorld, superando significativamente i modelli di mondo basati su diffusione open-source allo stato dell'arte. Il codice e il modello sono stati rilasciati.
Recentemente, DeepSeek R1 ha dimostrato che il reinforcement learning (RL) può migliorare significativamente le capacità di ragionamento dei Large Language Models (LLM) attraverso un design semplice ma efficace. Il cuore di R1 risiede nella sua formulazione di ricompensa basata su regole, che sfrutta compiti con risposte deterministiche di riferimento per consentire un calcolo preciso e stabile della ricompensa. Nel dominio visivo, osserviamo in modo simile che un'ampia gamma di compiti di comprensione visiva è intrinsecamente dotata di annotazioni di riferimento ben definite. Questa proprietà li rende naturalmente compatibili con meccanismi di ricompensa basati su regole. Motivati da questa osservazione, investigiamo l'estensione del reinforcement learning in stile R1 ai Vision-Language Models (VLM), con l'obiettivo di potenziare le loro capacità di ragionamento visivo. A tal fine, sviluppiamo VLM-R1, un framework dedicato progettato per sfruttare il RL per migliorare le prestazioni dei VLM su compiti generali di visione e linguaggio. Utilizzando questo framework, esploriamo ulteriormente la fattibilità dell'applicazione del RL al dominio visivo. I risultati sperimentali indicano che il modello basato su RL non solo offre prestazioni competitive nei compiti di comprensione visiva, ma supera anche il Supervised Fine-Tuning (SFT) in termini di capacità di generalizzazione. Inoltre, conduciamo studi di ablazione completi che rivelano una serie di intuizioni degne di nota, tra cui la presenza di reward hacking nel rilevamento di oggetti, l'emersione del "momento aha dell'OD", l'impatto della qualità dei dati di addestramento e il comportamento di scaling del RL su diverse dimensioni del modello. Attraverso queste analisi, miriamo ad approfondire la comprensione di come il reinforcement learning potenzi le capacità dei modelli di visione e linguaggio, e speriamo che i nostri risultati e contributi open-source supportino il progresso continuo nella comunità del RL per la visione e il linguaggio. Il nostro codice e il modello sono disponibili all'indirizzo https://github.com/om-ai-lab/VLM-R1.
Natural Language to SQL (NL2SQL) consente interazioni intuitive con i database trasformando query in linguaggio naturale in istruzioni SQL strutturate. Nonostante i recenti progressi nel migliorare l'interazione uomo-computer nelle applicazioni di database, permangono sfide significative, in particolare riguardo alle prestazioni di inferenza in scenari complessi che coinvolgono join tra più tabelle e query nidificate. Le metodologie attuali utilizzano principalmente il fine-tuning supervisionato (SFT) per addestrare il modello NL2SQL, il che può limitare l'adattabilità e l'interpretabilità in nuovi contesti (ad esempio, finanza e sanità). Per migliorare le prestazioni di ragionamento del modello NL2SQL nelle situazioni complesse sopra descritte, introduciamo SQL-R1, un innovativo modello di ragionamento NL2SQL addestrato mediante algoritmi di apprendimento per rinforzo (RL). Progettiamo una funzione di ricompensa basata su RL specificamente adattata per i task NL2SQL e discutiamo l'impatto del cold start sull'efficacia dell'addestramento intensivo. Inoltre, raggiungiamo un'accuratezza competitiva utilizzando solo una piccola quantità di dati sintetici NL2SQL per l'addestramento aumentato e approfondiamo l'ingegneria dei dati per RL. Negli esperimenti condotti, SQL-R1 raggiunge un'accuratezza di esecuzione dell'88,6% e del 66,6% rispettivamente sui benchmark Spider e BIRD, utilizzando solo il modello base da 7B.
I recenti progressi nei modelli generativi hanno notevolmente migliorato le capacità di restauro delle immagini, in particolare attraverso potenti modelli di diffusione che offrono un recupero straordinario dei dettagli semantici e della fedeltà locale. Tuttavia, l'implementazione di questi modelli a risoluzioni ultra-elevate si scontra con un compromesso critico tra qualità ed efficienza a causa delle esigenze computazionali dei meccanismi di attenzione a lungo raggio. Per affrontare questo problema, introduciamo ZipIR, un nuovo framework che migliora l'efficienza, la scalabilità e la modellazione a lungo raggio per il restauro di immagini ad alta risoluzione. ZipIR utilizza una rappresentazione latente altamente compressa che riduce l'immagine di 32 volte, riducendo efficacemente il numero di token spaziali e consentendo l'uso di modelli ad alta capacità come il Diffusion Transformer (DiT). A tal fine, proponiamo un design Latent Pyramid VAE (LP-VAE) che struttura lo spazio latente in sottobande per facilitare l'addestramento della diffusione. Addestrato su immagini complete fino a risoluzione 2K, ZipIR supera i metodi basati sulla diffusione esistenti, offrendo una velocità e una qualità senza pari nel restauro di immagini ad alta risoluzione da input gravemente degradati.
Presentiamo PixelFlow, una famiglia di modelli di generazione di immagini che operano direttamente nello spazio dei pixel grezzi, in contrasto con i modelli predominanti che lavorano nello spazio latente. Questo approccio semplifica il processo di generazione delle immagini eliminando la necessità di un Variational Autoencoder (VAE) pre-addestrato e rendendo l'intero modello addestrabile end-to-end. Attraverso una modellazione efficiente a flusso a cascata, PixelFlow raggiunge un costo computazionale accessibile nello spazio dei pixel. Ottiene un FID di 1.98 nel benchmark di generazione di immagini condizionate per classe su ImageNet a risoluzione 256x256. I risultati qualitativi di generazione di immagini da testo dimostrano che PixelFlow eccelle in qualità dell'immagine, artisticità e controllo semantico. Speriamo che questo nuovo paradigma possa ispirare e aprire nuove opportunità per i modelli di generazione visiva di prossima generazione. Codice e modelli sono disponibili all'indirizzo https://github.com/ShoufaChen/PixelFlow.
Con il rapido progresso dei modelli generativi 2D, la preservazione dell'identità del soggetto abilitando al contempo modifiche diversificate è emersa come un focus di ricerca critico. I metodi esistenti tipicamente affrontano compromessi intrinseci tra la preservazione dell'identità e la manipolazione personalizzata. Introduciamo FlexIP, un nuovo framework che disaccoppia questi obiettivi attraverso due componenti dedicate: un Adattatore di Personalizzazione per la manipolazione stilistica e un Adattatore di Preservazione per il mantenimento dell'identità. Iniettando esplicitamente entrambi i meccanismi di controllo nel modello generativo, il nostro framework abilita un controllo parametrico flessibile durante l'inferenza attraverso la regolazione dinamica dell'adattatore dei pesi. I risultati sperimentali dimostrano che il nostro approccio supera i limiti di prestazione dei metodi convenzionali, raggiungendo una preservazione dell'identità superiore mentre supporta capacità di generazione personalizzata più diversificate (Pagina del Progetto: https://flexip-tech.github.io/flexip/).
Presentiamo un sistema che utilizza Modelli Linguistici Multimodali (MLLMs) per analizzare un ampio database contenente decine di milioni di immagini catturate in momenti diversi, con l'obiettivo di scoprire modelli nei cambiamenti temporali. Nello specifico, miriamo a catturare cambiamenti co-occorrenti frequenti ("tendenze") in una città durante un determinato periodo. A differenza delle precedenti analisi visive, la nostra analisi risponde a query aperte (ad esempio, "quali sono i tipi di cambiamenti frequenti nella città?") senza alcun soggetto target predeterminato o etichette di addestramento. Queste caratteristiche rendono inadatti gli strumenti di analisi visiva basati sull'apprendimento o non supervisionati esistenti. Identifichiamo gli MLLMs come uno strumento innovativo per le loro capacità di comprensione semantica aperta. Tuttavia, i nostri dataset sono quattro ordini di grandezza troppo grandi per essere ingeriti come contesto da un MLLM. Introduciamo quindi una procedura bottom-up che scompone il massiccio problema di analisi visiva in sottoproblemi più gestibili. Progettiamo attentamente soluzioni basate su MLLM per ciascun sottoproblema. Durante esperimenti e studi di ablazione con il nostro sistema, scopriamo che supera significativamente i baseline ed è in grado di scoprire tendenze interessanti da immagini catturate in grandi città (ad esempio, "aggiunta di ristorazione all'aperto", "il cavalcavia è stato dipinto di blu", ecc.). Consulta ulteriori risultati e demo interattive su https://boyangdeng.com/visual-chronicles.
Proponiamo un nuovo problema, In-2-4D, per l'interpolazione generativa 4D (cioè 3D + movimento) a partire da un input minimale: due immagini a singola vista che catturano un oggetto in due distinti stati di movimento. Date due immagini che rappresentano gli stati iniziale e finale di un oggetto in movimento, il nostro obiettivo è generare e ricostruire il movimento in 4D. Utilizziamo un modello di interpolazione video per prevedere il movimento, ma grandi variazioni tra frame consecutivi possono portare a interpretazioni ambigue. Per superare questo limite, adottiamo un approccio gerarchico per identificare keyframe visivamente vicini agli stati di input e che mostrano un movimento significativo, per poi generare frammenti fluidi tra di essi. Per ogni frammento, costruiamo la rappresentazione 3D del keyframe utilizzando il Gaussian Splatting. I frame temporali all'interno del frammento guidano il movimento, consentendo la loro trasformazione in Gaussiani dinamici attraverso un campo di deformazione. Per migliorare la coerenza temporale e affinare il movimento 3D, estendiamo il self-attention della diffusione multi-vista attraverso i timestep e applichiamo una regolarizzazione delle trasformazioni rigide. Infine, uniamo i segmenti di movimento 3D generati in modo indipendente interpolando i campi di deformazione ai confini e ottimizzandoli per allinearli al video guida, garantendo transizioni fluide e senza sfarfallii. Attraverso ampi esperimenti qualitativi e quantitativi, nonché uno studio con utenti, dimostriamo l'efficacia del nostro metodo e dei suoi componenti. La pagina del progetto è disponibile all'indirizzo https://in-2-4d.github.io/.
Nonostante i punteggi elevati nei benchmark, i Large Language Models (LLM) spesso falliscono in problemi semplici, sollevando una questione critica: gli LLM apprendono i principi matematici o si limitano a memorizzare schemi? Piuttosto che progettare benchmark sempre più complessi come nei lavori recenti, investigiamo questo aspetto utilizzando l'addizione elementare di due numeri interi (da 0 a 2^{64}), esaminando due proprietà fondamentali: la commutatività (A+B=B+A) e la generalizzazione composizionale (tramite mappature simboliche isomorfe, ad esempio, 7 → y). Mentre gli LLM all'avanguardia raggiungono un'accuratezza del 73,8-99,8% nell'addizione numerica, le prestazioni crollano a ≤7,5% sotto mappatura simbolica, indicando un fallimento nella generalizzazione delle regole apprese. La scalatura non monotona delle prestazioni con il numero di cifre e le frequenti violazioni della commutatività (oltre 1.700 casi di A+B ≠ B+A) supportano ulteriormente questa conclusione. Fornire esplicitamente le regole di addizione riduce le prestazioni in media dell'81,2%, mentre l'auto-spiegazione mantiene l'accuratezza di base, suggerendo che l'elaborazione aritmetica degli LLM non è allineata con i principi definiti dall'uomo. I nostri risultati indicano che gli attuali LLM si basano sulla memorizzazione di schemi piuttosto che su un apprendimento genuino delle regole, evidenziando limitazioni architetturali e la necessità di nuovi approcci per raggiungere un vero ragionamento matematico.
Modelli pre-addestrati basati su encoder di trasformatori come DeBERTaV3 e ModernBERT introducono avanzamenti architetturali mirati a migliorare l'efficienza e le prestazioni. Sebbene gli autori di ModernBERT riportino prestazioni migliori rispetto a DeBERTaV3 su diversi benchmark, la mancanza di dati di addestramento divulgati e l'assenza di confronti utilizzando un dataset condiviso rendono difficile determinare se questi miglioramenti siano dovuti a innovazioni architetturali o a differenze nei dati di addestramento. In questo lavoro, conduciamo uno studio controllato pre-addestrando ModernBERT sullo stesso dataset utilizzato per CamemBERTaV2, un modello DeBERTaV3 in francese, isolando così l'effetto del design del modello. I nostri risultati mostrano che la generazione precedente di modelli rimane superiore in termini di efficienza campionaria e prestazioni complessive sui benchmark, con il principale vantaggio di ModernBERT che risiede in una velocità di addestramento e inferenza più rapida. Tuttavia, il nuovo modello proposto offre comunque miglioramenti architetturali significativi rispetto a modelli precedenti come BERT e RoBERTa. Inoltre, osserviamo che dati di pre-addestramento di alta qualità accelerano la convergenza ma non migliorano significativamente le prestazioni finali, suggerendo una possibile saturazione dei benchmark. Questi risultati evidenziano l'importanza di separare i dati di pre-addestramento dalle innovazioni architetturali quando si valutano modelli basati su trasformatori.
I modelli di Generazione Aumentata da Recupero (RAG) eccellono in compiti ad alta intensità di conoscenza, specialmente in contesti di apprendimento con pochi esempi. Introduciamo CoRAG, un framework che estende RAG a contesti collaborativi, in cui i clienti addestrano congiuntamente un modello condiviso utilizzando un archivio di passaggi collaborativo. Per valutare CoRAG, presentiamo CRAB, un benchmark per il question answering collaborativo omogeneo in dominio aperto. I nostri esperimenti dimostrano che CoRAG supera costantemente sia i metodi di apprendimento collaborativo parametrici che i modelli RAG addestrati localmente in scenari a bassa risorsa. Un'analisi più approfondita rivela l'importanza cruciale dei passaggi rilevanti all'interno dell'archivio condiviso, i sorprendenti benefici derivanti dall'incorporazione di passaggi irrilevanti e il potenziale impatto negativo dei negativi difficili sulle prestazioni. Ciò introduce una nuova considerazione nel RAG collaborativo: il bilanciamento tra lo sfruttamento di una base di conoscenza arricchita collettivamente e il rischio potenziale di incorporare passaggi dannosi provenienti da altri clienti. I nostri risultati sottolineano la fattibilità di CoRAG, evidenziando al contempo le principali sfide progettuali e promettenti direzioni per future ricerche.
I recenti progressi nei modelli di diffusione testo-video (T2V) hanno significativamente migliorato la qualità visiva dei video generati. Tuttavia, anche i modelli T2V più recenti trovano difficile seguire con precisione le descrizioni testuali, specialmente quando il prompt richiede un controllo accurato dei layout spaziali o delle traiettorie degli oggetti. Una recente linea di ricerca utilizza una guida basata sul layout per i modelli T2V che richiede un fine-tuning o una manipolazione iterativa della mappa di attenzione durante il tempo di inferenza. Ciò aumenta significativamente i requisiti di memoria, rendendo difficile adottare un grande modello T2V come backbone. Per affrontare questo problema, introduciamo Video-MSG, un metodo di guida senza necessità di training per la generazione T2V basato su pianificazione multimodale e inizializzazione strutturata del rumore. Video-MSG consiste di tre passaggi, nei primi due dei quali crea Video Sketch, un piano spaziotemporale dettagliato per il video finale, specificando sfondo, primo piano e traiettorie degli oggetti, sotto forma di bozze di frame video. Nell'ultimo passaggio, Video-MSG guida un modello di diffusione T2V a valle con Video Sketch attraverso l'inversione del rumore e il denoising. È importante notare che Video-MSG non richiede fine-tuning o manipolazione dell'attenzione con memoria aggiuntiva durante il tempo di inferenza, rendendo più semplice l'adozione di grandi modelli T2V. Video-MSG dimostra la sua efficacia nel migliorare l'allineamento al testo con più backbone T2V (VideoCrafter2 e CogVideoX-5B) su benchmark popolari per la generazione T2V (T2VCompBench e VBench). Forniamo studi di ablazione completi sul rapporto di inversione del rumore, diversi generatori di sfondo, rilevamento degli oggetti di sfondo e segmentazione degli oggetti in primo piano.
Nell'ambito dell'imaging medico, la sfida principale è la raccolta di dati etichettati su larga scala a causa di preoccupazioni relative alla privacy, problematiche logistiche e costi elevati di etichettatura. In questo lavoro, presentiamo UK Biobank Organs and Bones (UKBOB), il più grande dataset etichettato di organi del corpo, comprendente 51.761 campioni MRI 3D (equivalenti a 17,9 milioni di immagini 2D) e oltre 1,37 miliardi di maschere di segmentazione 2D di 72 organi, tutti basati sul dataset MRI di UK Biobank. Utilizziamo l'etichettatura automatica, introduciamo una pipeline automatizzata di pulizia delle etichette con filtri specifici per organo e annotiamo manualmente un sottoinsieme di 300 MRI con 11 classi addominali per validare la qualità (denominato UKBOB-manual). Questo approccio consente di scalare la raccolta del dataset mantenendo la fiducia nelle etichette. Confermiamo ulteriormente la validità delle etichette dimostrando la generalizzazione zero-shot di modelli addestrati su UKBOB filtrato ad altri piccoli dataset etichettati di domini simili (ad esempio, MRI addominale). Per mitigare ulteriormente l'effetto delle etichette rumorose, proponiamo un nuovo metodo chiamato Entropy Test-time Adaptation (ETTA) per affinare l'output della segmentazione. Utilizziamo UKBOB per addestrare un modello di base, Swin-BOB, per la segmentazione di immagini mediche 3D basato sull'architettura Swin-UNetr, ottenendo risultati all'avanguardia in diversi benchmark di imaging medico 3D, inclusa la sfida BRATS per i tumori cerebrali MRI (con un miglioramento dello 0,4%) e il benchmark BTCV per le scansioni CT addominali (con un miglioramento dell'1,3%). I modelli pre-addestrati e il codice sono disponibili all'indirizzo https://emmanuelleb985.github.io/ukbob, e le etichette filtrate saranno rese disponibili con UK Biobank.
L'editing di grafica 3D è fondamentale in applicazioni come la produzione cinematografica e il design di giochi, ma rimane un processo dispendioso in termini di tempo che richiede una competenza altamente specializzata nel dominio. Automatizzare questo processo è impegnativo perché l'editing grafico richiede l'esecuzione di una varietà di compiti, ciascuno dei quali necessita di abilità distinte. Recentemente, i modelli visione-linguaggio (VLMs) sono emersi come un potente framework per automatizzare il processo di editing, ma il loro sviluppo e valutazione sono ostacolati dalla mancanza di un benchmark completo che richieda una percezione a livello umano e presenti una complessità di editing reale. In questo lavoro, presentiamo BlenderGym, il primo benchmark completo per sistemi VLM nell'editing di grafica 3D. BlenderGym valuta i sistemi VLM attraverso compiti di ricostruzione 3D basati su codice. Valutiamo sistemi VLM sia proprietari che open-source e osserviamo che anche il sistema VLM più avanzato fatica con compiti relativamente semplici per gli utenti umani di Blender. Abilitati da BlenderGym, studiamo come le tecniche di scaling dell'inferenza influenzino le prestazioni dei VLM nei compiti di editing grafico. In particolare, i nostri risultati rivelano che il verificatore utilizzato per guidare lo scaling della generazione può essere esso stesso migliorato attraverso lo scaling dell'inferenza, complementando recenti intuizioni sullo scaling dell'inferenza nella generazione di LLM nei compiti di codifica e matematica. Mostriamo inoltre che il calcolo dell'inferenza non è uniformemente efficace e può essere ottimizzato distribuendolo strategicamente tra generazione e verifica.
Questo studio presenta il Latent Diffusion Autoencoder (LDAE), un innovativo framework encoder-decoder basato sulla diffusione per un apprendimento non supervisionato efficiente e significativo nell'imaging medico, concentrandosi sulla malattia di Alzheimer (AD) utilizzando risonanza magnetica cerebrale (MR) proveniente dal database ADNI come caso di studio. A differenza dei convenzionali autoencoder di diffusione che operano nello spazio delle immagini, LDAE applica il processo di diffusione in una rappresentazione latente compressa, migliorando l'efficienza computazionale e rendendo fattibile l'apprendimento della rappresentazione di imaging medico 3D. Per validare l'approccio proposto, esploriamo due ipotesi chiave: (i) LDAE cattura efficacemente rappresentazioni semantiche significative su risonanze magnetiche cerebrali 3D associate all'AD e all'invecchiamento, e (ii) LDAE raggiunge una generazione e ricostruzione di immagini di alta qualità pur essendo computazionalmente efficiente. I risultati sperimentali supportano entrambe le ipotesi: (i) le valutazioni con linear probe dimostrano prestazioni diagnostiche promettenti per l'AD (ROC-AUC: 90%, ACC: 84%) e la previsione dell'età (MAE: 4.1 anni, RMSE: 5.2 anni); (ii) le rappresentazioni semantiche apprese consentono la manipolazione degli attributi, producendo modifiche anatomicamente plausibili; (iii) esperimenti di interpolazione semantica mostrano una forte ricostruzione delle scansioni mancanti, con un SSIM di 0.969 (MSE: 0.0019) per un intervallo di 6 mesi. Anche per intervalli più lunghi (24 mesi), il modello mantiene prestazioni robuste (SSIM > 0.93, MSE < 0.004), indicando la capacità di catturare le tendenze di progressione temporale; (iv) rispetto ai convenzionali autoencoder di diffusione, LDAE aumenta significativamente la velocità di inferenza (20 volte più veloce) migliorando anche la qualità della ricostruzione. Questi risultati posizionano LDAE come un framework promettente per applicazioni scalabili nell'imaging medico, con il potenziale di servire come modello di base per l'analisi delle immagini mediche. Il codice è disponibile all'indirizzo https://github.com/GabrieleLozupone/LDAE.
I recenti progressi nel calcolo durante l'inferenza hanno migliorato significativamente le prestazioni su compiti complessi generando lunghe catene di pensiero (CoT) utilizzando Modelli di Ragionamento su Grande Scala (LRM). Tuttavia, questa maggiore accuratezza comporta un costo elevato in termini di latenza di inferenza a causa della lunghezza delle sequenze di ragionamento generate e della natura autoregressiva del decoding. La nostra intuizione chiave per affrontare questi sovraccarichi è che l'inferenza degli LRM, e il ragionamento che essa incorpora, è altamente tollerante alle approssimazioni: i compiti complessi sono tipicamente suddivisi in passaggi più semplici, ciascuno dei quali apporta utilità in base all'intuizione semantica che fornisce per i passaggi successivi piuttosto che ai token esatti che genera. Di conseguenza, introduciamo SpecReason, un sistema che accelera automaticamente l'inferenza degli LRM utilizzando un modello leggero per eseguire (in modo speculativo) i passaggi intermedi di ragionamento più semplici e riservando il modello base costoso solo per valutare (e potenzialmente correggere) gli output speculati. È importante sottolineare che l'attenzione di SpecReason sullo sfruttamento della flessibilità semantica dei token di pensiero nel preservare l'accuratezza della risposta finale è complementare alle tecniche di speculazione precedenti, in particolare il decoding speculativo, che richiede l'equivalenza a livello di token in ogni passaggio. Su una varietà di benchmark di ragionamento, SpecReason ottiene un aumento di velocità di 1,5-2,5 volte rispetto all'inferenza LRM standard, migliorando l'accuratezza dell'1,0-9,9%. Rispetto al decoding speculativo senza SpecReason, la loro combinazione produce un'ulteriore riduzione della latenza del 19,4-44,2%. SpecReason è open-source all'indirizzo https://github.com/ruipeterpan/specreason.
Introduciamo InteractVLM, un metodo innovativo per stimare i punti di contatto 3D su corpi umani e oggetti a partire da singole immagini in contesti reali, consentendo una ricostruzione accurata delle interazioni uomo-oggetto in 3D. Questa sfida è complessa a causa di occlusioni, ambiguità di profondità e forme di oggetti estremamente variabili. I metodi esistenti si basano su annotazioni di contatto 3D raccolte tramite costosi sistemi di motion capture o laboriose etichettature manuali, limitando scalabilità e generalizzazione. Per superare queste limitazioni, InteractVLM sfrutta la vasta conoscenza visiva dei grandi modelli visione-linguaggio (VLMs), affinati con dati limitati di contatto 3D. Tuttavia, applicare direttamente questi modelli non è banale, poiché ragionano solo in 2D, mentre il contatto uomo-oggetto è intrinsecamente 3D. Introduciamo quindi un modulo Render-Localize-Lift che: (1) incorpora le superfici 3D del corpo e degli oggetti nello spazio 2D tramite rendering multi-vista, (2) addestra un nuovo modello di localizzazione multi-vista (MV-Loc) per inferire i contatti in 2D, e (3) li eleva a 3D. Inoltre, proponiamo un nuovo task chiamato Semantic Human Contact estimation, in cui le previsioni di contatto umano sono esplicitamente condizionate sulla semantica degli oggetti, consentendo una modellazione più ricca delle interazioni. InteractVLM supera i lavori esistenti nella stima dei contatti e facilita anche la ricostruzione 3D da un'immagine in contesto reale. Codice e modelli sono disponibili su https://interactvlm.is.tue.mpg.de.
L'unapprendimento automatico rappresenta un approccio promettente per migliorare la sicurezza dei modelli linguistici di grandi dimensioni (LLM) rimuovendo conoscenze indesiderate dal modello. Tuttavia, i metodi prevalenti basati su gradienti per l'unapprendimento soffrono di problemi come elevati costi computazionali, instabilità degli iperparametri, scarsa capacità di unapprendimento sequenziale, vulnerabilità agli attacchi di riapprendimento, bassa efficienza dei dati e mancanza di interpretabilità. Sebbene gli Autoencoder Sparse (SAE) siano ben adatti a migliorare questi aspetti grazie alla possibilità di unapprendimento mirato basato sulle attivazioni, gli approcci precedenti si sono dimostrati inferiori ai metodi basati su gradienti. Questo lavoro dimostra che, contrariamente a questi risultati precedenti, gli SAE possono migliorare significativamente l'unapprendimento quando utilizzati in modo dinamico. Introduciamo Dynamic DAE Guardrails (DSG), un metodo innovativo per l'unapprendimento di precisione che sfrutta una selezione di feature basata su principi e un classificatore dinamico. I nostri esperimenti mostrano che DSG supera sostanzialmente i principali metodi di unapprendimento, raggiungendo un miglior compromesso tra dimenticanza e utilità. DSG affronta i principali limiti degli approcci basati su gradienti per l'unapprendimento, offrendo una maggiore efficienza computazionale e stabilità, prestazioni robuste nell'unapprendimento sequenziale, una maggiore resistenza agli attacchi di riapprendimento, una migliore efficienza dei dati anche in contesti zero-shot e un unapprendimento più interpretabile.