Articoli di ricerca IA selezionati quotidianamente con traduzioni
La Low-Rank Adaptation (LoRA) ha significativamente avanzato il fine-tuning efficiente in termini di parametri per grandi modelli pre-addestrati. LoRA aumenta i pesi pre-addestrati di un modello aggiungendo il prodotto di due matrici più piccole che insieme formano un aggiornamento a matrice di basso rango. Ricerche recenti hanno dimostrato che le disparità di scala tra queste due matrici spesso causano dinamiche di addestramento instabili, portando a prestazioni subottimali. In questo articolo, proponiamo SingLoRA, che riformula l'adattamento a basso rango apprendendo l'aggiornamento dei pesi come una decomposizione di una singola matrice a basso rango moltiplicata per la sua trasposta. Questo design semplice rimuove intrinsecamente i conflitti di scala inter-matrice, garantendo un'ottimizzazione stabile, e riduce approssimativamente della metà il numero di parametri. Analizziamo SingLoRA all'interno del framework di reti neurali a larghezza infinita, dimostrando che garantisce un apprendimento stabile delle feature per costruzione. Esperimenti estesi su più task convalidano questi benefici. Nel ragionamento di senso comune, il fine-tuning di LLama 7B su MNLI con SingLoRA raggiunge un'accuratezza del 91.3% - superando LoRA (89.1%) e LoRA+ (90.2%) - utilizzando solo il 60% del loro budget di parametri. Nella generazione di immagini, il fine-tuning di Stable Diffusion con SingLoRA migliora significativamente la fedeltà delle immagini su DreamBooth, ottenendo un punteggio di similarità DINO di 0.151, rispetto ai punteggi di 0.148 e 0.143 per DoRA e LoRA, rispettivamente.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato impressionanti capacità di ragionamento, specialmente quando guidati da un ragionamento esplicito a catena di pensiero (CoT) che verbalizza i passaggi intermedi. Sebbene il CoT migliori sia l'interpretabilità che l'accuratezza, la sua dipendenza dal ragionamento in linguaggio naturale limita la larghezza di banda espressiva del modello. Il ragionamento latente affronta questo collo di bottiglia eseguendo inferenze a più passaggi interamente nello stato nascosto continuo del modello, eliminando la supervisione a livello di token. Per far progredire la ricerca sul ragionamento latente, questa rassegna fornisce una panoramica completa del campo emergente del ragionamento latente. Iniziamo esaminando il ruolo fondamentale degli strati delle reti neurali come substrato computazionale per il ragionamento, evidenziando come le rappresentazioni gerarchiche supportino trasformazioni complesse. Successivamente, esploriamo diverse metodologie di ragionamento latente, tra cui la ricorrenza basata sull'attivazione, la propagazione dello stato nascosto e le strategie di fine-tuning che comprimono o internalizzano le tracce di ragionamento esplicito. Infine, discutiamo paradigmi avanzati come il ragionamento latente a profondità infinita tramite modelli di diffusione mascherati, che consentono processi di ragionamento globalmente consistenti e reversibili. Unificando queste prospettive, miriamo a chiarire il panorama concettuale del ragionamento latente e a tracciare future direzioni per la ricerca alla frontiera della cognizione dei LLM. Un repository GitHub associato che raccoglie gli ultimi articoli e repository è disponibile all'indirizzo: https://github.com/multimodal-art-projection/LatentCoT-Horizon/.
La creazione di asset 3D con strutture di parti esplicite e modificabili è cruciale per lo sviluppo di applicazioni interattive, tuttavia la maggior parte dei metodi generativi produce solo forme monolitiche, limitandone l'utilità. Introduciamo OmniPart, un nuovo framework per la generazione di oggetti 3D con consapevolezza delle parti, progettato per ottenere un elevato disaccoppiamento semantico tra i componenti mantenendo una robusta coesione strutturale. OmniPart scompone in modo unico questo compito complesso in due fasi sinergiche: (1) un modulo di pianificazione della struttura autoregressiva genera una sequenza controllabile e di lunghezza variabile di bounding box 3D per le parti, guidata in modo critico da maschere 2D flessibili che consentono un controllo intuitivo sulla scomposizione delle parti senza richiedere corrispondenze dirette o etichette semantiche; e (2) un modello di flusso rettificato condizionato spazialmente, adattato in modo efficiente da un generatore 3D olistico pre-addestrato, sintetizza tutte le parti 3D simultaneamente e in modo coerente all'interno del layout pianificato. Il nostro approccio supporta una granularità delle parti definita dall'utente, una localizzazione precisa e abilita diverse applicazioni downstream. Esperimenti estensivi dimostrano che OmniPart raggiunge prestazioni all'avanguardia, aprendo la strada a contenuti 3D più interpretabili, modificabili e versatili.
Gli agenti web basati su LLM hanno recentemente compiuto progressi significativi, ma gran parte di questi si è verificata in sistemi closed-source, ampliando il divario con le alternative open-source. Il progresso è stato frenato da due sfide chiave: in primo luogo, una focalizzazione ristretta su compiti a singolo passaggio che trascura la complessità delle interazioni web multi-step; e in secondo luogo, gli elevati costi computazionali necessari per il post-training degli agenti web basati su LLM. Per affrontare questo problema, presentiamo il primo studio statisticamente fondato sull'allocazione delle risorse computazionali per il post-training di agenti web LLM. Il nostro approccio utilizza una pipeline a due stadi, addestrando uno studente Llama 3.1 8B a imitare un insegnante Llama 3.3 70B tramite fine-tuning supervisionato (SFT), seguito da apprendimento per rinforzo on-policy. Abbiamo riscontrato che questo processo è altamente sensibile alla scelta degli iperparametri, rendendo impraticabili ricerche esaustive. Per risparmiare ad altri costosi tentativi ed errori, abbiamo campionato 1.370 configurazioni e utilizzato il bootstrapping per stimare iperparametri efficaci. I nostri risultati mostrano che combinare SFT con RL on-policy supera costantemente entrambi gli approcci singolarmente sia su WorkArena che su MiniWob++. Inoltre, questa strategia richiede solo il 55% delle risorse computazionali per eguagliare le prestazioni di picco del puro SFT su MiniWob++, spingendo efficacemente la frontiera di Pareto computazione-prestazioni, ed è l'unica strategia in grado di colmare il divario con i modelli closed-source.
La navigazione visiva e linguistica (VLN) in contesti reali richiede che gli agenti elaborino flussi visivi continui e generino azioni con bassa latenza basandosi su istruzioni linguistiche. Sebbene i modelli linguistici di grandi dimensioni basati su video (Video-LLM) abbiano guidato i recenti progressi, i metodi VLN attuali basati su Video-LLM spesso devono affrontare compromessi tra la comprensione visiva dettagliata, la modellazione del contesto a lungo termine e l'efficienza computazionale. Introduciamo StreamVLN, un framework VLN in streaming che impiega una strategia ibrida di modellazione del contesto lento-veloce per supportare il ragionamento multimodale su input intervallati di visione, linguaggio e azione. Il contesto di dialogo a flusso veloce facilita la generazione reattiva di azioni attraverso una finestra scorrevole di dialoghi attivi, mentre il contesto di memoria a aggiornamento lento comprime gli stati visivi storici utilizzando una strategia di potatura di token 3D-aware. Con questo design lento-veloce, StreamVLN raggiunge un dialogo coerente a più turni attraverso il riutilizzo efficiente della cache KV, supportando flussi video lunghi con dimensioni del contesto e costi di inferenza limitati. Gli esperimenti sui benchmark VLN-CE dimostrano prestazioni all'avanguardia con una bassa latenza stabile, garantendo robustezza ed efficienza in contesti di implementazione reali. La pagina del progetto è: https://streamvln.github.io/{https://streamvln.github.io/}.
La traduzione di enunciati matematici in linguaggio naturale in codice formale ed eseguibile rappresenta una sfida fondamentale nel campo della dimostrazione automatica di teoremi. Mentre il lavoro precedente si è concentrato sul successo della generazione e della compilazione, poca attenzione è stata dedicata alla fase del critico, ovvero alla valutazione se le formalizzazioni generate catturino veramente l'intento semantico del problema originale. In questo articolo, introduciamo CriticLean, un nuovo framework di apprendimento per rinforzo guidato dal critico che eleva il ruolo del critico da validatore passivo a componente attivo dell'apprendimento. Nello specifico, proponiamo prima CriticLeanGPT, addestrato tramite fine-tuning supervisionato e apprendimento per rinforzo, per valutare rigorosamente la fedeltà semantica delle formalizzazioni in Lean 4. Successivamente, introduciamo CriticLeanBench, un benchmark progettato per misurare la capacità dei modelli di distinguere formalizzazioni semanticamente corrette da quelle errate, e dimostriamo che i nostri modelli CriticLeanGPT addestrati superano significativamente i forti baseline open-source e closed-source. Basandoci sul framework CriticLean, costruiamo FineLeanCorpus, un dataset che comprende oltre 285K problemi e che mostra una ricca diversità di dominio, un'ampia copertura delle difficoltà e un'elevata correttezza basata sulla valutazione umana. Nel complesso, i nostri risultati evidenziano che ottimizzare la fase del critico è essenziale per produrre formalizzazioni affidabili, e speriamo che il nostro CriticLean fornisca spunti preziosi per i futuri progressi nel ragionamento matematico formale.
I grandi modelli linguistici (LLM) eccellono nel ragionamento logico e algoritmico, ma la loro intelligenza emotiva (EQ) rimane ancora molto indietro rispetto alle loro capacità cognitive. Sebbene l'apprendimento per rinforzo basato su ricompense verificabili (RLVR) abbia fatto progressi in altri ambiti, la sua applicazione al dialogo - specialmente per l'intelligenza emotiva - rimane poco esplorata. In questo lavoro, introduciamo RLVER, il primo framework end-to-end di apprendimento per rinforzo che sfrutta ricompense emotive verificabili da utenti simulati per coltivare capacità empatiche di ordine superiore nei LLM. All'interno di questo framework, utenti simulati affettivamente coerenti partecipano a dialoghi e producono punteggi emotivi deterministici durante le conversazioni, servendo come segnali di ricompensa per guidare l'apprendimento del LLM. Il fine-tuning del modello Qwen2.5-7B-Instruct disponibile pubblicamente con PPO aumenta il suo punteggio Sentient-Benchmark da 13.3 a 79.2, preservando in gran parte le competenze matematiche e di programmazione. Esperimenti estensivi rivelano che: (i) RLVER migliora costantemente multiple capacità dialogiche; (ii) I modelli pensanti e non pensanti mostrano tendenze distinte - i modelli pensanti eccellono in empatia e intuizione, mentre i modelli non pensanti favoriscono l'azione; (iii) GRPO spesso produce guadagni stabili, mentre PPO può spingere certe capacità a un livello più alto; (iv) Ambienti più impegnativi non sono sempre migliori - quelli moderati possono produrre risultati più forti. I nostri risultati dimostrano che RLVER è una via pratica verso agenti linguistici emotivamente intelligenti e ampiamente capaci.
I recenti progressi nella generazione di video hanno mostrato notevoli miglioramenti in contesti aperti, tuttavia la generazione di video medici rimane ampiamente inesplorata. I video medici sono cruciali per applicazioni come la formazione clinica, l'educazione e la simulazione, richiedendo non solo un'elevata fedeltà visiva ma anche una rigorosa accuratezza medica. Tuttavia, i modelli attuali spesso producono contenuti irrealistici o errati quando applicati a prompt medici, principalmente a causa della mancanza di dataset su larga scala e di alta qualità specifici per il dominio medico. Per colmare questa lacuna, presentiamo MedVideoCap-55K, il primo dataset su larga scala, diversificato e ricco di didascalie per la generazione di video medici. Esso comprende oltre 55.000 clip curate che coprono scenari medici reali, fornendo una solida base per l'addestramento di modelli generalisti per la generazione di video medici. Basato su questo dataset, sviluppiamo MedGen, che raggiunge prestazioni leader tra i modelli open-source e rivaleggia con i sistemi commerciali su più benchmark sia in termini di qualità visiva che di accuratezza medica. Speriamo che il nostro dataset e modello possano servire come una risorsa preziosa e contribuire a catalizzare ulteriori ricerche nella generazione di video medici. Il nostro codice e i dati sono disponibili all'indirizzo https://github.com/FreedomIntelligence/MedGen.
Gli agenti di interfaccia grafica (GUI) operano autonomamente su diverse piattaforme (ad esempio, Linux) per completare attività interagendo con elementi visivi. Nello specifico, un'istruzione dell'utente viene scomposta in una sequenza di proposte di azione, ciascuna corrispondente a un'interazione con la GUI. Dopo ogni azione, l'agente osserva l'ambiente GUI aggiornato per pianificare il passaggio successivo. Tuttavia, emergono due principali sfide: i) risolvere l'ambiguità nella pianificazione delle attività (cioè, la sequenza di proposte di azione), dove selezionare un piano appropriato non è banale, poiché possono esistere molte opzioni valide; ii) ancorare con precisione le azioni in interfacce complesse e ad alta risoluzione, ovvero interagire in modo preciso con obiettivi visivi. Questo articolo esamina le due sfide sopra menzionate con il nostro agente di scalatura al momento del test, denominato GTA1. Innanzitutto, per selezionare la proposta di azione più appropriata, introduciamo un metodo di scalatura al momento del test. A ogni passaggio, campioniamo più proposte di azione candidate e utilizziamo un modello giudice per valutare e selezionare quella più adatta. Questo approccio bilancia il calcolo con una migliore qualità decisionale attraverso il campionamento concorrente, riducendo i passaggi di esecuzione delle attività e migliorando le prestazioni complessive. In secondo luogo, proponiamo un modello che ottiene una maggiore accuratezza nell'ancorare la proposta di azione selezionata ai corrispondenti elementi visivi. La nostra intuizione chiave è che l'apprendimento per rinforzo (RL) facilita l'ancoraggio visivo attraverso allineamenti intrinseci degli obiettivi, premiando i clic riusciti sugli elementi dell'interfaccia. Sperimentalmente, il nostro metodo stabilisce prestazioni all'avanguardia su diversi benchmark. Ad esempio, GTA1-7B raggiunge precisioni del 50,1%, 92,4% e 67,7% rispettivamente su Screenspot-Pro, Screenspot-V2 e OSWorld-G. Quando abbinato a un pianificatore che applica la nostra strategia di scalatura al momento del test, mostra prestazioni agentiche all'avanguardia (ad esempio, un tasso di successo delle attività del 45,2% su OSWorld). Rendiamo disponibili il nostro codice e i modelli qui.
Il World Model, il presunto surrogato algoritmico dell'ambiente reale in cui gli agenti biologici vivono e agiscono, è diventato un argomento di crescente interesse negli ultimi anni a causa della necessità di sviluppare agenti virtuali dotati di intelligenza artificiale (generale). Si è molto discusso su cosa sia realmente un world model, come costruirlo, come utilizzarlo e come valutarlo. In questo saggio, partendo dall'immaginazione del celebre classico di fantascienza Dune e traendo ispirazione dal concetto di "pensiero ipotetico" nella letteratura psicologica, offriamo una critica a diverse scuole di pensiero sulla modellazione del mondo e sosteniamo che l'obiettivo principale di un world model sia simulare tutte le possibilità azionabili del mondo reale per un ragionamento e un agire finalizzati. Basandoci su queste critiche, proponiamo una nuova architettura per un world model generico, basata su rappresentazioni gerarchiche, multilivello e miste continue/discrete, e su un framework di apprendimento generativo e auto-supervisionato, con una prospettiva di un sistema AGI Fisico, Agente e Annidato (PAN) abilitato da tale modello.
Il ridimensionamento dei dati ha guidato un successo straordinario nei modelli di base per l'Elaborazione del Linguaggio Naturale (NLP) e la Visione Artificiale (CV), tuttavia i principi di un efficace ridimensionamento dei dati nella manipolazione robotica rimangono insufficientemente compresi. In questo lavoro, indaghiamo il ruolo sfumato della diversità dei dati nell'apprendimento robotico esaminando tre dimensioni critiche: il compito (cosa fare), l'embodiment (quale robot utilizzare) e l'esperto (chi dimostra), sfidando l'intuizione convenzionale che "più diversificato è meglio". Attraverso esperimenti estesi su varie piattaforme robotiche, riveliamo che (1) la diversità dei compiti si dimostra più critica della quantità di dimostrazioni per singolo compito, favorendo il trasferimento da compiti di pre-addestramento diversificati a scenari downstream nuovi; (2) i dati di pre-addestramento multi-embodiment sono opzionali per il trasferimento cross-embodiment—i modelli addestrati su dati di singolo embodiment di alta qualità possono trasferirsi efficientemente su piattaforme diverse, mostrando una proprietà di ridimensionamento più desiderabile durante il fine-tuning rispetto ai modelli pre-addestrati multi-embodiment; e (3) la diversità degli esperti, derivante dalle preferenze operative individuali e dalle variazioni stocastiche nelle dimostrazioni umane, può essere confondente per l'apprendimento delle politiche, con la multimodalità della velocità che emerge come un fattore chiave. Sulla base di questa intuizione, proponiamo un metodo di debiasing della distribuzione per mitigare l'ambiguità della velocità, il risultante GO-1-Pro raggiunge guadagni di prestazioni sostanziali del 15%, equivalenti all'uso di 2,5 volte i dati di pre-addestramento. Collettivamente, questi risultati forniscono nuove prospettive e offrono una guida pratica su come ridimensionare efficacemente i dataset di manipolazione robotica.
I grandi modelli linguistici (LLM) hanno compiuto progressi notevoli nella generazione di codice, ma la loro vera competenza nella programmazione rimane ancora poco esplorata. Introduciamo il framework del Triangolo del Codice, che valuta sistematicamente i LLM lungo tre dimensioni fondamentali: analisi editoriale, implementazione del codice e generazione di casi di test. Attraverso esperimenti estesi su benchmark di programmazione competitiva, riveliamo che, sebbene i LLM possano formare un sistema auto-consistente attraverso queste dimensioni, le loro soluzioni spesso mancano della diversità e della robustezza dei programmatori umani. Identifichiamo un significativo spostamento distributivo tra la cognizione del modello e l'esperienza umana, con gli errori del modello che tendono a raggrupparsi a causa di bias nei dati di addestramento e di un trasferimento limitato del ragionamento. Il nostro studio dimostra che l'incorporazione di editoriali, soluzioni e casi di test generati da esseri umani, nonché l'utilizzo di miscele di modelli, può migliorare sostanzialmente sia le prestazioni che la robustezza dei LLM. Inoltre, riveliamo sia la coerenza che l'incoerenza nella cognizione dei LLM che possono facilitare l'autoriflessione e il miglioramento autonomo, fornendo una potenziale direzione per lo sviluppo di modelli di codifica più potenti.
Presentiamo Nile-Chat-4B, 3x4B-A6B e 12B, una collezione di LLM per il dialetto egiziano, progettati in modo unico per comprendere e generare testi scritti sia in caratteri arabi che latini. In particolare, con Nile-Chat-3x4B-A6B, introduciamo un nuovo approccio di adattamento linguistico sfruttando la strategia Branch-Train-MiX per fondere esperti specializzati nei diversi caratteri in un unico modello MoE. I nostri modelli Nile-Chat superano significativamente i principali LLM multilingue e arabi, come LLaMa, Jais e ALLaM, sui nostri nuovi benchmark di valutazione egiziani, che coprono sia compiti di comprensione che generativi. In particolare, il nostro modello 12B ottiene un miglioramento delle prestazioni del 14,4% rispetto a Qwen2.5-14B-Instruct sui benchmark in caratteri latini. Tutte le nostre risorse sono pubblicamente disponibili. Crediamo che questo lavoro presenti una metodologia completa per adattare gli LLM a lingue con doppio sistema di scrittura, affrontando un aspetto spesso trascurato nello sviluppo moderno degli LLM.
I modelli sequenziali come i Transformer e le RNN spesso allocano eccessivamente l'attenzione a contesti irrilevanti, portando a rappresentazioni intermedie rumorose. Ciò compromette le capacità dei LLM favorendo allucinazioni, indebolendo le capacità di gestione di contesti a lungo raggio e di recupero delle informazioni, e riducendo la robustezza. Recenti lavori hanno dimostrato che un design differenziale può mitigare questo problema nei Transformer, migliorandone l'efficacia in varie applicazioni. In questo articolo, esploriamo se queste tecniche, originariamente sviluppate per i Transformer, possano essere applicate a Mamba, una recente architettura basata su strati di spazio degli stati selettivi che raggiunge prestazioni paragonabili ai Transformer con maggiore efficienza. Mostriamo che un adattamento ingenuo del design differenziale a Mamba è insufficiente e richiede modifiche architetturali accurate. Per affrontare questo problema, introduciamo un nuovo meccanismo differenziale per Mamba, validato empiricamente su benchmark di modellazione del linguaggio, dimostrando capacità di recupero migliorate e prestazioni superiori rispetto alla versione base di Mamba. Infine, conduciamo ampi studi di ablazione e analisi empiriche per giustificare le nostre scelte progettuali e fornire evidenze che il nostro approccio mitiga efficacemente il problema di sovraallocazione nei modelli basati su Mamba. Il nostro codice è pubblicamente disponibile.
L'intelligenza artificiale (IA) ha un potenziale significativo nelle applicazioni sanitarie, ma il suo addestramento e implementazione affrontano sfide dovute alla diversità dei dati sanitari, alla complessità dei compiti e alla necessità di preservare la privacy. I modelli di base che ottengono buoni risultati su compiti medici e richiedono meno dati di ottimizzazione specifici per il compito sono fondamentali per accelerare lo sviluppo delle applicazioni di IA in ambito sanitario. Presentiamo MedGemma, una raccolta di modelli di base visione-linguaggio medici basati su Gemma 3 4B e 27B. MedGemma dimostra una comprensione e un ragionamento medico avanzati su immagini e testo, superando significativamente le prestazioni di modelli generativi di dimensioni simili e avvicinandosi alle prestazioni di modelli specifici per il compito, pur mantenendo le capacità generali dei modelli di base Gemma 3. Per compiti fuori distribuzione, MedGemma ottiene un miglioramento del 2,6-10% nella risposta a domande multimodali mediche, un miglioramento del 15,5-18,1% nella classificazione dei reperti radiografici del torace e un miglioramento del 10,8% nelle valutazioni agentiche rispetto ai modelli di base. Il fine-tuning di MedGemma migliora ulteriormente le prestazioni nei sottodomini, riducendo gli errori nel recupero delle informazioni dalle cartelle cliniche elettroniche del 50% e raggiungendo prestazioni comparabili ai metodi specializzati all'avanguardia esistenti per la classificazione del pneumotorace e la classificazione delle patch istopatologiche. Introduciamo inoltre MedSigLIP, un codificatore visivo ottimizzato per l'ambito medico derivato da SigLIP. MedSigLIP alimenta le capacità di comprensione visiva di MedGemma e, come codificatore, ottiene prestazioni comparabili o migliori rispetto ai codificatori di immagini mediche specializzati. Nel complesso, la raccolta MedGemma fornisce una solida base di capacità per immagini e testo medico, con il potenziale di accelerare significativamente la ricerca medica e lo sviluppo di applicazioni downstream. La raccolta MedGemma, inclusi tutorial e pesi del modello, è disponibile all'indirizzo https://goo.gle/medgemma.
I modelli linguistici di grandi dimensioni (LLM) sono stati recentemente applicati ai task di riordinamento nel campo del recupero delle informazioni, ottenendo prestazioni significative. Tuttavia, le loro elevate esigenze computazionali spesso ne ostacolano l'implementazione pratica. Gli studi esistenti valutano l'efficienza dei riordinatori basati su LLM utilizzando metriche proxy come la latenza, il numero di passaggi in avanti, i token di input e i token di output. Tuttavia, queste metriche dipendono dall'hardware e dalle scelte di esecuzione (ad esempio, esecuzione parallela o meno, dimensione del batch, ecc.) e spesso non tengono conto delle dimensioni del modello, rendendo difficile l'interpretazione e oscurando la valutazione del compromesso tra efficienza ed efficacia. Per affrontare questo problema, proponiamo E2R-FLOPs per i riordinatori basati su LLM: metriche di ranking per PetaFLOP (RPP) per la rilevanza rispetto al calcolo e query per PetaFLOP (QPP) per un throughput indipendente dall'hardware. Accompagnate da queste nuove metriche, è stato costruito un stimatore interpretabile dei FLOPs per stimare i FLOPs di un riordinatore basato su LLM anche senza eseguire alcun esperimento. Sulla base delle metriche proposte, conduciamo esperimenti completi per valutare una vasta gamma di riordinatori basati su LLM con diverse architetture, studiando il compromesso tra efficienza ed efficacia e portando questa questione all'attenzione della comunità di ricerca.
I recenti progressi nei modelli di trasformatori a diffusione per la generazione di video guidata dal movimento, come Tora, hanno mostrato avanzamenti significativi. In questo articolo, presentiamo Tora2, una versione migliorata di Tora, che introduce diversi miglioramenti progettuali per espandere le sue capacità sia nella personalizzazione dell'aspetto che del movimento. Nello specifico, introduciamo un estrattore di personalizzazione disaccoppiato che genera embedding di personalizzazione completi per più entità a insieme aperto, preservando meglio i dettagli visivi di livello fine rispetto ai metodi precedenti. Basandoci su questo, progettiamo un meccanismo di self-attention gated per integrare traiettoria, descrizione testuale e informazioni visive per ciascuna entità. Questa innovazione riduce significativamente il disallineamento nel condizionamento multimodale durante l'addestramento. Inoltre, introduciamo una funzione di perdita contrastiva che ottimizza congiuntamente la dinamica della traiettoria e la coerenza dell'entità attraverso una mappatura esplicita tra gli embedding di movimento e di personalizzazione. Tora2 è, a nostra conoscenza, il primo metodo a raggiungere la personalizzazione simultanea di aspetto e movimento per più entità nella generazione di video. I risultati sperimentali dimostrano che Tora2 raggiunge prestazioni competitive con i metodi di personalizzazione all'avanguardia, offrendo al contempo capacità avanzate di controllo del movimento, il che rappresenta un progresso critico nella generazione di video multi-condizionale. Pagina del progetto: https://github.com/alibaba/Tora.
I modelli multimodali di grandi dimensioni (LMM) all'avanguardia affrontano sfide quando elaborano immagini ad alta risoluzione, poiché questi input vengono convertiti in un numero enorme di token visivi, molti dei quali sono irrilevanti per il compito downstream. In questo articolo, proponiamo l'ottimizzazione delle politiche basata su grounding a più turni (MGPO), un framework di apprendimento per rinforzo (RL) end-to-end che consente ai LMM di concentrarsi iterativamente sulle regioni visive chiave ritagliando automaticamente sotto-immagini, basandosi su coordinate di grounding predette dal modello all'interno di un framework di conversazione a più turni. Rispetto al fine-tuning supervisionato (SFT), che richiede costose annotazioni aggiuntive di grounding, il nostro approccio evidenzia che i LMM possono sviluppare robuste capacità di grounding durante il processo di addestramento RL, sfruttando solo una funzione di ricompensa binaria derivata dalla correttezza della risposta finale. Inoltre, osserviamo che i LMM faticano a attivare autonomamente il grounding visivo durante il processo di rollout. Per affrontare questo problema di avvio a freddo, progettiamo un template di conversazione a più turni e limitiamo il calcolo della perdita della politica alle uscite del modello generate attraverso più round di dialogo, promuovendo così un'ottimizzazione stabile. Esperimenti estensivi dimostrano che, quando addestrato su dati standard di risposta breve a domande visive senza annotazioni di grounding, MGPO suscita efficacemente capacità di grounding più forti rispetto a GRPO, portando a un miglioramento del 5,4% su MME-Realworld in-distribution e del 5,2% sul complesso benchmark out-of-distribution (OOD) V*. In particolare, il post-addestramento di MGPO su Qwen2.5-VL-7B con 21K campioni supera i modelli o1 e GPT-4o di OpenAI sul benchmark OOD V*. I codici sono disponibili all'indirizzo https://github.com/EvolvingLMMs-Lab/MGPO.
I metodi computazionali basati sul deep learning hanno ottenuto risultati promettenti nella previsione delle interazioni proteina-proteina (PPI). Tuttavia, i benchmark esistenti si concentrano prevalentemente su valutazioni isolate a coppie, trascurando la capacità di un modello di ricostruire reti PPI biologicamente significative, aspetto cruciale per la ricerca biologica. Per colmare questa lacuna, introduciamo PRING, il primo benchmark completo che valuta la previsione delle interazioni proteina-proteina da una prospettiva a livello di grafo. PRING cura un dataset di alta qualità di reti PPI multi-specie, comprendente 21.484 proteine e 186.818 interazioni, con strategie ben progettate per affrontare sia la ridondanza che la dispersione dei dati. Basandosi su questo dataset di riferimento, stabiliamo due paradigmi di valutazione complementari: (1) task orientati alla topologia, che valutano la costruzione di reti PPI intra e cross-specie, e (2) task orientati alla funzione, inclusa la previsione di complessi proteici, l'analisi di moduli GO e la giustificazione di proteine essenziali. Queste valutazioni non solo riflettono la capacità del modello di comprendere la topologia della rete, ma facilitano anche l'annotazione delle funzioni proteiche, il rilevamento di moduli biologici e persino l'analisi dei meccanismi delle malattie. Esperimenti estesi su quattro categorie rappresentative di modelli, comprendenti approcci basati sulla similarità di sequenza, sequenze naive, modelli linguistici proteici e strutture proteiche, dimostrano che gli attuali modelli PPI presentano potenziali limitazioni nel recuperare sia le proprietà strutturali che funzionali delle reti PPI, evidenziando il divario nel supporto alle applicazioni biologiche nel mondo reale. Crediamo che PRING fornisca una piattaforma affidabile per guidare lo sviluppo di modelli di previsione PPI più efficaci per la comunità. Il dataset e il codice sorgente di PRING sono disponibili all'indirizzo https://github.com/SophieSarceau/PRING.
I recenti sforzi nel campo del "segment anything" mostrano promettenti risultati attraverso l'apprendimento da dati su larga scala, ma l'adattamento diretto di tali modelli alle immagini mediche rimane una sfida a causa della complessità dei dati medici, delle annotazioni rumorose e dei requisiti di apprendimento continuo attraverso diverse modalità e strutture anatomiche. In questo lavoro, proponiamo SAMed-2, un nuovo modello di base per la segmentazione di immagini mediche, costruito sull'architettura SAM-2. Nello specifico, introduciamo un adattatore temporale nell'encoder di immagini per catturare le correlazioni tra immagini e un meccanismo di memoria guidato dalla confidenza per memorizzare caratteristiche ad alta certezza per un successivo recupero. Questa strategia basata sulla memoria contrasta il rumore pervasivo nei dataset medici su larga scala e mitiga l'oblio catastrofico quando si incontrano nuovi compiti o modalità. Per addestrare e valutare SAMed-2, abbiamo curato MedBank-100k, un dataset completo che copre sette modalità di imaging e 21 compiti di segmentazione medica. I nostri esperimenti su benchmark interni e su 10 dataset esterni dimostrano prestazioni superiori rispetto ai migliori baseline in scenari multi-task. Il codice è disponibile all'indirizzo: https://github.com/ZhilingYan/Medical-SAM-Bench.
L'elaborazione di contesti lunghi è diventata una capacità fondamentale per i grandi modelli linguistici (LLM). Per valutare le prestazioni dei modelli in contesti lunghi, sono stati proposti numerosi benchmark di valutazione. Tuttavia, le variazioni nelle impostazioni di valutazione tra questi benchmark portano a risultati incoerenti, rendendo difficile effettuare confronti affidabili. Inoltre, l'elevato costo computazionale della valutazione di contesti lunghi rappresenta un ostacolo significativo per la comunità nel condurre valutazioni complete dei modelli per contesti lunghi. In questo articolo, proponiamo LOOM-Scope, un framework completo ed efficiente per la valutazione di contesti lunghi. LOOM-Scope standardizza le impostazioni di valutazione tra diversi benchmark, supporta l'implementazione di metodi efficienti di accelerazione dell'inferenza per contesti lunghi e introduce una suite di benchmark olistica ma leggera per valutare i modelli in modo completo. Homepage: https://loomscope.github.io
Presentiamo any4, una soluzione appresa per la quantizzazione a 4 bit dei pesi nei grandi modelli linguistici (LLM) che fornisce rappresentazioni numeriche arbitrarie senza richiedere pre-elaborazione dei pesi o delle attivazioni. any4 offre una maggiore accuratezza rispetto ad altri tipi di rappresentazione numerica a 4 bit correlati: int4, fp4 e nf4, come valutato su una gamma di dimensioni, generazioni e famiglie di modelli (Llama 2, Llama 3, Mistral e Mixtral). Sebbene any4 non richieda pre-elaborazione dei pesi o delle attivazioni, è anche competitivo con tecniche ortogonali che richiedono tale pre-elaborazione (ad esempio, AWQ e GPTQ). Sperimentiamo anche con any3 e any2 e dimostriamo competitività a bit inferiori. Inoltre, mostriamo che possiamo calibrare utilizzando un singolo campione curato e diversificato piuttosto che centinaia di campioni da un dataset, come avviene nella maggior parte degli approcci di quantizzazione. Open source anche tinygemm, una libreria ottimizzata per la latenza della moltiplicazione di matrici su GPU per LLM, che implementa any4 utilizzando una strategia efficiente su GPU basata su tabelle di ricerca insieme ad altri metodi comuni di quantizzazione. Rendiamo disponibile il nostro codice su https://github.com/facebookresearch/any4.
I Large Language Model (LLM) hanno dimostrato capacità straordinarie in un'ampia gamma di compiti, ma mostrano anche una tendenza a memorizzare i dati di addestramento. Questo fenomeno solleva questioni cruciali riguardanti il comportamento dei modelli, i rischi per la privacy e il confine tra apprendimento e memorizzazione. Affrontando queste preoccupazioni, questo articolo sintetizza studi recenti e indaga il panorama della memorizzazione, i fattori che la influenzano e i metodi per la sua rilevazione e mitigazione. Esploriamo i principali fattori, tra cui la duplicazione dei dati di addestramento, le dinamiche di addestramento e le procedure di fine-tuning che influenzano la memorizzazione dei dati. Inoltre, esaminiamo metodologie come l'estrazione basata su prefissi, l'inferenza di appartenenza e il prompting avversario, valutando la loro efficacia nel rilevare e misurare il contenuto memorizzato. Oltre all'analisi tecnica, esploriamo anche le implicazioni più ampie della memorizzazione, inclusi gli aspetti legali ed etici. Infine, discutiamo strategie di mitigazione, come la pulizia dei dati, la privacy differenziale e l'unlearning post-addestramento, evidenziando le sfide aperte nel bilanciare la minimizzazione della memorizzazione dannosa con l'utilità. Questo articolo fornisce una panoramica completa dello stato attuale della ricerca sulla memorizzazione nei LLM, considerando le dimensioni tecniche, della privacy e delle prestazioni, e identifica direzioni critiche per il lavoro futuro.
Il completamento semantico della scena (SSC) mira a dedurre sia la geometria 3D che la semantica di una scena a partire da singole immagini. A differenza dei lavori precedenti sull'SSC che si basano fortemente su costose annotazioni di verità di base, affrontiamo l'SSC in un contesto non supervisionato. Il nostro nuovo metodo, SceneDINO, adatta tecniche provenienti dall'apprendimento auto-supervisionato delle rappresentazioni e dalla comprensione non supervisionata delle scene 2D all'SSC. Il nostro addestramento utilizza esclusivamente l'auto-supervisione della coerenza multi-vista senza alcuna forma di verità di base semantica o geometrica. Data una singola immagine in ingresso, SceneDINO deduce la geometria 3D e le caratteristiche DINO 3D espressive in modo feed-forward. Attraverso un nuovo approccio di distillazione delle caratteristiche 3D, otteniamo una semantica 3D non supervisionata. Sia nella comprensione non supervisionata delle scene 3D che 2D, SceneDINO raggiunge un'accuratezza di segmentazione all'avanguardia. La sonda lineare sulle nostre caratteristiche 3D eguaglia l'accuratezza di segmentazione di un attuale approccio SSC supervisionato. Inoltre, dimostriamo la generalizzazione del dominio e la coerenza multi-vista di SceneDINO, compiendo i primi passi verso una solida base per la comprensione delle scene 3D da singole immagini.
I progressi nella generazione di immagini da testo sono stati prevalentemente centrati sull'inglese, creando barriere per i parlanti non anglofoni e perpetuando disuguaglianze digitali. Sebbene i sistemi esistenti si basino su pipeline di traduzione, queste introducono deriva semantica, sovraccarico computazionale e disallineamento culturale. Presentiamo NeoBabel, un innovativo framework multilingue per la generazione di immagini che stabilisce una nuova frontiera di Pareto in termini di prestazioni, efficienza e inclusività, supportando sei lingue: inglese, cinese, olandese, francese, hindi e persiano. Il modello è addestrato utilizzando una combinazione di pre-addestramento multilingue su larga scala e messa a punto ad alta risoluzione basata su istruzioni. Per valutarne le capacità, espandiamo due benchmark esclusivamente in inglese alle loro equivalenti versioni multilingue: m-GenEval e m-DPG. NeoBabel raggiunge prestazioni multilingue all'avanguardia mantenendo una forte capacità in inglese, ottenendo un punteggio di 0,75 su m-GenEval e 0,68 su m-DPG. In particolare, si comporta alla pari con i modelli leader nei compiti in inglese, superandoli di +0,11 e +0,09 nei benchmark multilingue, nonostante questi modelli siano costruiti su LLM di base multilingue. Ciò dimostra l'efficacia del nostro addestramento mirato all'allineamento per preservare ed estendere la generalizzazione cross-linguistica. Introduciamo inoltre due nuove metriche per valutare rigorosamente l'allineamento multilingue e la robustezza rispetto a prompt con codice misto. In particolare, NeoBabel eguaglia o supera i modelli esclusivamente in inglese pur essendo 2-4 volte più piccolo. Rilasciamo un toolkit open, che include tutto il codice, i checkpoint del modello, un dataset curato di 124 milioni di coppie testo-immagine multilingue e protocolli di valutazione multilingue standardizzati, per promuovere la ricerca inclusiva nell'IA. Il nostro lavoro dimostra che la capacità multilingue non è un compromesso, ma un catalizzatore per una maggiore robustezza, efficienza e fedeltà culturale nell'IA generativa.
La comprensione compositiva è cruciale per l'intelligenza umana, ma rimane incerto se i modelli visivi contemporanei la possiedano. Il paradigma dominante dell'apprendimento automatico si basa sulla premessa che aumentare la scala dei dati e delle dimensioni dei modelli migliorerà le prestazioni fuori distribuzione, inclusa la generalizzazione compositiva. Testiamo questa premessa attraverso esperimenti controllati che variano sistematicamente la scala dei dati, la diversità dei concetti e la copertura combinatoria. Scopriamo che la generalizzazione compositiva è guidata dalla diversità dei dati, non dalla mera scala dei dati. Una maggiore copertura combinatoria costringe i modelli a scoprire una struttura rappresentativa fattorizzata linearmente, in cui i concetti si scompongono in componenti additive. Dimostriamo che questa struttura è fondamentale per l'efficienza, consentendo una generalizzazione perfetta da poche combinazioni osservate. Valutando modelli pre-addestrati (DINO, CLIP), troviamo prestazioni superiori al caso ma imperfette, suggerendo una presenza parziale di questa struttura. Il nostro lavoro motiva un maggiore enfasi sulla costruzione di dataset diversificati per la generalizzazione compositiva e sulla considerazione dell'importanza della struttura rappresentativa che consente un apprendimento compositivo efficiente. Codice disponibile su https://github.com/oshapio/visual-compositional-generalization.
Progettiamo e implementiamo AXLearn, un sistema di deep learning di produzione che facilita l'addestramento scalabile e ad alte prestazioni di modelli di deep learning di grandi dimensioni. Rispetto ad altri sistemi di deep learning all'avanguardia, AXLearn si distingue per un focus unico sulla modularità e sul supporto per infrastrutture hardware eterogenee. Le interfacce interne di AXLearn tra i componenti software seguono un rigoroso incapsulamento, consentendo a diversi componenti di essere assemblati per facilitare lo sviluppo rapido di modelli e la sperimentazione su infrastrutture di calcolo eterogenee. Introduciamo un metodo innovativo per quantificare la modularità tramite la complessità delle Linee di Codice (LoC), che dimostra come il nostro sistema mantenga una complessità costante mentre scaliamo i componenti del sistema, rispetto a una complessità lineare o quadratica in altri sistemi. Ciò consente di integrare funzionalità come gli Embedding di Posizione Rotazionali (RoPE) in AXLearn attraverso centinaia di moduli con sole 10 righe di codice, rispetto alle centinaia richieste in altri sistemi. Allo stesso tempo, AXLearn mantiene prestazioni equivalenti rispetto ai sistemi di addestramento all'avanguardia. Infine, condividiamo la nostra esperienza nello sviluppo e nel funzionamento di AXLearn.
I recenti progressi nei modelli di diffusione su grafi (GDMs) hanno reso possibile la sintesi di strutture di rete realistiche, ma garantire l'equità nei dati generati rimane una sfida cruciale. Le soluzioni esistenti cercano di mitigare i pregiudizi riaddestrando i GDMs con vincoli di equità ad hoc. Al contrario, con questo lavoro proponiamo FAROS, un nuovo framework per la generazione di grafi equi (FAir graph geneRatiOn) che sfrutta meccanismi di commutazione degli attributi (attribute Switching) e opera direttamente durante il processo di generazione del GDM pre-addestrato. Tecnicamente, il nostro approccio agisce alterando gli attributi sensibili dei nodi durante la generazione. A tal fine, FAROS calcola la frazione ottimale di nodi da commutare e seleziona il passo di diffusione in cui eseguire la commutazione, impostando vincoli multi-criterio su misura per preservare il profilo topologico dei nodi dalla distribuzione originale (un proxy per l'accuratezza) garantendo al contempo l'indipendenza degli archi rispetto agli attributi sensibili nel grafo generato (un proxy per l'equità). I nostri esperimenti su dataset di riferimento per la previsione di collegamenti dimostrano che l'approccio proposto riduce efficacemente le discrepanze di equità mantenendo prestazioni di accuratezza comparabili (o addirittura superiori) rispetto ad altre baseline simili. È degno di nota che FAROS riesca a raggiungere un migliore compromesso tra accuratezza ed equità rispetto ad altri concorrenti in alcune delle configurazioni testate sotto il concetto di ottimalità paretiana, dimostrando l'efficacia dei vincoli multi-criterio imposti.