Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli Vision-Language-Action (VLA) colmano tipicamente il divario tra gli spazi percettivi e quelli d'azione pre-addestrando un modello Vision-Language (VLM) su larga scala con dati robotici. Sebbene questo approccio migliori notevolmente le prestazioni, comporta anche costi di addestramento significativi. In questo articolo, indaghiamo come collegare efficacemente le rappresentazioni vision-language (VL) all'azione (A). Introduciamo VLA-Adapter, un paradigma innovativo progettato per ridurre la dipendenza dei modelli VLA da VLM su larga scala e da un esteso pre-addestramento. A tal fine, analizziamo sistematicamente l'efficacia di varie condizioni VL e presentiamo risultati chiave su quali condizioni sono essenziali per collegare gli spazi percettivi e d'azione. Sulla base di queste intuizioni, proponiamo un modulo Policy leggero con Bridge Attention, che inietta autonomamente la condizione ottimale nello spazio d'azione. In questo modo, il nostro metodo raggiunge alte prestazioni utilizzando solo un backbone da 0,5 miliardi di parametri, senza alcun pre-addestramento su dati robotici. Esperimenti estesi su benchmark robotici sia simulati che nel mondo reale dimostrano che VLA-Adapter non solo raggiunge prestazioni di livello state-of-the-art, ma offre anche la velocità di inferenza più rapida riportata fino ad oggi. Inoltre, grazie al paradigma avanzato di collegamento proposto, VLA-Adapter consente l'addestramento di un potente modello VLA in sole 8 ore su una singola GPU di livello consumer, abbattendo notevolmente le barriere alla distribuzione del modello VLA. Pagina del progetto: https://vla-adapter.github.io/.
I metodi di Generazione di Video Centrati sull'Uomo (HCVG) mirano a sintetizzare video umani a partire da input multimodali, inclusi testo, immagini e audio. I metodi esistenti faticano a coordinare efficacemente queste modalità eterogenee a causa di due sfide principali: la scarsità di dati di formazione con condizioni triplette abbinate e la difficoltà di collaborare tra i sotto-compiti di preservazione del soggetto e sincronizzazione audio-visiva con input multimodali. In questo lavoro, presentiamo HuMo, un framework HCVG unificato per il controllo multimodale collaborativo. Per la prima sfida, abbiamo costruito un dataset di alta qualità con testo, immagini di riferimento e audio abbinate e diversificate. Per la seconda sfida, proponiamo un paradigma di formazione multimodale progressiva in due fasi con strategie specifiche per ciascun compito. Per il compito di preservazione del soggetto, per mantenere le capacità di seguire i prompt e di generazione visiva del modello di base, adottiamo una strategia di iniezione di immagini minimamente invasiva. Per il compito di sincronizzazione audio-visiva, oltre al comunemente adottato livello di cross-attention audio, proponiamo una strategia di focus-by-predicting che guida implicitamente il modello ad associare l'audio alle regioni facciali. Per l'apprendimento congiunto delle controllabilità attraverso input multimodali, basandoci sulle capacità precedentemente acquisite, incorporiamo progressivamente il compito di sincronizzazione audio-visiva. Durante l'inferenza, per un controllo multimodale flessibile e granulare, progettiamo una strategia di Classifier-Free Guidance adattiva nel tempo che regola dinamicamente i pesi di guida attraverso i passaggi di denoising. I risultati sperimentali estesi dimostrano che HuMo supera i metodi specializzati all'avanguardia nei sotto-compiti, stabilendo un framework unificato per la HCVG condizionata multimodale collaborativa. Pagina del progetto: https://phantom-video.github.io/HuMo.
I modelli Vision-Language-Action (VLA) sono recentemente emersi come un potente paradigma per la manipolazione robotica. Nonostante i notevoli progressi resi possibili dal pre-addestramento su larga scala e dalla messa a punto supervisionata (SFT), questi modelli affrontano due sfide fondamentali: (i) la scarsità e l'elevato costo delle traiettorie robotiche su larga scala operate da esseri umani necessarie per il ridimensionamento dell'SFT, e (ii) la limitata generalizzazione a compiti che coinvolgono uno spostamento di distribuzione. Recenti progressi nei Large Reasoning Models (LRM) dimostrano che l'apprendimento per rinforzo (RL) può migliorare drasticamente le capacità di ragionamento passo-passo, sollevando una domanda naturale: l'RL può migliorare in modo simile la pianificazione delle azioni passo-passo a lungo termine dei VLA? In questo lavoro, introduciamo SimpleVLA-RL, un framework RL efficiente progettato per i modelli VLA. Basandoci su veRL, introduciamo il campionamento di traiettorie specifico per VLA, la parallelizzazione scalabile, il rendering multi-ambiente e il calcolo ottimizzato della perdita. Applicato a OpenVLA-OFT, SimpleVLA-RL raggiunge prestazioni SoTA su LIBERO e supera persino pi_0 su RoboTwin 1.0\&2.0 con le strategie di potenziamento dell'esplorazione che introduciamo. SimpleVLA-RL non solo riduce la dipendenza da dati su larga scala e consente una generalizzazione robusta, ma supera anche notevolmente l'SFT nei compiti del mondo reale. Inoltre, identifichiamo un nuovo fenomeno chiamato "pushcut" durante l'addestramento RL, in cui la politica scopre schemi precedentemente non visti oltre a quelli osservati nel processo di addestramento precedente. Github: https://github.com/PRIME-RL/SimpleVLA-RL
I modelli linguistici di grandi dimensioni (LLM) possiedono una vasta conoscenza del mondo e una forte capacità di ragionamento generico, ma faticano a imparare da molti esempi contestuali nelle attività standard di machine learning (ML), ovvero a sfruttare dimostrazioni many-shot esclusivamente tramite apprendimento in contesto (ICL) senza discesa del gradiente. Introduciamo MachineLearningLM, un framework portatile di pre-addestramento continuato che equipaggia un LLM generico con una robusta capacità di ML in contesto, preservando al contempo la sua conoscenza generale e il ragionamento per flussi di lavoro di chat più ampi. La nostra procedura di pre-addestramento sintetizza attività di ML da milioni di modelli causali strutturali (SCM), coprendo conteggi di shot fino a 1.024. Partiamo da un insegnante basato su foreste casuali, distillando strategie decisionali basate su alberi nell'LLM per rafforzare la robustezza nella modellazione numerica. Tutte le attività sono serializzate con un prompt efficiente in termini di token, consentendo da 3x a 6x più esempi per finestra contestuale e offrendo fino a 50x di throughput ammortizzato tramite inferenza batch. Nonostante una configurazione modesta (Qwen-2.5-7B-Instruct con rango LoRA 8), MachineLearningLM supera i forti baseline di LLM (ad esempio, GPT-5-mini) in media di circa il 15% nella classificazione tabulare fuori distribuzione in ambiti come finanza, fisica, biologia e sanità. Mostra una sorprendente legge di scala many-shot: l'accuratezza aumenta in modo monotono man mano che le dimostrazioni in contesto crescono da 8 a 1.024. Senza alcun addestramento specifico per il compito, raggiunge un'accuratezza a livello di foreste casuali su centinaia di shot. Le capacità generali di chat, inclusa conoscenza e ragionamento, sono preservate: ottiene il 75,4% su MMLU.
I modelli linguistici di grandi dimensioni per la conversione da voce a voce (SLLM) stanno attirando un'attenzione crescente. Derivati dai modelli linguistici di grandi dimensioni basati su testo (LLM), gli SLLM spesso mostrano un degrado nelle capacità di conoscenza e ragionamento. Ipotesizziamo che questa limitazione derivi dal fatto che gli attuali paradigmi di addestramento per gli SLLM non riescono a colmare il divario acustico-semantico nello spazio di rappresentazione delle caratteristiche. Per affrontare questo problema, proponiamo EchoX, che sfrutta rappresentazioni semantiche e genera dinamicamente obiettivi di addestramento vocali. Questo approccio integra sia l'apprendimento acustico che quello semantico, consentendo a EchoX di preservare forti capacità di ragionamento come modello linguistico vocale. I risultati sperimentali dimostrano che EchoX, con circa seimila ore di dati di addestramento, raggiunge prestazioni avanzate su molteplici benchmark di risposta a domande basate sulla conoscenza. Il progetto è disponibile all'indirizzo https://github.com/FreedomIntelligence/EchoX.
I recenti progressi nella generazione di video di avatar guidati dall'audio hanno significativamente migliorato il realismo audio-visivo. Tuttavia, i metodi esistenti trattano il condizionamento delle istruzioni semplicemente come un tracciamento di basso livello guidato da segnali acustici o visivi, senza modellare lo scopo comunicativo trasmesso dalle istruzioni. Questa limitazione compromette la coerenza narrativa e l'espressività dei personaggi. Per colmare questa lacuna, introduciamo Kling-Avatar, un nuovo framework a cascata che unisce la comprensione multimodale delle istruzioni con la generazione fotorealistica di ritratti. Il nostro approccio adotta una pipeline in due fasi. Nella prima fase, progettiamo un direttore basato su un modello linguistico multimodale di grandi dimensioni (MLLM) che produce un video blueprint condizionato da segnali di istruzione diversi, governando così la semantica di alto livello come il movimento e le emozioni del personaggio. Nella seconda fase, guidati dai fotogrammi chiave del blueprint, generiamo in parallelo più sotto-clip utilizzando una strategia di primo-ultimo fotogramma. Questo framework globale-locale preserva i dettagli fini codificando fedelmente l'intento di alto livello dietro le istruzioni multimodali. La nostra architettura parallela consente anche una generazione rapida e stabile di video di lunga durata, rendendola adatta ad applicazioni del mondo reale come lo streaming di esseri umani digitali e il vlogging. Per valutare in modo completo il nostro metodo, abbiamo costruito un benchmark di 375 campioni curati che coprono istruzioni diverse e scenari impegnativi. Esperimenti estensivi dimostrano che Kling-Avatar è in grado di generare video vividi, fluidi e di lunga durata fino a 1080p e 48 fps, ottenendo prestazioni superiori in termini di precisione nella sincronizzazione labiale, espressività emotiva e dinamica, controllabilità delle istruzioni, conservazione dell'identità e generalizzazione cross-dominio. Questi risultati stabiliscono Kling-Avatar come un nuovo punto di riferimento per la sintesi di avatar guidati dall'audio semanticamente fondata e ad alta fedeltà.
Nei compiti a lungo termine, i recenti agenti basati su Modelli Linguistici di Grande Scala (LLM) affrontano una sfida significativa: le ricompense sparse e basate sui risultati rendono difficile attribuire il merito ai passaggi intermedi. I metodi precedenti si concentrano principalmente sulla creazione di segnali di ricompensa densi per guidare l'apprendimento, sia attraverso tecniche tradizionali di apprendimento per rinforzo come l'apprendimento per rinforzo inverso, sia utilizzando Modelli di Ricompensa Processuale per un feedback passo-passo. In questo articolo, identifichiamo un problema fondamentale nella dinamica di apprendimento degli LLM: l'entità dei gradienti della politica è intrinsecamente accoppiata con l'entropia, il che porta a piccoli aggiornamenti inefficienti per azioni corrette e sicure, e potenzialmente destabilizza aggiornamenti ampi per azioni incerte. Per risolvere ciò, proponiamo i Gradienti della Politica Modulati dall'Entropia (EMPG), un framework che ricalibra il segnale di apprendimento basandosi sull'incertezza passo-passo e sul risultato finale del compito. L'EMPG amplifica gli aggiornamenti per azioni corrette e sicure, penalizza gli errori sicuri e attenua gli aggiornamenti derivanti da passaggi incerti per stabilizzare l'esplorazione. Introduciamo inoltre un termine bonus per la chiarezza futura che incoraggia gli agenti a trovare percorsi di soluzione più prevedibili. Attraverso esperimenti completi su tre compiti impegnativi per agenti, WebShop, ALFWorld e Deep Search, dimostriamo che l'EMPG ottiene miglioramenti sostanziali nelle prestazioni e supera significativamente i baseline dei gradienti della politica. La pagina del progetto è disponibile all'indirizzo https://empgseed-seed.github.io/.
Il progresso dei modelli open-source di generazione di immagini da testo (T2I) è stato ostacolato dall'assenza di dataset su larga scala focalizzati sul ragionamento e di benchmark di valutazione completi, determinando un divario prestazionale rispetto ai principali sistemi closed-source. Per affrontare questa sfida, introduciamo FLUX-Reason-6M e PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark). FLUX-Reason-6M è un dataset massiccio composto da 6 milioni di immagini di alta qualità generate da FLUX e 20 milioni di descrizioni bilingue (inglese e cinese) progettate specificamente per insegnare ragionamenti complessi. Le immagini sono organizzate secondo sei caratteristiche chiave: Immaginazione, Entità, Rendering del testo, Stile, Affezione e Composizione, e includono una dettagliata Catena di Pensiero per la Generazione (GCoT) che fornisce una suddivisione precisa dei passaggi di generazione delle immagini. L'intera curatela dei dati ha richiesto 15.000 giorni di GPU A100, offrendo alla comunità una risorsa precedentemente irraggiungibile al di fuori dei grandi laboratori industriali. PRISM-Bench propone un nuovo standard di valutazione con sette tracce distinte, inclusa una sfida impegnativa con Testo Lungo utilizzando GCoT. Attraverso prompt progettati con cura, sfrutta modelli avanzati di visione e linguaggio per una valutazione sfumata e allineata all'umano dell'allineamento prompt-immagine e dell'estetica delle immagini. La nostra valutazione estesa di 19 modelli leader su PRISM-Bench rivela divari prestazionali critici e mette in luce aree specifiche che richiedono miglioramenti. Il nostro dataset, benchmark e codice di valutazione sono rilasciati per catalizzare la prossima ondata di generazione T2I orientata al ragionamento. Pagina del progetto: https://flux-reason-6m.github.io/.
In questo articolo, introduciamo un paradigma innovativo attraverso la lente dell'Auto-Encoder, dove la comprensione funge da codificatore (I2T) che comprime le immagini in testo, e la generazione agisce come decodificatore (T2I) che ricostruisce le immagini a partire da tale testo. Utilizzando la fedeltà di ricostruzione come obiettivo di addestramento unificato, rafforziamo il flusso bidirezionale coerente di informazioni tra i processi di comprensione e generazione, ottenendo benefici reciproci. Per implementare ciò, proponiamo UAE, un nuovo framework per l'apprendimento multimodale unificato. Iniziamo pre-addestrando il decodificatore con didascalie di immagini a contesto lungo su larga scala, per catturare relazioni semantiche dettagliate e complesse relazioni spaziali. Successivamente, proponiamo Unified-GRPO tramite apprendimento per rinforzo (RL), che copre tre fasi: (1) Una fase di avvio a freddo per inizializzare delicatamente sia il codificatore che il decodificatore con una perdita di ricostruzione semantica; (2) Generazione per la Comprensione, dove il codificatore viene addestrato a generare didascalie informative che massimizzano la qualità di ricostruzione del decodificatore, migliorando la sua comprensione visiva; (3) Comprensione per la Generazione, dove il decodificatore viene affinato per ricostruire a partire da queste didascalie, costringendolo a sfruttare ogni dettaglio e migliorando la sua capacità di seguire istruzioni a contesto lungo e la fedeltà di generazione. Per la valutazione, introduciamo Unified-Bench, il primo benchmark progettato per valutare il grado di unificazione degli UMM. Un sorprendente "momento di intuizione" emerge nel dominio dell'apprendimento multimodale: man mano che l'RL progredisce, il codificatore produce autonomamente didascalie più descrittive, mentre il decodificatore dimostra contemporaneamente una profonda capacità di comprendere queste descrizioni intricate, risultando in ricostruzioni di straordinaria fedeltà.
Sono stati compiuti progressi significativi nel campo dell'intelligenza spaziale, che abbraccia sia la ricostruzione spaziale che l'esplorazione del mondo. Tuttavia, la scalabilità e la fedeltà al mondo reale dei modelli attuali rimangono fortemente limitate dalla scarsità di dati di addestramento su larga scala e di alta qualità. Sebbene diversi dataset forniscano informazioni sulla posa della camera, sono tipicamente limitati in termini di scala, diversità e ricchezza delle annotazioni, specialmente per scene dinamiche del mondo reale con movimenti della camera ground-truth. A tal fine, abbiamo raccolto SpatialVID, un dataset composto da un ampio corpus di video in ambienti reali con scene diversificate, movimenti della camera e annotazioni 3D dense come pose della camera per fotogramma, profondità e istruzioni di movimento. Nello specifico, abbiamo raccolto oltre 21.000 ore di video grezzi e li abbiamo elaborati in 2,7 milioni di clip attraverso una pipeline di filtraggio gerarchico, per un totale di 7.089 ore di contenuto dinamico. Una successiva pipeline di annotazione arricchisce queste clip con informazioni spaziali e semantiche dettagliate, tra cui pose della camera, mappe di profondità, maschere dinamiche, didascalie strutturate e istruzioni di movimento serializzate. L'analisi delle statistiche dei dati di SpatialVID rivela una ricchezza e una diversità che favoriscono direttamente il miglioramento della generalizzazione e delle prestazioni dei modelli, stabilendolo come una risorsa chiave per la comunità di ricerca sulla visione video e 3D.
I Large Audio Language Model (LALM) stanno progredendo rapidamente, ma la loro valutazione rimane una sfida a causa di toolkit inefficienti che limitano confronti equi e valutazioni sistematiche. Gli attuali framework presentano tre problemi critici: una lenta elaborazione che ostacola studi su larga scala, prompt inconsistenti che compromettono la riproducibilità e una copertura ristretta delle attività che trascura importanti capacità di ragionamento audio. Introduciamo AU-Harness, un framework di valutazione efficiente e completo per i LALM. Il nostro sistema raggiunge un'accelerazione fino al 127% rispetto ai toolkit esistenti grazie a un'elaborazione in batch ottimizzata e un'esecuzione parallela, rendendo possibili valutazioni su larga scala precedentemente impraticabili. Forniamo protocolli di prompt standardizzati e configurazioni flessibili per un confronto equo dei modelli in diversi scenari. Inoltre, introduciamo due nuove categorie di valutazione: Diarizzazione Adattiva per LLM per la comprensione temporale dell'audio e Ragionamento sul Linguaggio Parlato per compiti cognitivi complessi basati sull'audio. Attraverso la valutazione di oltre 380 attività, riveliamo significative lacune negli attuali LALM, in particolare nella comprensione temporale e nei compiti complessi di ragionamento sul linguaggio parlato. Le nostre scoperte evidenziano anche una mancanza di standardizzazione nella modalità di istruzione presente nei benchmark audio, che può portare a differenze di prestazioni fino a 9,5 punti assoluti nei compiti complessi di seguimento delle istruzioni downstream. AU-Harness fornisce sia strumenti pratici di valutazione che approfondimenti sui limiti dei modelli, promuovendo uno sviluppo sistematico dei LALM.
Il Reinforcement Learning con Ricompense Verificabili (RLVR) è un paradigma potente per migliorare le capacità di ragionamento dei Modelli Linguistici di Grande Scala (LLMs). Tuttavia, i metodi RLVR attuali spesso esplorano in modo insufficiente, portando a una convergenza prematura e al collasso dell'entropia. Per affrontare questa sfida, introduciamo l'Esplorazione Guidata dalla Curiosità (CDE), un framework che sfrutta il senso intrinseco di curiosità del modello per guidare l'esplorazione. Formalizziamo la curiosità utilizzando segnali sia dall'attore che dal critico: per l'attore, utilizziamo la perplessità rispetto alla risposta generata, mentre per il critico, utilizziamo la varianza delle stime di valore provenienti da un'architettura multi-testina. Entrambi i segnali fungono da bonus di esplorazione all'interno del framework RLVR per guidare il modello. La nostra analisi teorica dimostra che il bonus relativo all'attore penalizza intrinsecamente gli errori di eccessiva sicurezza e promuove la diversità tra le risposte corrette; inoltre, colleghiamo il bonus relativo al critico al ben noto bonus di esplorazione basato sul conteggio nel RL. Empiricamente, il nostro metodo ottiene un miglioramento approssimativo di +3 punti rispetto allo standard RLVR utilizzando GRPO/PPO sui benchmark AIME. Un'ulteriore analisi identifica un meccanismo di collasso della calibrazione all'interno di RLVR, gettando luce sui comuni modi di fallimento degli LLM.
I modelli linguistici di tipo encoder-only sono frequentemente utilizzati per una varietà di compiti standard di machine learning, tra cui classificazione e recupero delle informazioni. Tuttavia, la ricerca recente sui modelli encoder è stata limitata, specialmente per quanto riguarda i modelli multilingue. Presentiamo mmBERT, un modello linguistico encoder-only preaddestrato su 3T di token di testo multilingue in oltre 1800 lingue. Per costruire mmBERT, introduciamo diversi elementi innovativi, tra cui una pianificazione del rapporto di mascheramento inverso e un rapporto di campionamento della temperatura inversa. Aggiungiamo oltre 1700 lingue a bassa risorsa al mix di dati solo durante la fase di decadimento, dimostrando che ciò migliora drasticamente le prestazioni e massimizza i guadagni derivanti dalla quantità relativamente piccola di dati di addestramento. Nonostante l'inclusione di queste lingue a bassa risorsa solo nella breve fase di decadimento, otteniamo prestazioni di classificazione simili a modelli come OpenAI's o3 e Google's Gemini 2.5 Pro. Nel complesso, dimostriamo che mmBERT supera significativamente la generazione precedente di modelli nei compiti di classificazione e recupero delle informazioni, sia per le lingue ad alta che a bassa risorsa.
La comprensione dei grafici rappresenta una prova cruciale per le capacità di ragionamento dei Modelli Visione-Linguaggio (VLMs). Gli approcci precedenti presentano limitazioni significative: alcuni si affidano a strumenti esterni, rendendoli fragili e vincolati da un toolkit predefinito, mentre altri adattano modelli specializzati che spesso adottano una singola strategia di ragionamento, come il ragionamento a catena basato su testo (CoT). I passaggi intermedi del ragionamento basato su testo sono difficili da verificare, il che complica l'uso di segnali di apprendimento per rinforzo che premiano l'accuratezza fattuale. Per affrontare questo problema, proponiamo un approccio Code-as-Thought (CaT) per rappresentare le informazioni visive di un grafico in un formato simbolico verificabile. La nostra intuizione chiave è che questa strategia deve essere adattiva: un'implementazione fissa basata esclusivamente sul codice fallisce sistematicamente su grafici complessi dove la rappresentazione simbolica non è adatta. Questa scoperta ci porta a introdurre la Programmabilità Visiva: una proprietà apprendibile che determina se una coppia grafico-domanda è meglio risolta con il codice o con un'analisi visiva diretta. Implementiamo questo concetto in un framework adattivo in cui un VLM impara a scegliere tra il percorso CaT e un percorso di ragionamento visivo diretto. La politica di selezione del modello è addestrata con l'apprendimento per rinforzo utilizzando un nuovo sistema di doppia ricompensa. Questo sistema combina una ricompensa basata sull'accuratezza dei dati per ancorare il modello ai fatti e prevenire allucinazioni numeriche, con una ricompensa decisionale che insegna al modello quando utilizzare ciascuna strategia, impedendogli di ricadere in una singola modalità di ragionamento. Gli esperimenti dimostrano prestazioni solide e robuste su diversi benchmark di comprensione dei grafici. Il nostro lavoro mostra che i VLMs possono essere insegnati non solo a ragionare, ma anche come ragionare, selezionando dinamicamente il percorso di ragionamento ottimale per ogni compito.
La comprensione delle relazioni spaziali 3D rimane una limitazione significativa degli attuali Modelli Visione-Linguaggio (VLMs). Precedenti lavori hanno affrontato questo problema creando dataset di domande e risposte (QA) spaziali basati su singole immagini o video indoor. Tuttavia, gli agenti AI incarnati nel mondo reale, come robot e auto a guida autonoma, si basano tipicamente su osservazioni egocentriche e multi-vista. A tal fine, introduciamo Ego3D-Bench, un nuovo benchmark progettato per valutare le capacità di ragionamento spaziale dei VLMs utilizzando dati egocentrici e multi-vista in ambienti esterni. Ego3D-Bench comprende oltre 8.600 coppie QA, create con un significativo coinvolgimento di annotatori umani per garantire qualità e diversità. Abbiamo valutato 16 VLMs all'avanguardia, tra cui GPT-4o, Gemini1.5-Pro, InternVL3 e Qwen2.5-VL. I nostri risultati rivelano un divario prestazionale notevole tra i punteggi umani e le prestazioni dei VLMs, evidenziando che gli attuali VLMs sono ancora lontani dalla comprensione spaziale umana. Per colmare questa lacuna, proponiamo Ego3D-VLM, un framework post-training che migliora il ragionamento spaziale 3D dei VLMs. Ego3D-VLM genera una mappa cognitiva basata su coordinate 3D globali stimate, ottenendo un miglioramento medio del 12% nelle QA a scelta multipla e del 56% nella stima assoluta della distanza. Ego3D-VLM è modulare e può essere integrato con qualsiasi VLM esistente. Insieme, Ego3D-Bench e Ego3D-VLM offrono strumenti preziosi per progredire verso una comprensione spaziale di livello umano in ambienti reali e multi-vista.
Sebbene il Contrastive Language-Image Pre-training (CLIP) dimostri prestazioni solide in una vasta gamma di task visivi, la sua applicazione all'apprendimento di rappresentazioni di persone affronta due sfide critiche: (i) la scarsità di dati visione-linguaggio su larga scala annotati e focalizzati su immagini centrate sulle persone, e (ii) le limitazioni intrinseche dell'apprendimento contrastivo globale, che fatica a mantenere caratteristiche locali discriminative cruciali per il matching fine-granularità, rimanendo inoltre vulnerabile ai token testuali rumorosi. Questo lavoro avanza CLIP per l'apprendimento di rappresentazioni di persone attraverso miglioramenti sinergici nella cura dei dati e nell'architettura del modello. In primo luogo, sviluppiamo una pipeline di costruzione dei dati resistente al rumore che sfrutta le capacità di in-context learning dei MLLM per filtrare e descrivere automaticamente immagini provenienti dal web. Ciò produce WebPerson, un dataset su larga scala di 5 milioni di coppie immagine-testo di alta qualità centrate sulle persone. In secondo luogo, introduciamo il framework GA-DMS (Gradient-Attention Guided Dual-Masking Synergetic), che migliora l'allineamento cross-modale mascherando adattivamente i token testuali rumorosi in base al punteggio di similarità gradient-attention. Inoltre, incorporiamo obiettivi di predizione di token mascherati che costringono il modello a predire token testuali informativi, migliorando l'apprendimento di rappresentazioni semantiche fine-granularità. Esperimenti estensivi dimostrano che GA-DMS raggiunge prestazioni all'avanguardia su molteplici benchmark.
L'emergenza di modelli linguistici a contesto lungo con finestre contestuali che si estendono a milioni di token ha creato nuove opportunità per una sofisticata comprensione del codice e la valutazione dello sviluppo software. Proponiamo LoCoBench, un benchmark completo progettato specificamente per valutare i modelli linguistici a contesto lungo (LLM) in scenari realistici e complessi di sviluppo software. A differenza dei benchmark di valutazione del codice esistenti che si concentrano sul completamento di singole funzioni o su compiti a contesto breve, LoCoBench affronta il gap critico di valutazione per le capacità a contesto lungo che richiedono la comprensione di interi codebase, il ragionamento attraverso più file e il mantenimento della coerenza architetturale in sistemi software su larga scala. Il nostro benchmark fornisce 8.000 scenari di valutazione generati sistematicamente in 10 linguaggi di programmazione, con lunghezze contestuali che vanno da 10K a 1M token, una variazione di 100x che consente una valutazione precisa del degrado delle prestazioni a contesto lungo in contesti realistici di sviluppo software. LoCoBench introduce 8 categorie di compiti che catturano capacità essenziali a contesto lungo: comprensione architetturale, refactoring cross-file, sviluppo multi-sessione, investigazione di bug, implementazione di funzionalità, comprensione del codice, test di integrazione e analisi della sicurezza. Attraverso una pipeline a 5 fasi, creiamo scenari diversificati e di alta qualità che mettono alla prova i modelli linguistici nel ragionare su codebase complessi su una scala senza precedenti. Introduciamo un framework di valutazione completo con 17 metriche suddivise in 4 dimensioni, inclusi 8 nuovi indicatori di valutazione, combinati in un punteggio LoCoBench (LCBS). La nostra valutazione dei modelli a contesto lungo all'avanguardia rivela significativi gap di prestazione, dimostrando che la comprensione a contesto lungo nello sviluppo software complesso rappresenta una sfida significativa e irrisolta che richiede maggiore attenzione. LoCoBench è disponibile all'indirizzo: https://github.com/SalesforceAIResearch/LoCoBench.
Il Gaussian Splatting (GS), una tecnica recente per convertire punti discreti in rappresentazioni spaziali continue, ha mostrato risultati promettenti nella modellazione di scene 3D e nella super-risoluzione di immagini 2D. In questo articolo, esploriamo il suo potenziale inesplorato per l'image inpainting, che richiede sia una sintesi di pixel localmente coerente sia un ripristino semanticamente consistente a livello globale. Proponiamo il primo framework di image inpainting basato su Gaussian Splatting 2D, che codifica immagini incomplete in un campo continuo di coefficienti di splat gaussiani 2D e ricostruisce l'immagine finale attraverso un processo di rasterizzazione differenziabile. Il paradigma di rendering continuo del GS promuove intrinsecamente la coerenza a livello di pixel nei risultati dell'inpainting. Per migliorare l'efficienza e la scalabilità, introduciamo una strategia di rasterizzazione a patch che riduce l'overhead di memoria e accelera l'inferenza. Per la consistenza semantica globale, incorporiamo feature da un modello DINO pre-addestrato. Osserviamo che le feature globali di DINO sono naturalmente robuste rispetto a piccole regioni mancanti e possono essere efficacemente adattate per guidare l'allineamento semantico in scenari con maschere ampie, garantendo che il contenuto riempito rimanga contestualmente coerente con la scena circostante. Esperimenti estensivi su benchmark standard dimostrano che il nostro metodo raggiunge prestazioni competitive sia nelle metriche quantitative che nella qualità percettiva, stabilendo una nuova direzione per l'applicazione del Gaussian Splatting all'elaborazione di immagini 2D.
Il nostro team, All You Need Is A Fuzzing Brain, è stato uno dei sette finalisti della Artificial Intelligence Cyber Challenge (AIxCC) di DARPA, classificandosi al quarto posto nel round finale. Durante la competizione, abbiamo sviluppato un Cyber Reasoning System (CRS) che ha scoperto autonomamente 28 vulnerabilità di sicurezza - inclusi sei zero-day precedentemente sconosciuti - in progetti open-source reali scritti in C e Java, e ha corretto con successo 14 di esse. Il CRS completo è open source e disponibile all'indirizzo https://github.com/o2lab/afc-crs-all-you-need-is-a-fuzzing-brain. Questo articolo fornisce una descrizione tecnica dettagliata del nostro CRS, con particolare enfasi sui componenti e sulle strategie alimentate da LLM. Basandoci sull'esperienza di AIxCC, introduciamo inoltre una classifica pubblica per valutare gli LLM più avanzati nelle attività di rilevamento e correzione delle vulnerabilità, derivata dal dataset di AIxCC. La classifica è disponibile all'indirizzo https://o2lab.github.io/FuzzingBrain-Leaderboard/.
La navigazione visiva utilizzando solo una singola fotocamera e una mappa topologica è recentemente diventata un'alternativa interessante ai metodi che richiedono sensori aggiuntivi e mappe 3D. Questo è tipicamente ottenuto attraverso un approccio "relativo all'immagine" per stimare il controllo da una data coppia di osservazione corrente e immagine del sottobiettivo. Tuttavia, le rappresentazioni a livello di immagine del mondo hanno limitazioni perché le immagini sono strettamente legate alla posa e all'incarnazione dell'agente. Al contrario, gli oggetti, essendo una proprietà della mappa, offrono una rappresentazione del mondo invariante rispetto all'incarnazione e alla traiettoria. In questo lavoro, presentiamo un nuovo paradigma di apprendimento del controllo "relativo agli oggetti" che mostra diverse caratteristiche desiderabili: a) nuove rotte possono essere percorse senza la necessità di imitare strettamente esperienze precedenti, b) il problema della previsione del controllo può essere disaccoppiato dalla risoluzione del problema di corrispondenza delle immagini, e c) è possibile ottenere un'elevata invarianza nel dispiegamento cross-incarnazione per variazioni sia tra addestramento-testing che tra mappatura-esecuzione. Proponiamo una rappresentazione di mappa topometrica sotto forma di grafo di scena 3D "relativo", che viene utilizzato per ottenere costi di pianificazione del percorso globale più informativi a livello di oggetto. Addestriamo un controller locale, denominato "ObjectReact", condizionato direttamente su una rappresentazione ad alto livello di "WayObject Costmap" che elimina la necessità di un input RGB esplicito. Dimostriamo i vantaggi dell'apprendimento del controllo relativo agli oggetti rispetto alla sua controparte relativa all'immagine attraverso variazioni dell'altezza del sensore e molteplici compiti di navigazione che mettono alla prova la capacità di comprensione spaziale sottostante, ad esempio, navigare una traiettoria della mappa in direzione inversa. Mostriamo inoltre che la nostra politica basata solo su simulazione è in grado di generalizzare bene a ambienti reali interni. Il codice e il materiale supplementare sono accessibili tramite la pagina del progetto: https://object-react.github.io/
I recenti progressi nei grandi modelli visione-linguaggio (LVLMs) hanno dimostrato prestazioni robuste in compiti medici di carattere generale. Tuttavia, la loro efficacia in domini specializzati come l'odontoiatria rimane ancora poco esplorata. In particolare, le radiografie panoramiche, una modalità di imaging ampiamente utilizzata in radiologia orale, presentano sfide interpretative a causa delle strutture anatomiche dense e dei segnali patologici sottili, che non sono catturati dai benchmark medici esistenti o dai dataset di istruzioni. A tal fine, introduciamo MMOral, il primo dataset e benchmark su larga scala di istruzioni multimodali progettato specificamente per l'interpretazione delle radiografie panoramiche. MMOral è composto da 20.563 immagini annotate abbinate a 1,3 milioni di istanze di istruzioni che coprono diversi tipi di task, tra cui estrazione di attributi, generazione di report, risposta a domande visive e dialogo basato su immagini. Inoltre, presentiamo MMOral-Bench, una suite di valutazione completa che copre cinque dimensioni diagnostiche chiave in odontoiatria. Abbiamo valutato 64 LVLMs su MMOral-Bench e abbiamo riscontrato che anche il modello con le migliori prestazioni, ovvero GPT-4o, raggiunge solo una precisione del 41,45%, rivelando significative limitazioni dei modelli attuali in questo dominio. Per promuovere il progresso in questo specifico campo, proponiamo anche OralGPT, che esegue un fine-tuning supervisionato (SFT) su Qwen2.5-VL-7B utilizzando il nostro dataset di istruzioni MMOral accuratamente curato. Notevolmente, una singola epoca di SFT produce sostanziali miglioramenti delle prestazioni per i LVLMs, ad esempio OralGPT dimostra un miglioramento del 24,73%. Sia MMOral che OralGPT rappresentano un potenziale significativo come fondamento critico per l'odontoiatria intelligente e abilitano sistemi di intelligenza artificiale multimodale con un impatto clinico maggiore nel campo odontoiatrico. Il dataset, il modello, il benchmark e la suite di valutazione sono disponibili su https://github.com/isbrycee/OralGPT.
Un paradosso centrale nel fine-tuning dei Large Language Models (LLMs) con il Reinforcement Learning con Ricompensa Verificabile (RLVR) è il frequente deterioramento delle prestazioni su più tentativi (Pass@k) nonostante i miglioramenti nell'accuratezza su singolo tentativo (Pass@1). Questo è spesso accompagnato da un oblio catastrofico, in cui i modelli perdono abilità precedentemente acquisite. Sebbene siano stati proposti vari metodi, la scelta e la funzione del termine di divergenza sono state sorprendentemente poco esaminate come soluzione proattiva. Sosteniamo che gli obiettivi standard dell'RLVR — sia quelli che utilizzano la divergenza KL inversa orientata alla moda, sia quelli che rinunciano del tutto a un termine di divergenza — mancano di un meccanismo cruciale per la conservazione della conoscenza. La KL inversa accelera attivamente questo decadimento restringendo la politica, mentre la sua assenza non fornisce alcuna salvaguardia contro la deriva del modello dalla sua base di conoscenza diversificata. Proponiamo un cambiamento fondamentale di prospettiva: utilizzare il termine di divergenza stesso come soluzione. Il nostro framework, Diversity-Preserving Hybrid RL (DPH-RL), sfrutta le divergenze f di copertura di massa (come la KL diretta e la divergenza JS) per fungere da meccanismo di ripasso. Riferendosi continuamente alla politica iniziale, questo approccio costringe il modello a mantenere un'ampia copertura delle soluzioni. Esperimenti estesi sulla generazione di matematica e SQL dimostrano che DPH-RL non solo risolve il deterioramento di Pass@k, ma migliora sia Pass@1 che Pass@k all'interno e all'esterno del dominio. Inoltre, DPH-RL è più efficiente in termini di addestramento perché calcola la divergenza f utilizzando funzioni generatrici, richiedendo solo campionamenti dalla politica iniziale e nessun modello di riferimento online. Il nostro lavoro evidenzia un asse cruciale e trascurato per migliorare l'RLVR, dimostrando che la corretta selezione di una misura di divergenza è uno strumento potente per costruire modelli di ragionamento più generali e diversificati.
I recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLM) hanno aperto nuove opportunità per l'intelligenza incarnata, consentendo una comprensione, un ragionamento e un'interazione multimodale, nonché un processo decisionale spaziale continuo. Tuttavia, gli attuali sistemi incarnati basati su MLLM affrontano due limitazioni critiche. In primo luogo, il Divario di Adattabilità Geometrica: i modelli addestrati esclusivamente su input 2D o con un'iniezione di geometria 3D predefinita soffrono di informazioni spaziali insufficienti o di una generalizzazione 2D limitata, portando a una scarsa adattabilità tra compiti con diverse esigenze spaziali. In secondo luogo, il Divario dei Vincoli di Incarnazione: i lavori precedenti spesso trascurano i vincoli fisici e le capacità dei robot reali, risultando in piani di compito teoricamente validi ma praticamente irrealizzabili. Per affrontare queste lacune, introduciamo OmniEVA -- un pianificatore versatile incarnato che abilita un ragionamento avanzato e una pianificazione dei compiti attraverso due innovazioni fondamentali: (1) un Meccanismo di Ancoraggio 3D Adattivo al Compito, che introduce un router controllato per eseguire una regolazione selettiva esplicita della fusione 3D basata sui requisiti contestuali, consentendo un ancoraggio 3D consapevole del contesto per vari compiti incarnati. (2) un Framework di Ragionamento Consapevole dell'Incarnazione che incorpora congiuntamente gli obiettivi del compito e i vincoli di incarnazione nel ciclo di ragionamento, risultando in decisioni di pianificazione sia orientate agli obiettivi che eseguibili. I risultati sperimentali estesi dimostrano che OmniEVA non solo raggiunge prestazioni all'avanguardia nel ragionamento incarnato generale, ma mostra anche una forte capacità in un'ampia gamma di scenari downstream. Le valutazioni di una serie di benchmark incarnati proposti, inclusi compiti sia primitivi che compositi, confermano le sue robuste e versatili capacità di pianificazione. Pagina del progetto: https://omnieva.github.io
Le prime ricerche sugli attacchi di avvelenamento dei dati contro i Large Language Models (LLM) hanno dimostrato la facilità con cui è possibile iniettare backdoor. I modelli LLM più recenti incorporano un ragionamento passo-passo, ampliando la superficie di attacco per includere la catena di pensiero (CoT) intermedia e la sua caratteristica intrinseca di scomporre i problemi in sottoproblemi. Utilizzando questi vettori per un avvelenamento più subdolo, introduciamo il "veleno del ragionamento scomposto", in cui l'attaccante modifica solo il percorso di ragionamento, lasciando intatti i prompt e le risposte finali, e suddivide il trigger in più componenti individualmente innocue. Curiosamente, sebbene sia ancora possibile iniettare questi veleni scomposti, attivarli in modo affidabile per modificare le risposte finali (piuttosto che solo la CoT) è sorprendentemente difficile. Questa difficoltà deriva dal fatto che i modelli possono spesso recuperare da backdoor attivati all'interno dei loro processi di pensiero. In definitiva, sembra che una forma emergente di robustezza ai backdoor stia originando dalle capacità di ragionamento di questi LLM avanzati, nonché dalla separazione architetturale tra il ragionamento e la generazione delle risposte finali.
Le soluzioni di deep learning per il rilevamento delle vulnerabilità proposte nella ricerca accademica non sono sempre accessibili agli sviluppatori, e la loro applicabilità in contesti industriali viene raramente affrontata. Il trasferimento di tali tecnologie dal mondo accademico all'industria presenta sfide legate all'affidabilità, ai sistemi legacy, alla limitata alfabetizzazione digitale e al divario tra competenze accademiche e industriali. Per il deep learning in particolare, le prestazioni e l'integrazione nei flussi di lavoro esistenti rappresentano ulteriori preoccupazioni. In questo lavoro, valutiamo innanzitutto le prestazioni di CodeBERT nel rilevare funzioni vulnerabili in software industriale e open-source. Analizziamo la sua generalizzazione cross-domain quando viene addestrato su dati open-source e testato su dati industriali, e viceversa, esplorando anche strategie per gestire lo squilibrio delle classi. Sulla base di questi risultati, sviluppiamo AI-DO (Automating vulnerability detection Integration for Developers' Operations), un sistema di raccomandazione integrato in Continuous Integration-Continuous Deployment (CI/CD) che utilizza CodeBERT addestrato per rilevare e localizzare le vulnerabilità durante la revisione del codice senza interrompere i flussi di lavoro. Infine, valutiamo l'utilità percepita dello strumento attraverso un sondaggio con i professionisti IT dell'azienda. I nostri risultati mostrano che i modelli addestrati su dati industriali rilevano accuratamente le vulnerabilità all'interno dello stesso dominio, ma perdono efficacia sul codice open-source, mentre un modello di deep learning addestrato su dati open, con appropriate tecniche di undersampling, migliora il rilevamento delle vulnerabilità.
I sistemi di raccomandazione multimodale stanno diventando sempre più tecnologie fondamentali per le piattaforme di e-commerce e di contenuti, abilitando servizi personalizzati attraverso la modellazione congiunta dei comportamenti storici degli utenti e delle caratteristiche multimodali degli articoli (ad esempio, visive e testuali). Tuttavia, la maggior parte dei metodi esistenti si basa su strategie di fusione statiche o sulla modellazione delle interazioni locali basate su grafi, affrontando due limitazioni critiche: (1) un'abilità insufficiente nel modellare associazioni cross-modali a grana fine, portando a una qualità di fusione subottimale; e (2) una mancanza di coerenza a livello di distribuzione globale, causando un bias rappresentativo. Per affrontare questi problemi, proponiamo MambaRec, un nuovo framework che integra l'allineamento delle caratteristiche locali e la regolarizzazione della distribuzione globale attraverso l'apprendimento guidato dall'attenzione. Al suo core, introduciamo il Dilated Refinement Attention Module (DREAM), che utilizza convoluzioni dilatate multi-scala con attenzione a livello di canale e spaziale per allineare i pattern semantici a grana fine tra le modalità visive e testuali. Questo modulo cattura relazioni gerarchiche e associazioni contestuali, migliorando la modellazione semantica cross-modale. Inoltre, applichiamo la Maximum Mean Discrepancy (MMD) e funzioni di perdita contrastive per vincolare l'allineamento globale delle modalità, migliorando la coerenza semantica. Questa doppia regolarizzazione riduce le deviazioni specifiche della modalità e aumenta la robustezza. Per migliorare la scalabilità, MambaRec impiega una strategia di riduzione della dimensionalità per abbattere il costo computazionale delle caratteristiche multimodali ad alta dimensionalità. Esperimenti estesi su dataset reali di e-commerce dimostrano che MambaRec supera i metodi esistenti in termini di qualità di fusione, generalizzazione ed efficienza. Il nostro codice è stato reso pubblicamente disponibile all'indirizzo https://github.com/rkl71/MambaRec.