Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli linguistici (LLM) eccellono nel ragionamento, ma il post-addestramento rimane fondamentale per allineare il loro comportamento agli obiettivi del compito. I metodi esistenti di apprendimento per rinforzo (RL) spesso dipendono da costose annotazioni umane o da modelli esterni di ricompensa. Proponiamo l'Apprendimento per Rinforzo tramite Autoconfidenza (RLSC), che utilizza la fiducia del modello stesso come segnali di ricompensa, eliminando la necessità di etichette, modelli di preferenza o ingegnerizzazione delle ricompense. Applicato a Qwen2.5-Math-7B con solo 16 campioni per domanda e 10 o 20 passi di addestramento, RLSC migliora l'accuratezza del +13,4% su AIME2024, del +21,2% su MATH500, del +21,7% su Minerva Math, del +20,8% su Olympiadbench e del +9,7% su AMC23. RLSC fornisce un metodo semplice e scalabile per il post-addestramento di modelli di inferenza, richiedendo solo un piccolo numero di campioni e supervisione non etichettata.
Notevoli progressi nella modellazione a diffusione hanno portato a rapidi miglioramenti nella generazione di video, tuttavia i modelli fondazionali attuali devono ancora affrontare sfide critiche nel bilanciare simultaneamente l'aderenza alle istruzioni, la plausibilità del movimento e la qualità visiva. In questo rapporto, presentiamo Seedance 1.0, un modello fondazionale per la generazione di video ad alte prestazioni ed efficiente nell'inferenza, che integra diversi miglioramenti tecnici chiave: (i) una cura dei dati multi-sorgente arricchita con didascalie video precise e significative, che consente un apprendimento completo in scenari diversificati; (ii) un design architetturale efficiente con un paradigma di addestramento proposto, che permette di supportare nativamente la generazione multi-shot e l'apprendimento congiunto sia di compiti text-to-video che image-to-video; (iii) approcci post-addestramento ottimizzati con cura, sfruttando il fine-tuning supervisionato granulare e il RLHF specifico per video con meccanismi di ricompensa multi-dimensionali per miglioramenti prestazionali completi; (iv) un'eccellente accelerazione del modello che raggiunge un aumento di velocità di inferenza di ~10x attraverso strategie di distillazione multi-stadio e ottimizzazioni a livello di sistema. Seedance 1.0 può generare un video di 5 secondi in risoluzione 1080p in soli 41,4 secondi (NVIDIA-L20). Rispetto ai modelli di generazione video all'avanguardia, Seedance 1.0 si distingue per una generazione video di alta qualità e veloce, con una fluidità spazio-temporale superiore e stabilità strutturale, un'aderenza precisa alle istruzioni in contesti complessi multi-soggetto, e una coerenza narrativa multi-shot nativa con una rappresentazione coerente del soggetto.
I modelli esistenti per la generazione di video su larga scala sono computazionalmente intensivi, impedendo l'adozione in applicazioni in tempo reale e interattive. In questo lavoro, proponiamo l'addestramento postumo avversariale autoregressivo (AAPT) per trasformare un modello pre-addestrato di diffusione latente di video in un generatore di video in tempo reale e interattivo. Il nostro modello genera autoregressivamente un frame latente alla volta utilizzando una singola valutazione di funzione neurale (1NFE). Il modello può trasmettere il risultato all'utente in tempo reale e ricevere risposte interattive come controlli per generare il frame latente successivo. A differenza degli approcci esistenti, il nostro metodo esplora l'addestramento avversariale come paradigma efficace per la generazione autoregressiva. Ciò non solo ci permette di progettare un'architettura più efficiente per la generazione in un singolo passaggio sfruttando appieno la cache KV, ma consente anche di addestrare il modello in modalità student-forcing, che si dimostra efficace nel ridurre l'accumulo di errori durante la generazione di video lunghi. I nostri esperimenti dimostrano che il nostro modello da 8B raggiunge la generazione di video in streaming in tempo reale a 24fps, con una risoluzione di 736x416 su un singolo H100, o 1280x720 su 8xH100 fino a un minuto di durata (1440 frame). Visita il nostro sito di ricerca all'indirizzo https://seaweed-apt.com/2.
Il contenuto generato dall'IA è evoluto da modelli monolitici a flussi di lavoro modulari, in particolare su piattaforme come ComfyUI, consentendo la personalizzazione nelle pipeline creative. Tuttavia, la creazione di flussi di lavoro efficaci richiede una grande esperienza per orchestrare numerosi componenti specializzati, presentando una curva di apprendimento ripida per gli utenti. Per affrontare questa sfida, introduciamo ComfyUI-R1, il primo modello di ragionamento su larga scala per la generazione automatica di flussi di lavoro. Partendo dal nostro dataset curato di 4K flussi di lavoro, costruiamo dati di ragionamento a catena lunga (CoT), inclusa la selezione dei nodi, la pianificazione del flusso di lavoro e la rappresentazione del flusso di lavoro a livello di codice. ComfyUI-R1 viene addestrato attraverso un framework a due fasi: (1) fine-tuning CoT per l'avvio a freddo, adattando i modelli al dominio ComfyUI; (2) apprendimento per rinforzo per incentivare la capacità di ragionamento, guidato da una ricompensa ibrida regola-metrica fine, garantendo la validità del formato, l'integrità strutturale e la fedeltà a livello di nodo. Gli esperimenti mostrano che il nostro modello da 7 miliardi di parametri raggiunge un tasso di validità del formato del 97%, insieme a un alto tasso di successo, punteggi F1 a livello di nodo e di grafo, superando significativamente i precedenti metodi all'avanguardia che impiegano modelli proprietari leader come GPT-4o e la serie Claude. Un'ulteriore analisi evidenzia il ruolo cruciale del processo di ragionamento e il vantaggio di trasformare i flussi di lavoro in codice. Il confronto qualitativo rivela la nostra forza nella sintesi di flussi di lavoro intricati con nodi diversificati, sottolineando il potenziale del ragionamento CoT lungo nella creazione artistica basata sull'IA.
I modelli linguistici autoregressivi di grandi dimensioni (AR-LLMs) mostrano frequentemente un parallelismo implicito nella generazione sequenziale. Ispirati da ciò, introduciamo Multiverse, un nuovo modello generativo che abilita una generazione nativamente parallela. Multiverse internalizza un paradigma MapReduce, generando automaticamente attraverso tre fasi: (i) una fase Map per la scomposizione adattiva dei compiti, (ii) una fase Process per l'esecuzione parallela dei sottocompiti e (iii) una fase Reduce per la sintesi senza perdita dei risultati. Successivamente, costruiamo un modello di ragionamento Multiverse nel mondo reale con una co-progettazione di dati, algoritmo e sistema, consentendo un trasferimento rapido e senza soluzione di continuità dai migliori AR-LLMs. Partendo da catene di ragionamento sequenziali, creiamo Multiverse 1K convertendole in dati di training strutturati utilizzando una pipeline automatizzata assistita da LLM, evitando costose annotazioni umane. Algoritmicamente, progettiamo Multiverse Attention per separare i passaggi di ragionamento paralleli mantenendo la compatibilità con l'attenzione causale per un training efficiente. Sistematicamente, implementiamo Multiverse Engine per abilitare l'inferenza parallela. Esso include uno scheduler dedicato che passa dinamicamente tra generazione sequenziale e parallela, attivato direttamente dal modello. Dopo un fine-tuning di 3 ore con 1K esempi, il nostro Multiverse-32B si posiziona come l'unico modello non-AR open-source che raggiunge prestazioni pari ai migliori AR-LLMs della stessa scala, come evidenziato dai punteggi AIME24 e 25 rispettivamente del 54% e 46%. Inoltre, i nostri esperimenti di controllo del budget mostrano che Multiverse-32B presenta un ridimensionamento superiore, superando gli AR-LLMs in media dell'1,87% utilizzando la stessa lunghezza di contesto. Tale ridimensionamento porta ulteriormente a un guadagno pratico di efficienza, raggiungendo fino a 2x di accelerazione su diverse dimensioni di batch. Abbiamo reso open-source l'intero ecosistema Multiverse, inclusi dati, pesi del modello, engine, strumenti di supporto, nonché prompt completi per la cura dei dati e ricette dettagliate per il training e la valutazione.
Presentiamo PlayerOne, il primo simulatore realistico di mondi egocentrici, che facilita un'esplorazione immersiva e senza restrizioni all'interno di ambienti vividamente dinamici. Data un'immagine di scena egocentrica da parte dell'utente, PlayerOne è in grado di costruire accuratamente il mondo corrispondente e generare video egocentrici strettamente allineati con il movimento umano reale della scena catturato da una telecamera esocentrica. PlayerOne viene addestrato attraverso una pipeline che va dal generale al particolare, iniziando con un pre-addestramento su coppie testo-video egocentriche su larga scala per una comprensione egocentrica di livello generale, seguito da un affinamento su dati video-movimento sincroni estratti da dataset video egocentrici-esocentrici con la nostra pipeline di costruzione automatica. Inoltre, considerando l'importanza variabile delle diverse componenti, abbiamo progettato uno schema di iniezione del movimento scomposto in parti, che consente un controllo preciso dei movimenti a livello di parti. Abbiamo inoltre ideato un framework di ricostruzione congiunta che modella progressivamente sia la scena 4D che i fotogrammi video, garantendo la coerenza della scena nella generazione di video di lunga durata. I risultati sperimentali dimostrano una grande capacità di generalizzazione nel controllo preciso di vari movimenti umani e nella modellazione coerente del mondo di scenari diversi. Questo lavoro rappresenta il primo tentativo di simulazione egocentrica del mondo reale e può aprire la strada alla comunità per esplorare nuove frontiere nella modellazione del mondo e nelle sue diverse applicazioni.
I recenti progressi nella generazione di musica da testo hanno permesso ai modelli di sintetizzare segmenti musicali di alta qualità, composizioni complete e persino di rispondere a segnali di controllo granulari, come le progressioni di accordi. I sistemi all'avanguardia (SOTA) differiscono significativamente in molte dimensioni, come i dataset di addestramento, i paradigmi di modellazione e le scelte architetturali. Questa diversità complica gli sforzi per valutare i modelli in modo equo e identificare quali scelte progettuali influenzano maggiormente le prestazioni. Sebbene fattori come i dati e l'architettura siano importanti, in questo studio ci concentriamo esclusivamente sul paradigma di modelizzazione. Eseguiamo un'analisi empirica sistematica per isolare i suoi effetti, offrendo approfondimenti sui compromessi associati e sui comportamenti emergenti che possono guidare i futuri sistemi di generazione di musica da testo. In particolare, confrontiamo i due paradigmi di modellazione probabilmente più comuni: il decoding Auto-Regressivo e il Conditional Flow-Matching. Eseguiamo un confronto controllato addestrando tutti i modelli da zero utilizzando dataset identici, configurazioni di addestramento simili e architetture di backbone simili. Le prestazioni vengono valutate su più assi, tra cui la qualità della generazione, la robustezza alle configurazioni di inferenza, la scalabilità, l'aderenza sia al condizionamento testuale che a quello temporalmente allineato, e le capacità di editing sotto forma di inpainting audio. Questo studio comparativo mette in luce i punti di forza e le limitazioni distintive di ciascun paradigma, fornendo approfondimenti pratici che possono informare le future decisioni architetturali e di addestramento nel panorama in evoluzione della generazione di musica da testo. Esempi audio campionati sono disponibili all'indirizzo: https://huggingface.co/spaces/ortal1602/ARvsFM
Introduciamo SeerAttention-R, un framework di attenzione sparsa specificamente progettato per il lungo decoding di modelli di ragionamento. Estendendo SeerAttention, SeerAttention-R mantiene il design di apprendimento della sparsità dell'attenzione attraverso un meccanismo di gating auto-distillato, rimuovendo però il pooling delle query per adattarsi al decoding auto-regressivo. Con un gating leggero e plug-in, SeerAttention-R è flessibile e può essere facilmente integrato in modelli pre-addestrati esistenti senza modificare i parametri originali. Dimostriamo che SeerAttention-R, addestrato su soli 0,4 miliardi di token, mantiene un'accuratezza di ragionamento quasi senza perdite con un budget di 4K token nel benchmark AIME, utilizzando grandi dimensioni di blocco di attenzione sparsa (64/128). Utilizzando TileLang, abbiamo sviluppato un kernel di decoding sparsa altamente ottimizzato che raggiunge accelerazioni quasi teoriche fino a 9x rispetto a FlashAttention-3 su GPU H100 con una sparsità del 90%. Il codice è disponibile all'indirizzo: https://github.com/microsoft/SeerAttention.
I Large Reasoning Models (LRM) come o1 e DeepSeek-R1 hanno mostrato progressi significativi nel ragionamento in linguaggio naturale con lunghe catene di pensiero (CoT), ma rimangono inefficienti o imprecisi nel gestire operazioni matematiche complesse. Affrontare queste limitazioni attraverso strumenti computazionali (ad esempio, librerie di calcolo e risolutori simbolici) è promettente, ma introduce una sfida tecnica: il Code Interpreter (CI) porta conoscenze esterne oltre le rappresentazioni testuali interne del modello, rendendo così la combinazione diretta inefficiente. Questo articolo introduce CoRT, un framework di post-training per insegnare agli LRM a sfruttare il CI in modo efficace ed efficiente. Come primo passo, affrontiamo il problema della scarsità di dati sintetizzando dati di ragionamento integrati con codice attraverso l'Hint-Engineering, che inserisce strategicamente diversi suggerimenti in posizioni appropriate per ottimizzare l'interazione LRM-CI. Creiamo manualmente 30 campioni di alta qualità, sui quali eseguiamo il post-training di modelli che vanno da 1,5B a 32B parametri, con fine-tuning supervisionato, fine-tuning con rifiuto e apprendimento per rinforzo. I nostri risultati sperimentali dimostrano che i modelli Hint-Engineering raggiungono miglioramenti assoluti del 4% e dell'8% rispettivamente su DeepSeek-R1-Distill-Qwen-32B e DeepSeek-R1-Distill-Qwen-1.5B, su cinque dataset impegnativi di ragionamento matematico. Inoltre, i modelli Hint-Engineering utilizzano circa il 30% in meno di token per il modello da 32B e il 50% in meno di token per il modello da 1,5B rispetto ai modelli in linguaggio naturale. I modelli e il codice sono disponibili su https://github.com/ChengpengLi1003/CoRT.
I Large Language Model (LLM) sono ormai fondamentali in vari ambiti e hanno dimostrato prestazioni impressionanti. Tuttavia, il progresso si basa sul presupposto che i punteggi dei benchmark siano sia accurati che riproducibili. Dimostriamo che la riproducibilità delle prestazioni degli LLM è fragile: modifiche alla configurazione del sistema, come la dimensione del batch di valutazione, il numero di GPU e la versione della GPU, possono introdurre differenze significative nelle risposte generate. Questo problema è particolarmente evidente nei modelli di ragionamento, dove piccole differenze di arrotondamento nei token iniziali possono propagarsi in catene di pensiero divergenti, influenzando infine l'accuratezza. Ad esempio, con precisione bfloat16 e decodifica greedy, un modello di ragionamento come DeepSeek-R1-Distill-Qwen-7B può mostrare una variazione fino al 9% nell'accuratezza e una differenza di 9.000 token nella lunghezza della risposta a causa di differenze nel numero di GPU, nel tipo e nella dimensione del batch di valutazione. Rintracciamo la causa principale di questa variabilità nella natura non associativa dell'aritmetica in virgola mobile con precisione numerica limitata. Questo lavoro presenta la prima indagine sistematica su come la precisione numerica influisca sulla riproducibilità nell'inferenza degli LLM. Attraverso esperimenti accuratamente controllati su vari hardware, software e impostazioni di precisione, quantifichiamo quando e come le uscite del modello divergono. La nostra analisi rivela che la precisione in virgola mobile, sebbene cruciale per la riproducibilità, è spesso trascurata nelle pratiche di valutazione. Ispirati da ciò, sviluppiamo una pipeline di inferenza leggera, denominata LayerCast, che memorizza i pesi con precisione a 16 bit ma esegue tutti i calcoli in FP32, bilanciando efficienza di memoria e stabilità numerica. Il codice è disponibile all'indirizzo https://github.com/nanomaoli/llm_reproducibility.
Presentiamo **SWE-Flow**, un innovativo framework di sintesi dati basato sullo sviluppo guidato dai test (Test-Driven Development, TDD). A differenza dei dati di ingegneria del software esistenti che si affidano a problemi segnalati da esseri umani, **SWE-Flow** deduce automaticamente i passaggi incrementali di sviluppo direttamente dai test unitari, che racchiudono intrinsecamente requisiti di alto livello. Il cuore di **SWE-Flow** è la costruzione di un Grafo delle Dipendenze a Runtime (Runtime Dependency Graph, RDG), che cattura con precisione le interazioni tra le funzioni, consentendo la generazione di un *piano di sviluppo* strutturato e passo-passo. Ad ogni passaggio, **SWE-Flow** produce una base di codice parziale, i corrispondenti test unitari e le necessarie modifiche al codice, risultando in task TDD completamente verificabili. Con questo approccio, abbiamo generato 16.061 istanze di training e 2.020 istanze di test da progetti reali di GitHub, creando il benchmark **SWE-Flow-Eval**. I nostri esperimenti dimostrano che il fine-tuning di modelli open su questo dataset migliora significativamente le prestazioni nella codifica basata su TDD. Per facilitare ulteriori ricerche, rilasciamo tutto il codice, i dataset, i modelli e le immagini Docker su [Github](https://github.com/Hambaobao/SWE-Flow).
L'animazione umana end-to-end con condizioni multimodali ricche, come testo, immagini e audio, ha raggiunto progressi significativi negli ultimi anni. Tuttavia, la maggior parte dei metodi esistenti è in grado di animare solo un singolo soggetto e di iniettare le condizioni in modo globale, ignorando scenari in cui più concetti possono apparire nello stesso video con interazioni umano-umano e umano-oggetto ricche. Tale presupposto globale impedisce un controllo preciso e per-identità di più concetti, inclusi esseri umani e oggetti, ostacolando così le applicazioni. In questo lavoro, abbandoniamo l'assunzione di singola entità e introduciamo un nuovo framework che impone un forte legame regionale delle condizioni provenienti dalle modalità all'impronta spazio-temporale di ciascuna identità. Date immagini di riferimento di più concetti, il nostro metodo è in grado di inferire automaticamente le informazioni di layout sfruttando un predittore di maschere per abbinare gli indizi di aspetto tra il video denoisato e ciascun aspetto di riferimento. Inoltre, iniettiamo la condizione audio locale nella sua regione corrispondente per garantire un allineamento del layout con la modalità corrispondente in modo iterativo. Questo design consente la generazione di alta qualità di video centrati sull'uomo con più concetti controllabili. I risultati empirici e gli studi di ablazione convalidano l'efficacia del nostro controllo esplicito del layout per condizioni multimodali rispetto alle controparti implicite e ad altri metodi esistenti.
I LLM vengono utilizzati prevalentemente in contesti di comunicazione sincrona, in cui un utente umano e un modello comunicano a turni alternati. Al contrario, molti scenari del mondo reale sono intrinsecamente asincroni. Ad esempio, nelle chat di gruppo, nelle riunioni di team online o nei giochi sociali, non esiste una nozione intrinseca di turni; pertanto, la decisione di quando intervenire costituisce una parte cruciale del processo decisionale del partecipante. In questo lavoro, sviluppiamo un agente LLM asincrono adattativo che, oltre a determinare cosa dire, decide anche quando dirlo. Per valutare il nostro agente, raccogliamo un dataset unico di partite online di Mafia, che include sia partecipanti umani sia il nostro agente asincrono. Nel complesso, il nostro agente si comporta alla pari con i giocatori umani, sia in termini di prestazioni di gioco, sia nella sua capacità di integrarsi con gli altri giocatori umani. La nostra analisi mostra che il comportamento dell'agente nel decidere quando intervenire rispecchia da vicino i modelli umani, sebbene emergano differenze nel contenuto dei messaggi. Rilasciamo tutti i nostri dati e il codice per supportare e incoraggiare ulteriori ricerche su una comunicazione asincrona più realistica tra agenti LLM. Questo lavoro apre la strada all'integrazione dei LLM in contesti di gruppo umani realistici, dall'assistenza nelle discussioni di team agli ambienti educativi e professionali in cui è necessario navigare dinamiche sociali complesse.
Nonostante i rapidi progressi dei modelli linguistici multimodali di grandi dimensioni (MLLMs), questi hanno largamente trascurato l'importanza dell'elaborazione visiva. In un esperimento semplice ma rivelatore, troviamo in modo interessante che i modelli basati esclusivamente sul linguaggio, quando forniti di didascalie per le immagini, possono ottenere prestazioni comparabili o addirittura migliori rispetto agli MLLMs che consumano input visivi grezzi. Ciò suggerisce che gli attuali MLLMs possono generare descrizioni visive accurate ma non riescono a integrarle efficacemente durante il ragionamento. Motivati da questo, proponiamo un semplice framework di perturbazione visiva che migliora la robustezza percettiva senza richiedere modifiche algoritmiche o dati di addestramento aggiuntivi. Il nostro approccio introduce tre perturbazioni mirate: concatenazione di distrattori, mixup che preserva la dominanza e rotazione casuale, che possono essere facilmente integrate nelle pipeline esistenti post-addestramento, inclusi SFT, DPO e GRPO. Attraverso esperimenti estesi su più dataset, dimostriamo miglioramenti consistenti nelle prestazioni di ragionamento matematico, con guadagni comparabili a quelli ottenuti attraverso cambiamenti algoritmici. Inoltre, otteniamo prestazioni competitive tra i modelli open-source da 7B ottimizzati con RL addestrando Qwen2.5-VL-7B con perturbazione visiva. Attraverso studi di ablazione completi, analizziamo l'efficacia di diverse strategie di perturbazione, rivelando che ogni tipo di perturbazione contribuisce in modo unico a diversi aspetti del ragionamento visivo. Le nostre scoperte evidenziano il ruolo cruciale della perturbazione visiva nel ragionamento matematico multimodale: un ragionamento migliore inizia con una visione migliore. Il nostro codice è disponibile all'indirizzo https://github.com/YutingLi0606/Vision-Matters.
Sebbene i modelli visione-linguaggio-azione (VLA) abbiano dimostrato comportamenti robotici promettenti in un'ampia gamma di attività di manipolazione, ottengono tassi di successo limitati quando vengono implementati in nuovi task senza ulteriori adattamenti. Per consentire a queste politiche di interagire in sicurezza con il loro ambiente, è necessario un rilevatore di fallimenti che fornisca un allarme tempestivo, permettendo al robot di fermarsi, tornare indietro o chiedere aiuto. Tuttavia, i rilevatori di fallimenti esistenti vengono addestrati e testati solo su uno o pochi task specifici, mentre i VLA richiedono che il rilevatore sia in grado di generalizzare e individuare fallimenti anche in task non visti e in ambienti nuovi. In questo articolo, introduciamo il problema del rilevamento multitask dei fallimenti e proponiamo SAFE, un rilevatore di fallimenti per politiche robotiche generaliste come i VLA. Analizziamo lo spazio delle caratteristiche dei VLA e scopriamo che questi possiedono una conoscenza di alto livello sufficiente riguardo al successo e al fallimento del task, che è generica tra diversi compiti. Basandoci su questa intuizione, progettiamo SAFE per apprendere dalle caratteristiche interne dei VLA e prevedere un singolo scalare che indica la probabilità di fallimento del task. SAFE viene addestrato su rollout sia riusciti che falliti e viene valutato su task non visti. SAFE è compatibile con diverse architetture di politiche. Lo testiamo su OpenVLA, pi_0 e pi_0-FAST sia in ambienti simulati che nel mondo reale in modo estensivo. Confrontiamo SAFE con diverse baseline e dimostriamo che SAFE raggiunge prestazioni all'avanguardia nel rilevamento dei fallimenti e il miglior compromesso tra accuratezza e tempo di rilevamento utilizzando la previsione conforme. Ulteriori risultati qualitativi sono disponibili su https://vla-safe.github.io/.
I recenti progressi nella generazione di oggetti 3D hanno notevolmente migliorato sia la qualità che l'efficienza. Tuttavia, la maggior parte dei metodi esistenti genera una singola mesh con tutte le parti fuse insieme, il che limita la capacità di modificare o manipolare le singole parti. Una sfida chiave è che oggetti diversi possono avere un numero variabile di parti. Per affrontare questo problema, proponiamo un nuovo framework end-to-end per la generazione di oggetti 3D a livello di parti. Dato un'immagine di input singola, il nostro metodo genera oggetti 3D di alta qualità con un numero arbitrario di parti complete e semanticamente significative. Introduciamo una strategia di impacchettamento duale del volume che organizza tutte le parti in due volumi complementari, consentendo la creazione di parti complete e interconnesse che si assemblano nell'oggetto finale. Gli esperimenti dimostrano che il nostro modello raggiunge una qualità, diversità e generalizzazione migliori rispetto ai precedenti metodi di generazione a livello di parti basati su immagini.
La corrispondenza densa di immagini è fondamentale per molte applicazioni, come l'odometria visiva, la ricostruzione 3D, l'associazione di oggetti e il re-identificamento. Storicamente, la corrispondenza densa è stata affrontata separatamente per scenari a ampia base e per la stima del flusso ottico, nonostante l'obiettivo comune di abbinare il contenuto tra due immagini. In questo articolo, sviluppiamo un modello Unificato di Flusso & Corrispondenza (UFM), che viene addestrato su dati unificati per i pixel co-visibili sia nell'immagine sorgente che in quella target. UFM utilizza una semplice e generica architettura transformer che regredisce direttamente il flusso (u,v). È più facile da addestrare e più accurato per flussi ampi rispetto ai tipici volumi di costo da grossolano a fine nei lavori precedenti. UFM è il 28% più accurato rispetto ai metodi di flusso all'avanguardia (Unimatch), mentre ha anche il 62% in meno di errore ed è 6,7 volte più veloce rispetto ai matcher densi a ampia base (RoMa). UFM è il primo a dimostrare che l'addestramento unificato può superare approcci specializzati in entrambi i domini. Questo risultato consente una corrispondenza veloce e generica e apre nuove direzioni per compiti di corrispondenza multi-modale, a lungo raggio e in tempo reale.
Il linguaggio fornisce un'interfaccia naturale per specificare e valutare le prestazioni su compiti visivi. Per realizzare questa possibilità, i modelli linguistico-visivi (VLMs) devono integrare con successo le informazioni visive e linguistiche. Il nostro lavoro confronta i VLMs con una lettura diretta dei loro encoder visivi per comprendere la loro capacità di integrare queste modalità. Attraverso una serie di benchmark centrati sulla visione (ad esempio, stima della profondità, corrispondenza), scopriamo che i VLMs performano sostanzialmente peggio rispetto ai loro encoder visivi, scendendo a livelli vicini al caso. Investigiamo questi risultati attraverso una serie di analisi sull'intero VLM: in particolare 1) il degrado delle rappresentazioni visive, 2) la fragilità rispetto al prompt del compito, e 3) il ruolo del modello linguistico nel risolvere il compito. Troviamo che il collo di bottiglia nell'esecuzione di questi compiti centrati sulla visione risiede in questa terza categoria; i VLMs non stanno utilizzando efficacemente le informazioni visive facilmente accessibili in tutto il modello, e ereditano i prior linguistici presenti nel LLM. Il nostro lavoro aiuta a diagnosticare le modalità di fallimento dei VLMs open-source e presenta una serie di valutazioni utili per future indagini sulla comprensione visiva all'interno dei VLMs.
L'inferenza referenziale dello sguardo—la capacità di dedurre ciò che gli altri stanno guardando—è un componente cruciale di una teoria della mente che sostiene l'interazione naturale tra umani e intelligenza artificiale. In uno studio controllato, abbiamo valutato questa abilità in 111 Modelli di Linguaggio Visivo (VLMs) utilizzando foto scattate con difficoltà e variabilità manipolate, confrontando le prestazioni con quelle di partecipanti umani (N = 65), e analizzato i comportamenti utilizzando modelli a effetti misti. Abbiamo scoperto che 94 dei 111 VLMs non sono riusciti a fare meglio di un'ipotesi casuale, mentre gli umani hanno raggiunto un'accuratezza quasi perfetta. I VLMs rispondono addirittura con ogni scelta quasi con la stessa frequenza. Stanno indovinando a caso? Sebbene la maggior parte dei VLMs abbia difficoltà, quando ci concentriamo su cinque dei VLMs di fascia alta con prestazioni superiori al caso, troviamo che le loro prestazioni sono diminuite con l'aumentare della difficoltà del compito, ma variavano solo leggermente tra diversi prompt e oggetti della scena. Queste caratteristiche comportamentali non possono essere spiegate considerandoli come indovinatori casuali. Piuttosto, probabilmente utilizzano una combinazione di euristiche e ipotesi tali che le loro prestazioni sono influenzate dalla difficoltà del compito ma robuste alle variazioni percettive. Ciò suggerisce che i VLMs, privi di capacità di inferenza dello sguardo, devono ancora diventare tecnologie in grado di interagire naturalmente con gli umani, ma il potenziale rimane.
Il fine-tuning dei modelli di diffusione video (VDM) a livello utente per generare video che riflettano attributi specifici dei dati di addestramento presenta sfide significative, rimanendo tuttavia poco esplorato nonostante la sua importanza pratica. Nel frattempo, lavori recenti come l'Allineamento delle Rappresentazioni (REPA) hanno mostrato promettenti miglioramenti nella convergenza e nella qualità dei modelli di diffusione basati su DiT per le immagini, allineando o assimilando i loro stati interni nascosti con caratteristiche visive pre-addestrate esterne, suggerendo il suo potenziale per il fine-tuning dei VDM. In questo lavoro, proponiamo innanzitutto un adattamento diretto di REPA per i VDM e dimostriamo empiricamente che, sebbene efficace per la convergenza, è subottimale nel preservare la coerenza semantica tra i fotogrammi. Per affrontare questa limitazione, introduciamo l'Allineamento delle Rappresentazioni Inter-fotogramma (CREPA), una nuova tecnica di regolarizzazione che allinea gli stati nascosti di un fotogramma con caratteristiche esterne provenienti da fotogrammi adiacenti. Valutazioni empiriche su VDM su larga scala, tra cui CogVideoX-5B e Hunyuan Video, dimostrano che CREPA migliora sia la fedeltà visiva che la coerenza semantica inter-fotogramma quando sottoposto a fine-tuning con metodi efficienti in termini di parametri come LoRA. Validiamo ulteriormente CREPA su diversi dataset con attributi variabili, confermandone l'ampia applicabilità. Pagina del progetto: https://crepavideo.github.io
È fondamentale che i Modelli Linguistici di Grandi Dimensioni siano consapevoli dei limiti della loro conoscenza e del meccanismo per identificare query note e sconosciute. Questo tipo di consapevolezza può aiutare i modelli a eseguire inferenze adattive, come l'invocazione di RAG, l'ingaggio in un pensiero lento e profondo o l'adozione del meccanismo di astensione, il che è vantaggioso per lo sviluppo di IA efficienti e affidabili. In questo lavoro, proponiamo un metodo per rilevare i confini della conoscenza tramite l'Incertezza a Livello di Query, che mira a determinare se il modello è in grado di affrontare una determinata query senza generare alcun token. A tal fine, introduciamo un metodo nuovo e privo di addestramento chiamato Fiducia Interna, che sfrutta autovalutazioni attraverso i livelli e i token. I risultati empirici su compiti di QA fattuale e di ragionamento matematico dimostrano che la nostra fiducia interna può superare diverse baseline. Inoltre, mostriamo che il metodo proposto può essere utilizzato per un RAG efficiente e il cascading di modelli, in grado di ridurre i costi di inferenza mantenendo le prestazioni.
L'intelligenza artificiale (IA) è diventata uno strumento fondamentale per assistere i clinici nell'analisi di immagini oftalmiche, come la tomografia a coerenza ottica (OCT). Tuttavia, lo sviluppo di modelli di IA richiede spesso annotazioni estese, e i modelli esistenti tendono a ottenere prestazioni inferiori su dati indipendenti e non visti in precedenza. I modelli di base (Foundation Models, FM), grandi modelli di IA addestrati su vasti dataset non etichettati, hanno mostrato potenziale nel superare queste sfide. Tuttavia, i FM disponibili per l'oftalmologia mancano di una validazione estesa, specialmente per i compiti di segmentazione, e si concentrano su una singola modalità di imaging. In questo contesto, proponiamo MIRAGE, un innovativo FM multimodale per l'analisi di immagini OCT e di oftalmoscopia a scansione laser (SLO). Inoltre, proponiamo un nuovo benchmark di valutazione con compiti di classificazione e segmentazione OCT/SLO. Il confronto con FM generali e specializzati e con metodi di segmentazione dimostra la superiorità di MIRAGE in entrambi i tipi di compiti, evidenziandone l'idoneità come base per lo sviluppo di sistemi di IA robusti per l'analisi di immagini OCT retiniche. Sia MIRAGE che il benchmark di valutazione sono disponibili pubblicamente: https://github.com/j-morano/MIRAGE.
Mentre i grandi modelli linguistici (LLM) stanno guidando il rapido progresso dell'intelligenza artificiale, l'addestramento efficace e affidabile di questi modelli di grandi dimensioni rimane una delle sfide più significative del settore. Per affrontare questa sfida, proponiamo POET, un innovativo algoritmo di addestramento riparametrizzato che utilizza la Trasformazione di Equivalenza Ortogonale per ottimizzare i neuroni. Nello specifico, POET riparametrizza ogni neurone con due matrici ortogonali apprendibili e una matrice di pesi casuali fissa. Grazie alla sua dimostrata capacità di preservare le proprietà spettrali delle matrici di pesi, POET può ottimizzare in modo stabile la funzione obiettivo con un miglioramento della generalizzazione. Abbiamo inoltre sviluppato approssimazioni efficienti che rendono POET flessibile e scalabile per l'addestramento di reti neurali su larga scala. Esperimenti estensivi convalidano l'efficacia e la scalabilità di POET nell'addestramento di LLM.
Il Medical Visual Question Answering (MedVQA) è un campo promettente per lo sviluppo di sistemi di supporto alle decisioni cliniche, ma i progressi sono spesso limitati dai dataset disponibili, che possono mancare di complessità clinica e diversità visiva. Per colmare queste lacune, introduciamo Kvasir-VQA-x1, un nuovo dataset su larga scala per l'endoscopia gastrointestinale (GI). Il nostro lavoro amplia significativamente il dataset originale Kvasir-VQA, incorporando 159.549 nuove coppie domanda-risposta progettate per testare un ragionamento clinico più approfondito. Abbiamo sviluppato un metodo sistematico utilizzando modelli linguistici di grandi dimensioni per generare queste domande, stratificate per complessità, al fine di valutare meglio le capacità inferenziali di un modello. Per garantire che il nostro dataset prepari i modelli per scenari clinici reali, abbiamo anche introdotto una varietà di aumentazioni visive che mimano comuni artefatti di imaging. Il dataset è strutturato per supportare due principali tracce di valutazione: una per le prestazioni standard di VQA e un'altra per testare la robustezza del modello contro queste perturbazioni visive. Fornendo un benchmark più impegnativo e clinicamente rilevante, Kvasir-VQA-x1 mira ad accelerare lo sviluppo di sistemi AI multimodali più affidabili ed efficaci per l'uso in contesti clinici. Il dataset è completamente accessibile e aderisce ai principi FAIR per i dati, rendendolo una risorsa preziosa per la comunità di ricerca più ampia. Codice e dati: https://github.com/Simula/Kvasir-VQA-x1 e https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1.
Prevedere le traiettorie intermedie tra una distribuzione iniziale e una target è un problema centrale nella modellazione generativa. Gli approcci esistenti, come il flow matching e lo Schr\"odinger Bridge Matching, apprendono efficacemente mappature tra due distribuzioni modellando un singolo percorso stocastico. Tuttavia, questi metodi sono intrinsecamente limitati a transizioni unimodali e non possono catturare evoluzioni ramificate o divergenti da un'origine comune a molteplici esiti distinti. Per affrontare questo problema, introduciamo il Branched Schr\"odinger Bridge Matching (BranchSBM), un nuovo framework che apprende ponti di Schr\"odinger ramificati. BranchSBM parametrizza molteplici campi di velocità dipendenti dal tempo e processi di crescita, consentendo la rappresentazione della divergenza a livello di popolazione in molteplici distribuzioni terminali. Dimostriamo che BranchSBM non solo è più espressivo, ma anche essenziale per compiti che coinvolgono la navigazione su superfici multi-percorso, la modellazione delle biforcazioni del destino cellulare da stati progenitori omogenei e la simulazione di risposte cellulari divergenti a perturbazioni.
I modelli linguistici di grandi dimensioni incontrano frequentemente conflitti tra la loro conoscenza parametrica e l'input contestuale, spesso risultando in inconsistenze fattuali o allucinazioni. Proponiamo il Dibattito Auto-Riflessivo per l'Affidabilità Contestuale (SR-DCR), un framework leggero che integra l'autoconfidenza a livello di token con un dibattito asimmetrico multi-agente per risolvere tali conflitti. Un critico, privato del contesto, sfida un difensore che argomenta a partire dal passaggio fornito; un modello giudice valuta il dibattito e determina l'affidabilità del contesto. La risposta finale viene selezionata combinando il verdetto con la confidenza del modello. Esperimenti sul benchmark ClashEval dimostrano che SR-DCR migliora costantemente la robustezza ai contesti fuorvianti mantenendo l'accuratezza sugli input affidabili, superando sia i dibattiti classici che i baseline basati solo sulla confidenza, con un sovraccarico computazionale minimo. Il codice è disponibile all'indirizzo https://github.com/smiles724/Self-Reflective-Debates.
I grandi modelli di ragionamento (LRM) hanno dimostrato capacità di ragionamento impressionanti in un'ampia gamma di compiti, inclusi problemi matematici di livello olimpico, evidenziando le loro abilità di ragionamento complesso. Mentre molti benchmark di ragionamento si concentrano sul dominio STEM, la capacità degli LRM di ragionare correttamente in domini di compiti più ampi rimane poco esplorata. In questo lavoro, introduciamo TTT-Bench, un nuovo benchmark progettato per valutare le abilità di ragionamento strategico, spaziale e logico di base negli LRM attraverso una suite di quattro giochi a due giocatori in stile Tris che gli esseri umani possono risolvere senza sforzo fin dalla giovane età. Proponiamo un approccio programmatico semplice ma scalabile per generare problemi di gioco a due giocatori verificabili per TTT-Bench. Sebbene questi giochi siano banali per gli esseri umani, richiedono di ragionare sulle intenzioni dell'avversario, nonché sulle configurazioni spaziali del tabellone di gioco, per assicurarsi la vittoria. Valutiamo un insieme diversificato di LRM all'avanguardia e scopriamo che i modelli che eccellono nei problemi matematici difficili spesso falliscono in questi semplici giochi di ragionamento. Ulteriori test rivelano che i nostri modelli di ragionamento valutati ottengono in media un punteggio inferiore del 41% e del 5% su TTT-Bench rispetto a MATH 500 e AIME 2024 rispettivamente, con modelli più grandi che raggiungono prestazioni più elevate utilizzando tracce di ragionamento più brevi, mentre la maggior parte dei modelli fatica in situazioni di ragionamento strategico a lungo termine su compiti semplici e nuovi di TTT-Bench.
I recenti miglioramenti nei modelli linguistici di grandi dimensioni (LLM) hanno portato molti ricercatori a concentrarsi sulla creazione di agenti AI completamente autonomi. Questo position paper mette in discussione se questo approccio sia la strada giusta da seguire, poiché questi sistemi autonomi presentano ancora problemi di affidabilità, trasparenza e comprensione delle effettive esigenze umane. Proponiamo un approccio diverso: i sistemi uomo-agente basati su LLM (LLM-HAS), in cui l'AI collabora con gli esseri umani anziché sostituirli. Mantenendo il coinvolgimento umano per fornire indicazioni, rispondere alle domande e mantenere il controllo, questi sistemi possono essere più affidabili e adattabili. Esaminando esempi tratti dal settore sanitario, finanziario e dello sviluppo software, dimostriamo come il lavoro di squadra tra uomo e AI possa gestire compiti complessi meglio dell'AI che opera da sola. Discutiamo inoltre le sfide legate alla costruzione di questi sistemi collaborativi e offriamo soluzioni pratiche. Questo documento sostiene che il progresso nell'AI non dovrebbe essere misurato in base a quanto i sistemi diventino indipendenti, ma da quanto bene possano collaborare con gli esseri umani. Il futuro più promettente per l'AI non risiede in sistemi che si sostituiscono ai ruoli umani, ma in quelli che potenziano le capacità umane attraverso una partnership significativa.