Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il controllo della fotocamera è stato ampiamente studiato nei compiti di generazione video condizionati da testo o immagini. Tuttavia, la modifica delle traiettorie della fotocamera di un video dato rimane poco esplorata, nonostante la sua importanza nel campo della creazione video. Questo compito è non banale a causa dei vincoli aggiuntivi di mantenere l'aspetto multi-frame e la sincronizzazione dinamica. Per affrontare questo problema, presentiamo ReCamMaster, un framework di re-rendering video generativo controllato dalla fotocamera che riproduce la scena dinamica di un video di input con nuove traiettorie della fotocamera. L'innovazione principale risiede nello sfruttare le capacità generative di modelli pre-addestrati di testo-a-video attraverso un meccanismo di condizionamento video semplice ma potente, la cui capacità è spesso trascurata nella ricerca attuale. Per superare la scarsità di dati di addestramento qualificati, abbiamo costruito un dataset completo di video sincronizzati multi-fotocamera utilizzando Unreal Engine 5, accuratamente curato per seguire le caratteristiche di ripresa del mondo reale, coprendo scene e movimenti della fotocamera diversi. Questo aiuta il modello a generalizzare su video in condizioni reali. Infine, abbiamo ulteriormente migliorato la robustezza a input diversi attraverso una strategia di addestramento meticolosamente progettata. Esperimenti estesi dimostrano che il nostro metodo supera significativamente gli approcci state-of-the-art esistenti e baseline solide. Il nostro metodo trova anche promettenti applicazioni nella stabilizzazione video, super-risoluzione e outpainting. Pagina del progetto: https://jianhongbai.github.io/ReCamMaster/
Presentiamo SmolDocling, un modello visione-linguaggio ultra-compatto progettato per la conversione end-to-end di documenti. Il nostro modello elabora in modo completo intere pagine generando DocTags, un nuovo formato di markup universale che cattura tutti gli elementi della pagina nel loro contesto completo con posizione. A differenza degli approcci esistenti che si basano su modelli fondazionali di grandi dimensioni, o su soluzioni ensemble che utilizzano pipeline artigianali di più modelli specializzati, SmolDocling offre una conversione end-to-end per catturare accuratamente contenuto, struttura e posizione spaziale degli elementi del documento in un modello visione-linguaggio da 256M parametri. SmolDocling dimostra prestazioni robuste nel riprodurre correttamente caratteristiche del documento come elenchi di codice, tabelle, equazioni, grafici, liste e altro ancora, su una vasta gamma di tipi di documenti tra cui documenti aziendali, articoli accademici, rapporti tecnici, brevetti e moduli, estendendosi significativamente oltre il comune focus sui documenti scientifici. Inoltre, contribuiamo con nuovi dataset di origine pubblica per il riconoscimento di grafici, tabelle, equazioni e codice. I risultati sperimentali dimostrano che SmolDocling compete con altri modelli visione-linguaggio fino a 27 volte più grandi, riducendo sostanzialmente i requisiti computazionali. Il modello è attualmente disponibile, mentre i dataset saranno presto accessibili pubblicamente.
I modelli di diffusione hanno dimostrato risultati impressionanti nella generazione di campioni condizionati di alta qualità utilizzando tecniche di guida come la Classifier-Free Guidance (CFG). Tuttavia, i metodi esistenti spesso richiedono ulteriori addestramenti o valutazioni di funzioni neurali (NFE), rendendoli incompatibili con i modelli distillati con guida. Inoltre, si basano su approcci euristici che necessitano di identificare strati target. In questo lavoro, proponiamo un metodo nuovo ed efficiente, denominato PLADIS, che potenzia modelli pre-addestrati (U-Net/Transformer) sfruttando l'attenzione sparsa. Nello specifico, estrapoliamo le correlazioni query-chiave utilizzando softmax e la sua controparte sparsa nello strato di cross-attention durante l'inferenza, senza richiedere ulteriori addestramenti o NFE. Sfruttando la robustezza al rumore dell'attenzione sparsa, il nostro PLADIS libera il potenziale latente dei modelli di diffusione testo-immagine, consentendo loro di eccellere in aree in cui precedentemente faticavano con una nuova efficacia. Si integra perfettamente con le tecniche di guida, inclusi i modelli distillati con guida. Esperimenti estesi mostrano miglioramenti significativi nell'allineamento del testo e nella preferenza umana, offrendo una soluzione altamente efficiente e universalmente applicabile.
I grandi modelli linguistici (LLM) si sono evoluti oltre la semplice generazione di testi, diventando strumenti per software agenti che traducono direttamente comandi in linguaggio naturale in azioni tangibili. Sebbene gli agenti LLM basati su API abbiano inizialmente guadagnato popolarità per le loro robuste capacità di automazione e l'integrazione senza soluzione di continuità con endpoint programmatici, i recenti progressi nella ricerca sugli LLM multimodali hanno permesso lo sviluppo di agenti LLM basati su GUI che interagiscono con le interfacce grafiche in modo simile a quello umano. Sebbene questi due paradigmi condividano l'obiettivo di abilitare l'automazione di task guidata dagli LLM, divergono significativamente in termini di complessità architetturale, flussi di sviluppo e modelli di interazione con l'utente. Questo articolo presenta il primo studio comparativo completo tra agenti LLM basati su API e su GUI, analizzando sistematicamente le loro divergenze e il potenziale di convergenza. Esaminiamo dimensioni chiave e mettiamo in luce scenari in cui approcci ibridi possono sfruttare i loro punti di forza complementari. Proponendo criteri decisionali chiari e illustrando casi d'uso pratici, miriamo a guidare professionisti e ricercatori nella selezione, combinazione o transizione tra questi paradigmi. In definitiva, suggeriamo che le continue innovazioni nell'automazione basata su LLM sono destinate a sfumare i confini tra agenti guidati da API e GUI, aprendo la strada a soluzioni più flessibili e adattabili in un'ampia gamma di applicazioni del mondo reale.
La ricerca dell'efficienza dei dati, in cui la qualità prevale sulla quantità, è emersa come un pilastro fondamentale nella manipolazione robotica, soprattutto considerando gli elevati costi associati alla raccolta di dati nel mondo reale. Proponiamo che massimizzare la densità informativa delle singole dimostrazioni possa ridurre drasticamente la dipendenza da dataset su larga scala, migliorando al contempo le prestazioni del compito. A tal fine, introduciamo la Raccolta Dati Adversarial (Adversarial Data Collection, ADC), un framework Human-in-the-Loop (HiL) che ridefinisce l'acquisizione di dati robotici attraverso interazioni bidirezionali in tempo reale tra uomo e ambiente. A differenza delle pipeline convenzionali che registrano passivamente dimostrazioni statiche, l'ADC adotta un paradigma di perturbazione collaborativa: durante un singolo episodio, un operatore adversarial modifica dinamicamente gli stati degli oggetti, le condizioni ambientali e i comandi linguistici, mentre il tele-operatore adatta in modo flessibile le azioni per superare queste sfide in evoluzione. Questo processo comprime comportamenti di recupero da errori, variazioni compositive dei compiti e perturbazioni ambientali in dimostrazioni minimali. I nostri esperimenti dimostrano che i modelli addestrati con ADC raggiungono una generalizzazione compositiva superiore per istruzioni di compiti non visti, una maggiore robustezza alle perturbazioni percettive e capacità emergenti di recupero dagli errori. Sorprendentemente, i modelli addestrati con appena il 20% del volume di dimostrazioni raccolte tramite ADC superano significativamente gli approcci tradizionali che utilizzano dataset completi. Questi progressi colmano il divario tra i paradigmi di apprendimento centrati sui dati e il dispiegamento pratico della robotica, dimostrando che l'acquisizione strategica dei dati, non solo l'elaborazione post-hoc, è cruciale per un apprendimento robotico scalabile nel mondo reale. Inoltre, stiamo curando un dataset su larga scala ADC-Robotics, comprendente compiti di manipolazione nel mondo reale con perturbazioni adversarial. Questo benchmark sarà reso open-source per favorire progressi nell'apprendimento per imitazione robotica.
I modelli a spazio di stato (SSM) sono emersi come una promettente alternativa ai popolari modelli basati su trasformatori e stanno attirando un'attenzione crescente. Rispetto ai trasformatori, gli SSM eccellono in compiti che coinvolgono dati sequenziali o contesti più lunghi, dimostrando prestazioni comparabili con significativi guadagni in termini di efficienza. In questa rassegna, forniamo una panoramica coerente e sistematica degli SSM, includendo le loro motivazioni teoriche, formulazioni matematiche, confronti con le classi di modelli esistenti e varie applicazioni. Dividiamo la serie degli SSM in tre sezioni principali, offrendo una dettagliata introduzione all'SSM originale, all'SSM strutturato rappresentato da S4 e all'SSM selettivo esemplificato da Mamba. Poniamo l'accento sugli aspetti tecnici e evidenziamo le varie tecniche chiave introdotte per affrontare l'efficacia e l'efficienza degli SSM. Speriamo che questo manoscritto serva come introduzione per i ricercatori che desiderano esplorare le basi teoriche degli SSM.
Presentiamo VGGT, una rete neurale feed-forward che inferisce direttamente tutti gli attributi 3D chiave di una scena, inclusi i parametri della telecamera, le mappe di punti, le mappe di profondità e le tracce di punti 3D, da una, poche o centinaia delle sue viste. Questo approccio rappresenta un passo avanti nella visione artificiale 3D, dove i modelli sono stati tipicamente vincolati e specializzati per singoli compiti. È inoltre semplice ed efficiente, ricostruendo le immagini in meno di un secondo, superando comunque alternative che richiedono post-elaborazione con tecniche di ottimizzazione della geometria visiva. La rete raggiunge risultati all'avanguardia in molteplici task 3D, tra cui la stima dei parametri della telecamera, la stima della profondità multi-vista, la ricostruzione di nuvole di punti dense e il tracciamento di punti 3D. Mostriamo anche che l'utilizzo di VGGT pre-addestrato come backbone per le feature migliora significativamente task downstream, come il tracciamento di punti non rigidi e la sintesi feed-forward di nuove viste. Codice e modelli sono disponibili pubblicamente su https://github.com/facebookresearch/vggt.
I modelli multimodali di grandi dimensioni (LMM) basati su trasformatori all'avanguardia faticano a gestire input video della durata di un'ora a causa della complessità quadratica delle operazioni di self-attention causale, che comporta costi computazionali elevati durante l'addestramento e l'inferenza. I metodi esistenti basati sulla compressione dei token riducono il numero di token video, ma spesso comportano una perdita di informazioni e rimangono inefficienti per sequenze estremamente lunghe. In questo articolo, esploriamo una direzione alternativa per costruire un modello ibrido Mamba-Transformer (VAMBA) che utilizza blocchi Mamba-2 per codificare i token video con complessità lineare. Senza alcuna riduzione dei token, VAMBA può codificare più di 1024 frame (640x360) su una singola GPU, mentre i modelli basati su trasformatori possono codificare solo 256 frame. Su input video lunghi, VAMBA ottiene una riduzione di almeno il 50% nell'uso della memoria GPU durante l'addestramento e l'inferenza, e quasi raddoppia la velocità per ogni passo di addestramento rispetto ai LMM basati su trasformatori. I nostri risultati sperimentali dimostrano che VAMBA migliora l'accuratezza del 4,3% sul benchmark impegnativo di comprensione video della durata di un'ora LVBench rispetto ai precedenti LMM video efficienti, e mantiene prestazioni solide su un'ampia gamma di task di comprensione video sia lunghi che brevi.
Collegare diverse modalità è al centro della generazione cross-modale. Mentre gli approcci convenzionali trattano la modalità testuale come un segnale di condizionamento che guida gradualmente il processo di denoising dal rumore gaussiano alla modalità immagine target, noi esploriamo un paradigma molto più semplice: evolvere direttamente tra le modalità testo e immagine attraverso il flow matching. Ciò richiede la proiezione di entrambe le modalità in uno spazio latente condiviso, che rappresenta una sfida significativa a causa delle loro rappresentazioni intrinsecamente diverse: il testo è altamente semantico e codificato come token 1D, mentre le immagini sono ridondanti spazialmente e rappresentate come embedding latenti 2D. Per affrontare questo problema, introduciamo FlowTok, un framework minimale che scorre senza soluzione di continuità tra testo e immagini codificando le immagini in una rappresentazione compatta di token 1D. Rispetto ai metodi precedenti, questo design riduce la dimensione dello spazio latente di 3,3 volte a una risoluzione dell'immagine di 256, eliminando la necessità di meccanismi di condizionamento complessi o di schedulazione del rumore. Inoltre, FlowTok si estende naturalmente alla generazione da immagine a testo sotto la stessa formulazione. Con la sua architettura snella incentrata su token 1D compatti, FlowTok è altamente efficiente in termini di memoria, richiede significativamente meno risorse di addestramento e raggiunge velocità di campionamento molto più elevate, tutto ciò mantenendo prestazioni comparabili ai modelli all'avanguardia. Il codice sarà disponibile su https://github.com/bytedance/1d-tokenizer.
La medicina di precisione richiede modelli adattivi multimodali in grado di generare raccomandazioni terapeutiche personalizzate. Presentiamo TxAgent, un agente di intelligenza artificiale che sfrutta il ragionamento a più passaggi e il recupero in tempo reale di conoscenze biomediche attraverso un toolbox di 211 strumenti per analizzare le interazioni farmacologiche, le controindicazioni e le strategie terapeutiche specifiche per il paziente. TxAgent valuta come i farmaci interagiscono a livello molecolare, farmacocinetico e clinico, identifica le controindicazioni in base alle comorbidità del paziente e ai farmaci concomitanti, e adatta le strategie terapeutiche alle caratteristiche individuali del paziente. Recupera e sintetizza evidenze da molteplici fonti biomediche, valuta le interazioni tra farmaci e condizioni del paziente, e affina le raccomandazioni terapeutiche attraverso un ragionamento iterativo. Seleziona gli strumenti in base agli obiettivi del task ed esegue chiamate di funzione strutturate per risolvere compiti terapeutici che richiedono ragionamento clinico e validazione incrociata tra fonti. Il ToolUniverse consolida 211 strumenti provenienti da fonti attendibili, inclusi tutti i farmaci approvati dalla FDA statunitense dal 1939 e approfondimenti clinici validati da Open Targets. TxAgent supera i principali modelli LLM, modelli di utilizzo di strumenti e agenti di ragionamento in cinque nuovi benchmark: DrugPC, BrandPC, GenericPC, TreatmentPC e DescriptionPC, coprendo 3.168 task di ragionamento sui farmaci e 456 scenari terapeutici personalizzati. Raggiunge un'accuratezza del 92,1% nei task di ragionamento aperto sui farmaci, superando GPT-4o e superando DeepSeek-R1 (671B) nel ragionamento strutturato a più passaggi. TxAgent generalizza attraverso varianti di nomi di farmaci e descrizioni. Integrando inferenza a più passaggi, ancoraggio in tempo reale delle conoscenze e decisioni assistite da strumenti, TxAgent garantisce che le raccomandazioni terapeutiche siano allineate con le linee guida cliniche consolidate e le evidenze del mondo reale, riducendo il rischio di eventi avversi e migliorando il processo decisionale terapeutico.
Il Federated Learning (FL) è emerso come un paradigma promettente per l'addestramento collaborativo di modelli preservando la privacy, senza la necessità di condividere dati grezzi. Tuttavia, studi recenti hanno rivelato che informazioni private possono comunque essere trapelate attraverso i gradienti condivisi e attaccate tramite Gradient Inversion Attacks (GIA). Sebbene siano stati proposti molti metodi GIA, manca ancora un'analisi dettagliata, una valutazione e una sintesi di questi approcci. Nonostante vari articoli di survey riassumano gli attacchi alla privacy esistenti nel FL, pochi studi hanno condotto esperimenti estesi per rivelare l'efficacia dei GIA e i fattori limitanti associati in questo contesto. Per colmare questa lacuna, abbiamo intrapreso una revisione sistematica dei GIA, classificando i metodi esistenti in tre tipologie: GIA basati su ottimizzazione (OP-GIA), GIA basati su generazione (GEN-GIA) e GIA basati su analisi (ANA-GIA). Successivamente, abbiamo analizzato e valutato in modo completo le tre tipologie di GIA nel FL, fornendo approfondimenti sui fattori che influenzano le loro prestazioni, praticità e potenziali minacce. I nostri risultati indicano che l'OP-GIA è l'impostazione di attacco più pratica nonostante le sue prestazioni insoddisfacenti, mentre il GEN-GIA presenta molte dipendenze e l'ANA-GIA è facilmente rilevabile, rendendoli entrambi poco pratici. Infine, proponiamo una pipeline di difesa in tre fasi per gli utenti nella progettazione di framework e protocolli FL, al fine di garantire una migliore protezione della privacy, e condividiamo alcune direzioni di ricerca future che riteniamo debbano essere perseguite, sia dal punto di vista degli attaccanti che dei difensori. Speriamo che il nostro studio possa aiutare i ricercatori a progettare framework FL più robusti per difendersi da questi attacchi.
Proponiamo un approccio innovativo per la generazione di didascalie e il grounding di oggetti nei video, in cui gli oggetti menzionati nelle didascalie vengono ancorati al video tramite bounding box temporalmente dense. Introduciamo i seguenti contributi. In primo luogo, presentiamo un metodo di annotazione automatica su larga scala che aggrega didascalie associate a bounding box su singoli fotogrammi in annotazioni di bounding box temporalmente dense e coerenti. Applichiamo questo approccio al dataset HowTo100M per costruire un ampio dataset di pre-training, denominato HowToGround1M. Introduciamo inoltre un modello di Generazione di Didascalie Video con Grounding, chiamato GROVE, e pre-addestriamo il modello su HowToGround1M. In secondo luogo, presentiamo un nuovo dataset, chiamato iGround, composto da 3500 video con didascalie annotate manualmente e bounding box spazialmente e temporalmente dense. Questo ci permette di misurare i progressi su questo problema complesso, nonché di affinare il nostro modello su questi dati di piccola scala ma di alta qualità. In terzo luogo, dimostriamo che il nostro approccio raggiunge risultati all'avanguardia sul dataset iGround proposto rispetto a diverse baseline, così come sui dataset VidSTG e ActivityNet-Entities. Eseguiamo ampie analisi di ablazione che dimostrano l'importanza del pre-training utilizzando il nostro dataset HowToGround1M annotato automaticamente, seguito dal fine-tuning sul dataset iGround annotato manualmente, e convalidiamo i contributi tecnici chiave del nostro modello.
Le reti di Kolmogorov-Arnold (KANs) rappresentano un'innovazione notevole, costituita da funzioni di attivazione apprendibili con il potenziale di catturare relazioni più complesse dai dati. Sebbene le KANs siano utili per trovare rappresentazioni simboliche e per l'apprendimento continuo di funzioni unidimensionali, la loro efficacia in vari compiti di machine learning (ML), come la visione artificiale, rimane discutibile. Attualmente, le KANs vengono implementate sostituendo i perceptroni multistrato (MLPs) nelle architetture di reti profonde, comprese architetture avanzate come i Transformer per la visione (ViTs). In questo articolo, siamo i primi a progettare un'attenzione apprendibile generale di Kolmogorov-Arnold (KArAt) per ViTs standard che può operare su qualsiasi scelta di base. Tuttavia, i costi computazionali e di memoria per il loro addestramento ci hanno spinto a proporre una versione più modulare, e abbiamo progettato un'attenzione apprendibile specifica, chiamata Fourier-KArAt. Fourier-KArAt e le sue varianti superano le loro controparti ViT o mostrano prestazioni comparabili sui dataset CIFAR-10, CIFAR-100 e ImageNet-1K. Analizziamo le prestazioni e la capacità di generalizzazione di queste architetture esaminando i loro paesaggi di perdita, distribuzioni dei pesi, percorso dell'ottimizzatore, visualizzazione dell'attenzione e comportamento spettrale, e le confrontiamo con i ViT standard. L'obiettivo di questo articolo non è produrre un'attenzione efficiente in termini di parametri e calcolo, ma incoraggiare la comunità a esplorare le KANs in combinazione con architetture più avanzate che richiedono una comprensione accurata delle attivazioni apprendibili. Il nostro codice open-source e i dettagli di implementazione sono disponibili su: https://subhajitmaity.me/KArAt
L'adattamento di un corpo a una nuvola di punti 3D di un umano vestito è un compito comune ma impegnativo. Gli approcci tradizionali basati sull'ottimizzazione utilizzano pipeline multi-stadio che sono sensibili all'inizializzazione della posa, mentre i metodi recenti basati sull'apprendimento spesso faticano a generalizzare su pose e tipi di abbigliamento diversi. Proponiamo Equivariant Tightness Fitting for Clothed Humans, o ETCH, una nuova pipeline che stima la mappatura superficie corpo-vestito attraverso l'equivarianza SE(3) approssimata localmente, codificando la vestibilità come vettori di spostamento dalla superficie del vestito al corpo sottostante. Seguendo questa mappatura, le caratteristiche del corpo invarianti alla posa regrediscono marcatori corporei sparsi, semplificando l'adattamento dell'umano vestito in un compito di adattamento dei marcatori interni al corpo. Esperimenti estensivi su CAPE e 4D-Dress mostrano che ETCH supera significativamente i metodi all'avanguardia — sia quelli che ignorano la vestibilità che quelli che la considerano — in termini di accuratezza nell'adattamento del corpo su abiti larghi (16,7% ~ 69,5%) e accuratezza della forma (media del 49,9%). Il nostro design di vestibilità equivariante può persino ridurre gli errori direzionali del (67,2% ~ 89,8%) in contesti one-shot (o fuori distribuzione). I risultati qualitativi dimostrano una forte generalizzazione di ETCH, indipendentemente da pose complesse, forme non viste, abiti larghi e dinamiche non rigide. Rilasceremo presto il codice e i modelli per scopi di ricerca all'indirizzo https://boqian-li.github.io/ETCH/.
I modelli autoregressivi visivi tipicamente aderiscono a un paradigma di "predizione del token successivo" in ordine raster, che trascura la località spaziale e temporale intrinseca nel contenuto visivo. Nello specifico, i token visivi mostrano correlazioni significativamente più forti con i token adiacenti spazialmente o temporalmente rispetto a quelli distanti. In questo articolo, proponiamo il Neighboring Autoregressive Modeling (NAR), un paradigma innovativo che formula la generazione visiva autoregressiva come una procedura di outpainting progressivo, seguendo un meccanismo di "predizione del vicino successivo" da vicino a lontano. Partendo da un token iniziale, i restanti token vengono decodificati in ordine crescente della loro distanza di Manhattan dal token iniziale nello spazio spazio-temporale, espandendo progressivamente il confine della regione decodificata. Per consentire la predizione parallela di più token adiacenti nello spazio spazio-temporale, introduciamo un insieme di teste di decodifica orientate alla dimensione, ciascuna delle quali predice il token successivo lungo una dimensione mutualmente ortogonale. Durante l'inferenza, tutti i token adiacenti ai token decodificati vengono elaborati in parallelo, riducendo sostanzialmente i passi di avanzamento del modello per la generazione. Gli esperimenti su ImageNet256x256 e UCF101 dimostrano che NAR raggiunge rispettivamente un throughput 2,4 volte e 8,6 volte superiore, ottenendo punteggi FID/FVD migliori sia per i compiti di generazione di immagini che di video rispetto all'approccio PAR-4X. Quando valutato sul benchmark di generazione da testo a immagine GenEval, NAR con 0,8 miliardi di parametri supera Chameleon-7B utilizzando solo 0,4 dei dati di addestramento. Il codice è disponibile all'indirizzo https://github.com/ThisisBillhe/NAR.
L'accelerazione del campionamento nei modelli di diffusione è cruciale per un'implementazione efficiente dell'AIGC. Sebbene i metodi di distillazione della diffusione -- basati sull'allineamento delle distribuzioni e sul matching delle traiettorie -- riducano il campionamento a un solo passo, essi non riescono a gestire compiti complessi come la generazione di immagini da testo. La generazione in pochi passi offre un migliore equilibrio tra velocità e qualità, ma gli approcci esistenti affrontano un persistente compromesso: l'allineamento delle distribuzioni manca di flessibilità per il campionamento multi-passo, mentre il matching delle traiettorie spesso produce una qualità dell'immagine subottimale. Per colmare questa lacuna, proponiamo di apprendere modelli di diffusione a pochi passi tramite il Trajectory Distribution Matching (TDM), un paradigma di distillazione unificato che combina i punti di forza dell'allineamento delle distribuzioni e del matching delle traiettorie. Il nostro metodo introduce un obiettivo di distillazione del punteggio senza dati, allineando la traiettoria dello studente con quella del docente a livello di distribuzione. Inoltre, sviluppiamo un obiettivo consapevole dei passi di campionamento che disaccoppia i target di apprendimento tra diversi passi, consentendo un campionamento più regolabile. Questo approccio supporta sia il campionamento deterministico per una qualità superiore dell'immagine, sia l'adattamento flessibile multi-passo, raggiungendo prestazioni all'avanguardia con un'efficienza notevole. Il nostro modello, TDM, supera i metodi esistenti su vari backbone, come SDXL e PixArt-alpha, offrendo una qualità superiore e costi di addestramento significativamente ridotti. In particolare, il nostro metodo distilla PixArt-alpha in un generatore a 4 passi che supera il suo docente nelle preferenze degli utenti reali a una risoluzione di 1024. Questo è stato ottenuto con 500 iterazioni e 2 ore su A800 -- appena lo 0,01% del costo di addestramento del docente. Inoltre, il nostro TDM proposto può essere esteso per accelerare la diffusione da testo a video. In modo significativo, TDM può superare il suo modello docente (CogVideoX-2B) utilizzando solo 4 NFE su VBench, migliorando il punteggio totale da 80,91 a 81,65. Pagina del progetto: https://tdm-t2x.github.io/
Poiché i modelli linguistici multimodali di grandi dimensioni (MLLMs) spesso commettono errori nel risolvere problemi scientifici, valutare la validità dei loro processi di ragionamento è fondamentale per garantire l'affidabilità e individuare le debolezze dettagliate dei modelli. Dato che la valutazione umana è laboriosa e costosa, l'uso di MLLMs come giudici automatizzati dei processi è diventata una pratica comune. Tuttavia, l'affidabilità di questi giudici basati su modelli rimane incerta. Per affrontare questo problema, introduciamo ProJudgeBench, il primo benchmark completo specificamente progettato per valutare le capacità dei giudici di processo basati su MLLM. ProJudgeBench comprende 2.400 casi di test e 50.118 etichette a livello di passaggio, che coprono quattro discipline scientifiche con diversi livelli di difficoltà e contenuti multimodali. In ProJudgeBench, ogni passaggio è meticolosamente annotato da esperti umani per correttezza, tipo di errore e spiegazione, consentendo una valutazione sistematica delle capacità dei giudici di rilevare, classificare e diagnosticare errori. La valutazione su ProJudgeBench rivela un divario significativo nelle prestazioni tra i modelli open-source e quelli proprietari. Per colmare questo divario, proponiamo ulteriormente ProJudge-173k, un ampio dataset di ottimizzazione delle istruzioni, e una strategia di fine-tuning Dinamica a Doppia Fase che incoraggia i modelli a ragionare esplicitamente attraverso la risoluzione dei problemi prima di valutare le soluzioni. Entrambi i contributi migliorano significativamente le capacità di valutazione dei processi dei modelli open-source. Tutte le risorse saranno rilasciate per favorire future ricerche su una valutazione affidabile dei processi multimodali.
I modelli unificati (UniMs) per la comprensione e la generazione multimodale hanno recentemente ricevuto molta attenzione nell'ambito della visione e del linguaggio. Gli UniMs esistenti sono progettati per apprendere simultaneamente sia le capacità di comprensione che di generazione multimodale, richiedendo risorse computazionali sostanziali e spesso faticano a generare contenuti intercalati di testo e immagini. Presentiamo ARMOR, un framework autoregressivo puro ed efficiente in termini di risorse che raggiunge sia la comprensione che la generazione attraverso il fine-tuning di modelli linguistici multimodali di grandi dimensioni (MLLMs) esistenti. Nello specifico, ARMOR estende gli MLLMs esistenti da tre prospettive: (1) Per l'architettura del modello, viene introdotta un'architettura encoder-decoder asimmetrica con un meccanismo di commutazione in avanti per unificare lo spazio di embedding integrando le modalità testuali e visive, consentendo la generazione naturale di contenuti intercalati testo-immagine con un sovraccarico computazionale minimo. (2) Per i dati di addestramento, viene raccolto un dataset intercalato di alta qualità e accuratamente curato per il fine-tuning degli MLLMs. (3) Per l'algoritmo di addestramento, proponiamo un algoritmo "cosa o come generare" per dotare gli MLLMs esistenti di capacità di generazione multimodale preservando le loro capacità di comprensione multimodale, attraverso tre fasi progressive di addestramento basate sul dataset raccolto. I risultati sperimentali dimostrano che ARMOR aggiorna gli MLLMs esistenti a UniMs con promettenti capacità di generazione di immagini, utilizzando risorse di addestramento limitate. Il nostro codice sarà presto rilasciato su https://armor.github.io.
I grandi modelli linguistici (LLM) hanno dimostrato prestazioni e capacità di generalizzazione notevoli attraverso più lingue e compiti, rendendoli obiettivi molto attraenti per l'integrazione multimodale (ad esempio, immagini o parlato). In questo lavoro, estendiamo un LLM esistente alla modalità del parlato tramite discretizzazione del parlato e pre-addestramento continuato. In particolare, siamo interessati ai LLM multilingue, come TOWER, poiché il loro contesto di pre-addestramento ci consente di trattare l'input di parlato discretizzato come una lingua di traduzione aggiuntiva. Il modello open-source risultante, SPIRE, è in grado di trascrivere e tradurre l'input di parlato in inglese mantenendo le prestazioni originali di TOWER sui compiti legati alla traduzione, dimostrando che l'integrazione dell'input di parlato discretizzato come lingua aggiuntiva è fattibile durante l'adattamento degli LLM. Rendiamo disponibili il nostro codice e i nostri modelli alla comunità.
Il recupero accurato dei materiali è fondamentale per la creazione di asset 3D realistici. I metodi esistenti si basano su dataset che catturano rappresentazioni dei materiali invarianti rispetto alla forma e variabili rispetto all'illuminazione, che sono scarsi e affrontano sfide dovute alla limitata diversità e alla generalizzazione inadeguata nel mondo reale. La maggior parte degli approcci attuali adotta tecniche tradizionali di ricerca di immagini, che non riescono a catturare le proprietà uniche degli spazi dei materiali, portando a prestazioni subottimali nelle attività di recupero. Per affrontare queste sfide, introduciamo MaRI, un framework progettato per colmare il divario nello spazio delle caratteristiche tra materiali sintetici e reali. MaRI costruisce uno spazio di embedding condiviso che armonizza gli attributi visivi e dei materiali attraverso una strategia di apprendimento contrastivo, addestrando congiuntamente un codificatore di immagini e un codificatore di materiali, avvicinando materiali e immagini simili mentre separa coppie dissimili all'interno dello spazio delle caratteristiche. Per supportare ciò, costruiamo un dataset completo che comprende materiali sintetici di alta qualità resi con variazioni di forma controllate e condizioni di illuminazione diverse, insieme a materiali reali elaborati e standardizzati utilizzando tecniche di trasferimento dei materiali. Esperimenti estesi dimostrano le prestazioni superiori, l'accuratezza e le capacità di generalizzazione di MaRI in diverse e complesse attività di recupero dei materiali, superando i metodi esistenti.
Introduciamo TreeMeshGPT, un Transformer autoregressivo progettato per generare mesh artistiche di alta qualità allineate con nuvole di punti in input. Invece della tradizionale previsione del token successivo nei Transformer autoregressivi, proponiamo una nuova Sequenza Albero Autoregressiva in cui il token di input successivo viene recuperato da una struttura ad albero in crescita dinamica costruita sull'adiacenza triangolare delle facce all'interno della mesh. La nostra sequenza consente alla mesh di estendersi localmente dall'ultima faccia triangolare generata ad ogni passo, riducendo così la difficoltà di addestramento e migliorando la qualità della mesh. Il nostro approccio rappresenta ogni faccia triangolare con due token, ottenendo un tasso di compressione di circa il 22% rispetto alla tokenizzazione semplice delle facce. Questa tokenizzazione efficiente permette al nostro modello di generare mesh artistiche altamente dettagliate con un forte condizionamento della nuvola di punti, superando i metodi precedenti sia in capacità che in fedeltà. Inoltre, il nostro metodo genera mesh con forti vincoli di orientamento delle normali, minimizzando le normali invertite comunemente riscontrate nei metodi precedenti. I nostri esperimenti dimostrano che TreeMeshGPT migliora la qualità della generazione delle mesh con dettagli raffinati e coerenza nell'orientamento delle normali.
Questo lavoro presenta una prima valutazione di due modelli all'avanguardia per il ragionamento su larga scala (LRM), o3-mini di OpenAI e DeepSeek R1, sul ragionamento analogico, concentrandosi su test di QI non verbali ben consolidati basati sulle matrici progressive di Raven. Eseguiamo benchmark con il dataset I-RAVEN e la sua estensione più complessa, I-RAVEN-X, che testa la capacità di generalizzare a regole di ragionamento più lunghe e intervalli di valori degli attributi. Per valutare l'influenza delle incertezze visive su questi test di ragionamento analogico non verbale, estendiamo il dataset I-RAVEN-X, che altrimenti presuppone una percezione oracolare. Adottiamo una strategia a due livelli per simulare questa percezione visiva imperfetta: 1) introduciamo attributi confondenti che, essendo campionati casualmente, non contribuiscono alla previsione della risposta corretta dei puzzle e 2) levighiamo le distribuzioni dei valori degli attributi di input. Osserviamo un forte calo nell'accuratezza del compito di o3-mini di OpenAI, che passa dall'86,6% sull'originale I-RAVEN a solo il 17,0% – avvicinandosi al caso casuale – sul più impegnativo I-RAVEN-X, che aumenta la lunghezza e l'intervallo dell'input e simula l'incertezza percettiva. Questo calo si è verificato nonostante l'utilizzo di 3,4 volte più token di ragionamento. Una tendenza simile si osserva anche per DeepSeek R1: dall'80,6% al 23,2%. D'altra parte, un modello neuro-simbolico probabilistico abduttivo, ARLC, che raggiunge prestazioni all'avanguardia su I-RAVEN, è in grado di ragionare in modo robusto in tutti questi test fuori distribuzione, mantenendo un'elevata accuratezza con solo una modesta riduzione dal 98,6% all'88,0%. Il nostro codice è disponibile all'indirizzo https://github.com/IBM/raven-large-language-models.
La Didascalia Dettagliata dei Video (VDC) è un compito cruciale per il collegamento tra visione e linguaggio, consentendo descrizioni granulari di contenuti video complessi. In questo articolo, iniziamo con un'analisi completa degli approcci più avanzati attualmente disponibili, identificando sistematicamente due limitazioni critiche: una capacità distorta verso specifici aspetti della didascalia e un disallineamento con le preferenze umane. Per affrontare queste carenze, proponiamo Cockatiel, una nuova pipeline di addestramento in tre fasi che combina addestramento sintetico e allineato alle preferenze umane per migliorare le prestazioni della VDC. Nella prima fase, deriviamo un punteggio da un dataset annotato meticolosamente per selezionare didascalie sintetiche che performano bene su determinati allineamenti video-didascalia granulari e preferiti dagli esseri umani, scartando le altre. Successivamente, addestriamo Cockatiel-13B utilizzando questo dataset curato per infondergli i punti di forza del modello assemblato e le preferenze umane. Infine, distilliamo ulteriormente Cockatiel-8B da Cockatiel-13B per facilitarne l'uso. Esperimenti quantitativi e qualitativi estesi riflettono l'efficacia del nostro metodo, poiché non solo raggiungiamo nuove prestazioni all'avanguardia su VDCSCORE in modo bilanciato rispetto alle dimensioni, ma superiamo anche le alternative leader nelle preferenze umane con un ampio margine, come dimostrato dai risultati delle valutazioni umane.
L'apprendimento di abilità in ambienti open-world è essenziale per sviluppare agenti in grado di gestire una varietà di compiti combinando abilità di base. I video dimostrativi online sono tipicamente lunghi ma non segmentati, rendendoli difficili da suddividere e etichettare con identificatori di abilità. A differenza dei metodi esistenti che si basano su campionamento sequenziale o etichettatura umana, abbiamo sviluppato un approccio basato sull'apprendimento auto-supervisionato per segmentare questi lunghi video in una serie di segmenti semanticamente consapevoli e coerenti con le abilità. Traendo ispirazione dalla teoria cognitiva umana sulla segmentazione degli eventi, introduciamo il Rilevamento dei Confini delle Abilità (Skill Boundary Detection, SBD), un algoritmo di segmentazione temporale dei video privo di annotazioni. SBD rileva i confini delle abilità in un video sfruttando gli errori di previsione di un modello pre-addestrato di previsione delle azioni incondizionata. Questo approccio si basa sull'assunzione che un aumento significativo dell'errore di previsione indichi un cambiamento nell'abilità in esecuzione. Abbiamo valutato il nostro metodo in Minecraft, un ricco simulatore open-world con ampi video di gameplay disponibili online. I segmenti generati da SBD hanno migliorato le prestazioni medie delle politiche condizionate del 63,7% e del 52,1% su compiti di abilità atomiche a breve termine, e i loro corrispondenti agenti gerarchici dell'11,3% e del 20,8% su compiti a lungo termine. Il nostro metodo può sfruttare i diversi video di YouTube per addestrare agenti che seguono istruzioni. La pagina del progetto è disponibile all'indirizzo https://craftjarvis.github.io/SkillDiscovery.
Presentiamo CHOrD, un nuovo framework per la sintesi scalabile di scene 3D interne, progettato per creare gemelli digitali di interni su scala domestica, privi di collisioni e strutturati gerarchicamente. A differenza dei metodi esistenti che sintetizzano direttamente il layout della scena come grafo della scena o lista di oggetti, CHOrD incorpora una rappresentazione intermedia del layout basata su immagini 2D, consentendo di prevenire efficacemente gli artefatti di collisione catturandoli con successo come scenari out-of-distribution (OOD) durante la generazione. Inoltre, a differenza dei metodi esistenti, CHOrD è in grado di generare layout di scene che aderiscono a piante complesse con controlli multimodali, permettendo la creazione di layout coerenti su scala domestica, robusti sia alle variazioni geometriche che semantiche delle strutture delle stanze. In aggiunta, proponiamo un nuovo dataset con una copertura ampliata di oggetti domestici e configurazioni di stanze, nonché una qualità dei dati significativamente migliorata. CHOrD dimostra prestazioni all'avanguardia sia su 3D-FRONT che sul nostro dataset proposto, offrendo una sintesi di scene interne fotorealistiche e spazialmente coerenti, adattabile a variazioni arbitrarie delle piante.
Proponiamo GoalFlow, un metodo end-to-end per la guida autonoma che genera traiettorie multimodali di alta qualità. Negli scenari di guida autonoma, raramente esiste una singola traiettoria adatta. I metodi recenti si sono sempre più concentrati sulla modellazione delle distribuzioni di traiettorie multimodali. Tuttavia, questi metodi soffrono di complessità nella selezione delle traiettorie e di una ridotta qualità delle traiettorie a causa dell'elevata divergenza traiettoriale e delle incongruenze tra le indicazioni e le informazioni della scena. Per affrontare questi problemi, introduciamo GoalFlow, un metodo innovativo che vincola efficacemente il processo generativo per produrre traiettorie multimodali di alta qualità. Per risolvere il problema della divergenza traiettoriale intrinseco nei metodi basati sulla diffusione, GoalFlow vincola le traiettorie generate introducendo un punto di destinazione. GoalFlow stabilisce un meccanismo di punteggio innovativo che seleziona il punto di destinazione più appropriato tra i punti candidati in base alle informazioni della scena. Inoltre, GoalFlow utilizza un metodo generativo efficiente, il Flow Matching, per generare traiettorie multimodali e incorpora un meccanismo di punteggio raffinato per selezionare la traiettoria ottimale tra i candidati. I nostri risultati sperimentali, validati su NavsimDauner2024_navsim, dimostrano che GoalFlow raggiunge prestazioni all'avanguardia, fornendo traiettorie multimodali robuste per la guida autonoma. GoalFlow ha ottenuto un PDMS di 90.3, superando significativamente altri metodi. Rispetto ad altri metodi basati sulla politica di diffusione, il nostro approccio richiede solo un singolo passaggio di denoising per ottenere prestazioni eccellenti. Il codice è disponibile all'indirizzo https://github.com/YvanYin/GoalFlow.
Il machine unlearning è un paradigma emergente per rimuovere l'influenza di specifici dati di addestramento (cioè il forget set) da un modello preservando la sua conoscenza del resto dei dati (cioè il retain set). Gli approcci precedenti assumono che i dati da dimenticare siano distribuiti uniformemente tra tutti i punti di addestramento. Tuttavia, se i dati da dimenticare sono dominanti in un gruppo, dimostriamo empiricamente che le prestazioni per questo gruppo si degradano, portando a problemi di equità. Questo lavoro affronta il problema trascurato dei forget set distribuiti in modo non uniforme, che chiamiamo group-robust machine unlearning, presentando una strategia semplice ed efficace che mitiga la perdita di prestazioni nei gruppi dominanti attraverso il ri-ponderamento della distribuzione dei campioni. Inoltre, presentiamo MIU (Mutual Information-aware Machine Unlearning), il primo approccio per la robustezza di gruppo nell'approximate machine unlearning. MIU minimizza l'informazione mutua tra le caratteristiche del modello e le informazioni di gruppo, ottenendo l'unlearning riducendo al contempo il degrado delle prestazioni nel gruppo dominante del forget set. Inoltre, MIU sfrutta il ri-ponderamento della distribuzione dei campioni e la calibrazione dell'informazione mutua con il modello originale per preservare la robustezza di gruppo. Abbiamo condotto esperimenti su tre dataset e dimostrato che MIU supera i metodi standard, ottenendo l'unlearning senza compromettere la robustezza del modello. Il codice sorgente è disponibile all'indirizzo https://github.com/tdemin16/group-robust_machine_unlearning.