Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo ComfyUI-Copilot, un plugin basato su un modello linguistico di grandi dimensioni progettato per migliorare l'usabilità e l'efficienza di ComfyUI, una piattaforma open-source per la creazione artistica guidata dall'IA. Nonostante la sua flessibilità e l'interfaccia user-friendly, ComfyUI può presentare sfide per i nuovi utenti, tra cui documentazione limitata, configurazioni errate dei modelli e la complessità nella progettazione dei flussi di lavoro. ComfyUI-Copilot affronta queste sfide offrendo raccomandazioni intelligenti sui nodi e sui modelli, insieme alla costruzione automatizzata di flussi di lavoro con un solo clic. Al suo interno, il sistema utilizza un framework multi-agente gerarchico composto da un agente assistente centrale per la delega dei compiti e agenti specializzati per diversi utilizzi, supportati dalle nostre basi di conoscenza curate di ComfyUI per semplificare il debug e il deployment. Validiamo l'efficacia di ComfyUI-Copilot attraverso valutazioni quantitative offline e feedback online degli utenti, dimostrando che raccomanda accuratamente i nodi e accelera lo sviluppo dei flussi di lavoro. Inoltre, casi d'uso illustrano come ComfyUI-Copilot riduca le barriere di ingresso per i principianti e migliori l'efficienza dei flussi di lavoro per gli utenti esperti. Il pacchetto di installazione di ComfyUI-Copilot e un video dimostrativo sono disponibili all'indirizzo https://github.com/AIDC-AI/ComfyUI-Copilot.
In questo lavoro, presentiamo la serie Qwen3 Embedding, un significativo avanzamento rispetto al suo predecessore, la serie GTE-Qwen, nelle capacità di embedding e reranking del testo, costruita sui modelli di base Qwen3. Sfruttando le robuste capacità dei modelli linguistici Qwen3 (LLMs) nella comprensione e generazione di testi multilingue, la nostra innovativa pipeline di addestramento multi-stadio combina il pre-training non supervisionato su larga scala con il fine-tuning supervisionato su dataset di alta qualità. Strategie efficaci di fusione dei modelli garantiscono ulteriormente la robustezza e l'adattabilità della serie Qwen3 Embedding. Durante il processo di addestramento, i modelli Qwen3 LLMs non solo fungono da modelli di base, ma svolgono anche un ruolo cruciale nella sintesi di dati di addestramento di alta qualità, ricchi e diversificati, attraverso più domini e lingue, migliorando così la pipeline di addestramento. La serie Qwen3 Embedding offre una gamma di dimensioni di modelli (0.6B, 4B, 8B) sia per i task di embedding che di reranking, affrontando diversi scenari di distribuzione in cui gli utenti possono ottimizzare per l'efficienza o l'efficacia. Le valutazioni empiriche dimostrano che la serie Qwen3 Embedding raggiunge risultati all'avanguardia su diversi benchmark. In particolare, eccelle sul benchmark di valutazione multilingue MTEB per l'embedding di testo, così come in vari task di retrieval, inclusi il retrieval di codice, il retrieval cross-lingue e il retrieval multilingue. Per facilitare la riproducibilità e promuovere la ricerca e lo sviluppo guidati dalla comunità, i modelli Qwen3 Embedding sono disponibili pubblicamente sotto la licenza Apache 2.0.
I recenti progressi nel restauro video basato su diffusione (VR) dimostrano un significativo miglioramento nella qualità visiva, ma comportano un costo computazionale proibitivo durante l'inferenza. Sebbene diversi approcci basati su distillazione abbiano mostrato il potenziale del restauro delle immagini in un singolo passaggio, estendere gli approcci esistenti al VR rimane impegnativo e poco esplorato, specialmente quando si tratta di video ad alta risoluzione in contesti reali. In questo lavoro, proponiamo un modello di VR basato su diffusione in un singolo passaggio, denominato SeedVR2, che esegue un addestramento VR avversario su dati reali. Per gestire la sfida del VR ad alta risoluzione in un singolo passaggio, introduciamo diversi miglioramenti sia all'architettura del modello che alle procedure di addestramento. In particolare, viene proposto un meccanismo di attenzione a finestra adattativa, in cui la dimensione della finestra viene regolata dinamicamente per adattarsi alle risoluzioni di output, evitando l'inconsistenza della finestra osservata nel VR ad alta risoluzione utilizzando l'attenzione a finestra con una dimensione predefinita. Per stabilizzare e migliorare l'addestramento avversario post-VR, verifichiamo ulteriormente l'efficacia di una serie di perdite, inclusa una perdita di corrispondenza delle caratteristiche proposta, senza sacrificare significativamente l'efficienza dell'addestramento. Esperimenti estesi dimostrano che SeedVR2 può raggiungere prestazioni comparabili o addirittura migliori rispetto agli approcci VR esistenti in un singolo passaggio.
I modelli di mondo emergenti generano autoregressivamente fotogrammi video in risposta ad azioni, come movimenti della telecamera e prompt testuali, tra altri segnali di controllo. A causa delle dimensioni limitate delle finestre temporali di contesto, questi modelli spesso faticano a mantenere la coerenza della scena durante le rivisitazioni, portando a una grave dimenticanza degli ambienti precedentemente generati. Ispirati dai meccanismi della memoria umana, introduciamo un nuovo framework per migliorare la coerenza a lungo termine dei modelli di mondo video attraverso una memoria spaziale a lungo termine basata sulla geometria. Il nostro framework include meccanismi per memorizzare e recuperare informazioni dalla memoria spaziale a lungo termine e curiamo dataset personalizzati per addestrare e valutare modelli di mondo con meccanismi di memoria 3D esplicitamente memorizzati. Le nostre valutazioni mostrano un miglioramento della qualità, della coerenza e della lunghezza del contesto rispetto ai baseline rilevanti, aprendo la strada verso una generazione di mondi coerenti a lungo termine.
I modelli linguistici di grandi dimensioni (LLM) vengono tipicamente addestrati su enormi quantità di testo non licenziato, una pratica che ha suscitato attenzione a causa di possibili violazioni della proprietà intellettuale e preoccupazioni etiche. Addestrare gli LLM su testo con licenza aperta rappresenta un primo passo verso la risoluzione di questi problemi, ma i precedenti sforzi di raccolta dati hanno prodotto dataset troppo piccoli o di bassa qualità per generare LLM performanti. Per colmare questa lacuna, abbiamo raccolto, curato e rilasciato il Common Pile v0.1, una collezione di otto terabyte di testo con licenza aperta progettata per il pre-addestramento di LLM. Il Common Pile comprende contenuti provenienti da 30 fonti che coprono diversi ambiti, tra cui articoli di ricerca, codice, libri, enciclopedie, materiali educativi, trascrizioni audio e altro. In modo cruciale, abbiamo validato i nostri sforzi addestrando due LLM da 7 miliardi di parametri su testo del Common Pile: Comma v0.1-1T e Comma v0.1-2T, addestrati rispettivamente su 1 e 2 trilioni di token. Entrambi i modelli raggiungono prestazioni competitive rispetto agli LLM addestrati su testo non licenziato con budget computazionali simili, come Llama 1 e 2 7B. Oltre a rilasciare il Common Pile v0.1 stesso, abbiamo anche rilasciato il codice utilizzato per la sua creazione, nonché la miscela di addestramento e i checkpoint per i modelli Comma v0.1.
Il riferimento spaziale è una capacità fondamentale dei robot incarnati per interagire con il mondo fisico tridimensionale. Tuttavia, anche con i potenti modelli linguistico-visivi pre-addestrati (VLMs), gli approcci recenti non sono ancora in grado di comprendere accuratamente le complesse scene 3D e di ragionare dinamicamente sulle posizioni indicate dalle istruzioni per l'interazione. A tal fine, proponiamo RoboRefer, un VLM consapevole del 3D che può prima raggiungere una comprensione spaziale precisa integrando un codificatore di profondità dedicato ma disaccoppiato tramite fine-tuning supervisionato (SFT). Inoltre, RoboRefer avanza nel ragionamento spaziale multi-step generalizzato tramite fine-tuning con rinforzo (RFT), con funzioni di ricompensa sensibili alle metriche progettate per i compiti di riferimento spaziale. Per supportare l'addestramento SFT e RFT, introduciamo RefSpatial, un dataset su larga scala di 20 milioni di coppie domanda-risposta (2x rispetto al precedente), che copre 31 relazioni spaziali (rispetto a 15 precedenti) e supporta processi di ragionamento complessi (fino a 5 passaggi). Inoltre, introduciamo RefSpatial-Bench, un benchmark impegnativo che colma il vuoto nella valutazione del riferimento spaziale con ragionamento multi-step. Gli esperimenti mostrano che RoboRefer addestrato con SFT raggiunge una comprensione spaziale all'avanguardia, con un tasso di successo medio dell'89,6%. RoboRefer addestrato con RFT supera ulteriormente tutte le altre baseline con un ampio margine, superando persino Gemini-2.5-Pro del 17,4% in accuratezza media su RefSpatial-Bench. È importante notare che RoboRefer può essere integrato con varie politiche di controllo per eseguire compiti dinamici a lungo termine su diversi robot (ad esempio, UR5, umanoide G1) in scene reali affollate.
I modelli Transformer faticano nell'inferenza su contesti lunghi a causa della loro complessità quadratica nel tempo e lineare nella memoria. I Recurrent Memory Transformers (RMT) offrono una soluzione riducendo il costo asintotico a tempo lineare e utilizzo di memoria costante. Tuttavia, il loro meccanismo di aggiornamento della memoria porta a un'esecuzione sequenziale, creando un collo di bottiglia nelle prestazioni. Introduciamo il Diagonal Batching, uno schema di pianificazione che sblocca il parallelismo tra segmenti negli RMT preservando la ricorrenza esatta. Questo approccio elimina il vincolo sequenziale, consentendo un'inferenza efficiente su GPU anche per singoli input a contesto lungo, senza ricorrere a tecniche complesse di batching e pipelining. Poiché la tecnica è puramente un riordinamento dei calcoli in fase di esecuzione, i modelli RMT esistenti possono adottarla senza necessità di riaddestramento. Applicato a un modello LLaMA-1B ARMT, il Diagonal Batching ottiene un miglioramento di 3,3x rispetto al LLaMA-1B con attenzione completa standard e un miglioramento di 1,8x rispetto all'implementazione sequenziale di RMT su sequenze di 131.072 token. Rimuovendo il collo di bottiglia sequenziale, il Diagonal Batching riduce i costi e la latenza dell'inferenza, rafforzando così gli RMT come soluzione pratica per applicazioni reali con contesti lunghi.
Presentiamo Surfer-H, un agente web efficiente in termini di costi che integra modelli visione-linguaggio (VLM) per eseguire attività definite dall'utente sul web. Lo abbiniamo a Holo1, una nuova collezione open-weight di VLM specializzati nella navigazione web e nell'estrazione di informazioni. Holo1 è stato addestrato su fonti di dati accuratamente selezionate, tra cui contenuti web ad accesso aperto, esempi sintetici e dati agentici autoprodotti. Holo1 si posiziona al vertice dei benchmark generalisti per le interfacce utente (UI) e del nostro nuovo benchmark di localizzazione delle UI web, WebClick. Quando alimentato da Holo1, Surfer-H raggiunge una prestazione all'avanguardia del 92,2% su WebVoyager, ottenendo un equilibrio Pareto-ottimale tra accuratezza ed efficienza dei costi. Per accelerare il progresso della ricerca nei sistemi agentici, stiamo rendendo open-source sia il nostro dataset di valutazione WebClick che i pesi del modello Holo1.
Il ridimensionamento al momento dell'inferenza scambia efficienza con una maggiore accuratezza nel ragionamento, generando sequenze più lunghe o più parallele. Tuttavia, nei modelli linguistici Transformer (LLM), il costo della generazione è limitato dalla dimensione della cache chiave-valore (KV), piuttosto che dal numero di token generati. Pertanto, esploriamo l'iper-ridimensionamento al momento dell'inferenza: comprimendo la cache KV, possiamo generare più token mantenendo lo stesso budget computazionale e migliorare ulteriormente l'accuratezza dell'inferenza scalata. Il successo di questo approccio, tuttavia, dipende dalla capacità dei metodi di compressione di preservare l'accuratezza anche ad alti rapporti di compressione. Per rendere pratico l'iper-ridimensionamento, introduciamo la Sparsificazione Dinamica della Memoria (DMS), un metodo innovativo per sparsificare le cache KV che richiede solo 1K passi di addestramento per ottenere una compressione di 8 volte, mantenendo un'accuratezza migliore rispetto all'attenzione sparsa senza addestramento. Invece di scartare prematuramente i token memorizzati nella cache, DMS ritarda l'evizione dei token, fondendo implicitamente le rappresentazioni e preservando le informazioni critiche. Dimostriamo l'efficacia dell'iper-ridimensionamento al momento dell'inferenza con DMS su diverse famiglie di LLM, mostrando che migliora l'accuratezza mantenendo tempi di inferenza e carico di memoria comparabili. Ad esempio, miglioriamo Qwen-R1 32B in media di 9,1 punti su AIME 24, 7,6 su GPQA e 9,6 su LiveCodeBench, indipendentemente dal budget computazionale.
Questo articolo presenta un nuovo framework per allineare spazi latenti apprendibili a distribuzioni target arbitrarie sfruttando modelli generativi basati su flussi come prior. Il nostro metodo prevede prima un pre-addestramento di un modello a flusso sulle caratteristiche target per catturare la distribuzione sottostante. Questo modello a flusso fissato regolarizza successivamente lo spazio latente attraverso una loss di allineamento, che riformula l'obiettivo di flusso corrispondente trattando i latenti come target di ottimizzazione. Dimostriamo formalmente che la minimizzazione di questa loss di allineamento stabilisce un obiettivo surrogato computazionalmente trattabile per massimizzare un limite inferiore variazionale sulla log-verosimiglianza dei latenti sotto la distribuzione target. In particolare, il metodo proposto elimina valutazioni computazionalmente costose della verosimiglianza ed evita la risoluzione di ODE durante l'ottimizzazione. Come prova concettuale, dimostriamo in un ambiente controllato che il panorama della loss di allineamento approssima strettamente la log-verosimiglianza negativa della distribuzione target. Validiamo ulteriormente l'efficacia del nostro approccio attraverso esperimenti su larga scala di generazione di immagini su ImageNet con diverse distribuzioni target, accompagnati da discussioni dettagliate e studi di ablazione. Con validazione sia teorica che empirica, il nostro framework apre una nuova strada per l'allineamento degli spazi latenti.
Il ragionamento matematico in contesti video del mondo reale presenta una sfida fondamentalmente diversa rispetto alle immagini statiche o al testo. Richiede l'interpretazione di informazioni visive dettagliate, la lettura accurata di testo scritto a mano o digitale e l'integrazione di segnali vocali, spesso dispersi in modo non lineare nel tempo. In tali contesti multimodali, il successo non dipende solo dalla percezione, ma dall'identificazione selettiva e dall'integrazione dei dettagli contestuali corretti da un flusso ricco e rumoroso di contenuti. A tal fine, introduciamo VideoMathQA, un benchmark progettato per valutare se i modelli possono eseguire un ragionamento cross-modale temporalmente esteso sui video. Il benchmark copre 10 diversi domini matematici, includendo video che vanno da 10 secondi a oltre 1 ora. Richiede ai modelli di interpretare contenuti visivi strutturati, comprendere narrazioni didattiche e fondare congiuntamente concetti attraverso le modalità visiva, audio e testuale. Impieghiamo esperti di livello universitario per garantire un'elevata qualità, con un totale di oltre 920 ore-uomo di annotazione. Per riflettere scenari del mondo reale, le domande sono progettate attorno a tre sfide di ragionamento principali: risoluzione diretta dei problemi, in cui le risposte sono basate sulla domanda presentata; trasferimento concettuale, che richiede l'applicazione di metodi appresi a nuovi problemi; e comprensione didattica approfondita, che implica un ragionamento a più passi su spiegazioni estese e soluzioni parzialmente elaborate. Ogni domanda include annotazioni di ragionamento a più passi, consentendo una diagnosi dettagliata delle capacità del modello. Attraverso questo benchmark, evidenziamo i limiti degli approcci esistenti e stabiliamo un quadro di valutazione sistematico per i modelli che devono ragionare, piuttosto che semplicemente percepire, in contesti di problemi matematici temporalmente estesi e ricchi di modalità. Il nostro benchmark e il codice di valutazione sono disponibili all'indirizzo: https://mbzuai-oryx.github.io/VideoMathQA
I recenti progressi nei modelli di diffusione testo-video (T2V) hanno reso possibile la sintesi di video ad alta fedeltà e realistici. Tuttavia, gli attuali modelli T2V spesso incontrano difficoltà nel generare contenuti fisicamente plausibili a causa della loro limitata capacità intrinseca di comprendere accuratamente la fisica. Abbiamo osservato che, sebbene le rappresentazioni all'interno dei modelli T2V possiedano una certa capacità di comprensione della fisica, esse rimangono significativamente indietro rispetto a quelle ottenute dai recenti metodi di apprendimento auto-supervisionato su video. A tal fine, proponiamo un nuovo framework chiamato VideoREPA, che distilla la capacità di comprensione della fisica da modelli di comprensione video di base nei modelli T2V, allineando le relazioni a livello di token. Questo colma il divario nella comprensione della fisica e consente una generazione più plausibile dal punto di vista fisico. Nello specifico, introduciamo la perdita di distillazione delle relazioni tra token (Token Relation Distillation, TRD), sfruttando l'allineamento spazio-temporale per fornire una guida soft adatta al fine-tuning di potenti modelli T2V pre-addestrati, un approccio che si discosta criticamente dai precedenti metodi di allineamento delle rappresentazioni (REPA). A nostra conoscenza, VideoREPA è il primo metodo REPA progettato per il fine-tuning di modelli T2V e specificamente per l'iniezione di conoscenza fisica. Le valutazioni empiriche dimostrano che VideoREPA migliora sostanzialmente il senso comune fisico del metodo di base, CogVideoX, ottenendo un significativo miglioramento sui benchmark rilevanti e dimostrando una forte capacità di generare video coerenti con la fisica intuitiva. Ulteriori risultati video sono disponibili all'indirizzo https://videorepa.github.io/.
Nonostante i progressi nella comprensione video, gli attuali MLLM (Modelli Multimodali di Linguaggio) incontrano difficoltà nei compiti di conteggio. I benchmark esistenti sono limitati da video brevi, query a scelta chiusa, mancanza di annotazioni di indizi e una copertura multimodale debole. In questo articolo, introduciamo CG-AV-Counting, un benchmark di conteggio basato su indizi annotati manualmente, con 1.027 domande multimodali e 5.845 indizi annotati su 497 video lunghi. Supporta sia la valutazione in modalità black-box che white-box, fungendo da test completo sia per il conteggio end-to-end che basato sul ragionamento. Per esplorare modi per migliorare la capacità di conteggio dei modelli, proponiamo AV-Reasoner, un modello addestrato con GRPO e apprendimento curriculare per generalizzare la capacità di conteggio da compiti correlati. AV-Reasoner ottiene risultati all'avanguardia su più benchmark, dimostrando l'efficacia del reinforcement learning. Tuttavia, gli esperimenti mostrano che su benchmark fuori dominio, il ragionamento nello spazio linguistico non porta a miglioramenti delle prestazioni. Il codice e il benchmark sono stati rilasciati su https://av-reasoner.github.io.
I modelli di ragionamento rappresentati dalla serie Deepseek-R1-Distill sono stati ampiamente adottati dalla comunità open source grazie alle loro prestazioni elevate in ambiti come la matematica, le scienze, la programmazione e altri domini. Tuttavia, il nostro studio rivela che i loro risultati di valutazione benchmark sono soggetti a significative fluttuazioni causate da vari fattori. Differenze sottili nelle condizioni di valutazione possono portare a variazioni sostanziali nei risultati. Fenomeni simili sono osservati anche in altri modelli di inferenza open source ottimizzati sulla base della serie Deepseek-R1-Distill, nonché nel modello QwQ-32B, rendendo difficile riprodurre in modo affidabile i miglioramenti di prestazioni dichiarati. Pertanto, sosteniamo l'istituzione di un paradigma più rigoroso per la valutazione delle prestazioni dei modelli e presentiamo le nostre valutazioni empiriche sui modelli della serie Deepseek-R1-Distill.
La cognizione spaziale è essenziale per l'intelligenza umana, consentendo la risoluzione di problemi attraverso simulazioni visive piuttosto che affidarsi esclusivamente al ragionamento verbale. Tuttavia, i benchmark esistenti per l'IA valutano principalmente il ragionamento verbale, trascurando le complessità della simulazione visiva non verbale e multi-step. Introduciamo STARE (Spatial Transformations and Reasoning Evaluation), un benchmark progettato per valutare rigorosamente i modelli linguistici multimodali su compiti che vengono risolti meglio attraverso simulazioni visive multi-step. STARE comprende 4K task che spaziano dalle trasformazioni geometriche di base (2D e 3D), al ragionamento spaziale integrato (piegatura di reti di cubi e puzzle tangram), fino al ragionamento spaziale nel mondo reale (prospettiva e ragionamento temporale), riflettendo sfide cognitive pratiche come l'assemblaggio di oggetti, l'interpretazione di diagrammi meccanici e la navigazione spaziale quotidiana. Le nostre valutazioni mostrano che i modelli eccellono nel ragionamento su trasformazioni 2D più semplici, ma performano vicino al caso casuale su compiti più complessi come la piegatura di reti di cubi 3D e i puzzle tangram che richiedono simulazioni visive multi-step. Gli esseri umani raggiungono una precisione quasi perfetta ma impiegano un tempo considerevole (fino a 28,9 secondi) su compiti complessi, accelerando significativamente (in media di 7,5 secondi) con simulazioni visive intermedie. Al contrario, i modelli mostrano guadagni di performance inconsistenti dalle simulazioni visive, migliorando nella maggior parte dei task ma peggiorando in casi specifici come i puzzle tangram (GPT-4o, o1) e la piegatura di reti di cubi (Claude-3.5, Gemini-2.0 Flash), indicando che i modelli potrebbero non sapere come sfruttare efficacemente le informazioni visive intermedie.
I modelli linguistici potenziati dalla ricerca combinano la ricerca web con i Large Language Models (LLM) per migliorare la fondatezza e l'attualità delle risposte. Tuttavia, analizzare questi sistemi rimane una sfida: i dataset esistenti sono limitati in scala e ristretti nell'ambito, spesso vincolati a domande statiche, a turno singolo e di verifica dei fatti. In questo lavoro, introduciamo Search Arena, un dataset su larga scala e crowd-sourced di oltre 24.000 interazioni utente multi-turno accoppiate con LLM potenziati dalla ricerca. Il dataset copre intenti e lingue diverse e contiene tracce complete del sistema con circa 12.000 voti di preferenza umana. La nostra analisi rivela che le preferenze degli utenti sono influenzate dal numero di citazioni, anche quando il contenuto citato non supporta direttamente le affermazioni attribuite, evidenziando un divario tra credibilità percepita e reale. Inoltre, le preferenze degli utenti variano tra le fonti citate, rivelando che le piattaforme guidate dalla comunità sono generalmente preferite e che le fonti enciclopediche statiche non sono sempre appropriate e affidabili. Per valutare le prestazioni in diversi contesti, conduciamo analisi cross-arena testando LLM potenziati dalla ricerca in un ambiente di chat generico e LLM convenzionali in contesti intensivi di ricerca. Scopriamo che la ricerca web non degrada e può persino migliorare le prestazioni in contesti non di ricerca; tuttavia, la qualità in contesti di ricerca è significativamente influenzata se ci si affida esclusivamente alla conoscenza parametrica del modello. Abbiamo reso open-source il dataset per supportare future ricerche in questa direzione. Il nostro dataset e il codice sono disponibili all'indirizzo: https://github.com/lmarena/search-arena.
L'addestramento di modelli linguistici su dati a sequenza lunga è un requisito impegnativo per migliorare le capacità del modello su compiti complessi, ad esempio il ragionamento a catena lunga. Tuttavia, man mano che la lunghezza della sequenza aumenta, il costo della memoria per memorizzare i valori di attivazione diventa enorme durante il processo di Backpropagation (BP), anche con l'applicazione della tecnica di gradient checkpointing. Per affrontare questa sfida, proponiamo un metodo BP efficiente in termini di memoria e preciso chiamato StreamBP, che esegue una decomposizione lineare della regola della catena lungo la dimensione della sequenza in modo stratificato, riducendo significativamente il costo della memoria per i valori di attivazione e i logit. Il metodo proposto è applicabile a obiettivi comuni come SFT, GRPO e DPO. Dal punto di vista dell'implementazione, StreamBP ottiene meno FLOP computazionali e una velocità BP più rapida sfruttando la struttura causale del modello linguistico. Rispetto al gradient checkpointing, StreamBP aumenta la lunghezza massima della sequenza BP di 2,8-5,5 volte, utilizzando un tempo BP comparabile o addirittura inferiore. Si noti che la capacità di scalabilità della lunghezza della sequenza di StreamBP può essere trasferita direttamente alla scalabilità della dimensione del batch per accelerare l'addestramento. Abbiamo inoltre sviluppato una versione distribuita di StreamBP efficiente dal punto di vista della comunicazione per supportare efficacemente l'addestramento multi-GPU e ampliarne l'applicabilità. Il nostro codice può essere facilmente integrato nella pipeline di addestramento di qualsiasi modello transformer ed è disponibile all'indirizzo https://github.com/Ledzy/StreamBP.
I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) sono comunemente derivati estendendo Modelli Linguistici Pre-addestrati di Grande Dimensione (LLMs) con capacità visive. In questo lavoro, indaghiamo come gli MLLMs elaborano gli input visivi analizzando i loro meccanismi di attenzione. Riveliamo un fenomeno sorprendente di sparsità: solo un piccolo sottoinsieme (approssimativamente meno del 5%) delle teste di attenzione negli LLMs contribuisce attivamente alla comprensione visiva, denominate teste visive. Per identificare queste teste in modo efficiente, progettiamo un framework senza addestramento che quantifica la rilevanza visiva a livello di testa attraverso un'analisi mirata delle risposte. Basandoci su questa scoperta, introduciamo SparseMM, una strategia di ottimizzazione KV-Cache che assegna budget computazionali asimmetrici alle teste negli LLMs in base ai loro punteggi visivi, sfruttando la sparsità delle teste visive per accelerare l'inferenza degli MLLMs. Rispetto ai precedenti metodi di accelerazione KV-Cache che ignorano la particolarità del visivo, SparseMM priorizza lo stress e il mantenimento della semantica visiva durante la decodifica. Valutazioni estese su benchmark multimodali mainstream dimostrano che SparseMM raggiunge migliori compromessi tra accuratezza ed efficienza. In particolare, SparseMM offre un'accelerazione in tempo reale di 1.38x e una riduzione della memoria del 52% durante la generazione, mantenendo la parità di prestazioni nei test di efficienza. Il nostro progetto è open source all'indirizzo https://github.com/CR400AF-A/SparseMM.
L'emergenza dei modelli linguistici multimodali di grandi dimensioni (MLLMs) ha guidato progressi significativi nelle applicazioni della visione egocentrica. Queste applicazioni richiedono una comprensione persistente e contestuale degli oggetti, poiché gli utenti interagiscono con strumenti in ambienti dinamici e disordinati. Tuttavia, i benchmark esistenti per sistemi embodied si concentrano principalmente sull'esplorazione di scene statiche, enfatizzando l'aspetto e gli attributi spaziali degli oggetti, trascurando la valutazione dei cambiamenti dinamici derivanti dalle interazioni degli utenti. Per colmare questa lacuna, introduciamo EOC-Bench, un benchmark innovativo progettato per valutare sistematicamente la cognizione embodied centrata sugli oggetti in scenari egocentrici dinamici. In particolare, EOC-Bench presenta 3.277 coppie di domande e risposte annotate meticolosamente, categorizzate in tre categorie temporali: Passato, Presente e Futuro, coprendo 11 dimensioni di valutazione dettagliate e 3 tipi di riferimento visivo agli oggetti. Per garantire una valutazione approfondita, sviluppiamo un framework di annotazione con intervento umano in loop di tipo misto, con quattro tipi di domande, e progettiamo una nuova metrica di accuratezza temporale multi-scala per la valutazione temporale a risposta aperta. Basandoci su EOC-Bench, conduciamo valutazioni complete di vari MLLMs proprietari, open-source e a livello di oggetto. EOC-Bench si pone come uno strumento cruciale per avanzare le capacità cognitive embodied degli oggetti nei MLLMs, stabilendo una solida base per lo sviluppo di modelli core affidabili per sistemi embodied.
La produzione di mappe di texture è una parte fondamentale della modellazione 3D e determina la qualità del rendering. Recentemente, i metodi basati sulla diffusione hanno aperto una nuova strada per la generazione di texture. Tuttavia, la flessibilità di controllo limitata e le modalità di prompt ridotte possono impedire ai creatori di ottenere i risultati desiderati. Inoltre, le incongruenze tra le immagini generate da più prospettive spesso portano a una qualità di generazione delle texture scadente. Per affrontare questi problemi, introduciamo FlexPainter, una nuova pipeline di generazione di texture che consente una guida condizionale multi-modale flessibile e raggiunge una generazione di texture altamente coerente. Uno spazio di embedding condizionale condiviso viene costruito per eseguire un'aggregazione flessibile tra diverse modalità di input. Utilizzando tale spazio di embedding, presentiamo un metodo CFG basato su immagini per scomporre le informazioni strutturali e stilistiche, ottenendo una stilizzazione basata su immagini di riferimento. Sfruttando la conoscenza 3D all'interno del prior di diffusione delle immagini, generiamo prima simultaneamente immagini da più prospettive utilizzando una rappresentazione a griglia per migliorare la comprensione globale. Nel frattempo, proponiamo un modulo di sincronizzazione delle viste e di ponderazione adattiva durante il campionamento della diffusione per garantire ulteriormente la coerenza locale. Infine, un modello di completamento delle texture consapevole del 3D combinato con un modello di miglioramento delle texture viene utilizzato per generare mappe di texture seamless e ad alta risoluzione. Esperimenti completi dimostrano che il nostro framework supera significativamente i metodi all'avanguardia sia in termini di flessibilità che di qualità di generazione.
Chain-of-Thought (CoT) ha ampiamente migliorato il ragionamento matematico nei Large Language Models (LLMs), ma rimane ancora una sfida estenderlo ai domini multimodali. I lavori esistenti adottano un ragionamento testuale simile per l'input di immagini o cercano di intervallare segnali visivi nel CoT matematico. Tuttavia, affrontano tre limitazioni chiave per la risoluzione di problemi matematici: la dipendenza da regioni immagine di forma rettangolare a grana grossa, la percezione limitata degli encoder visivi sui contenuti matematici e la dipendenza da capacità esterne per la modifica visiva. In questo articolo, proponiamo MINT-CoT, introducendo Mathematical INterleaved Tokens per il ragionamento visivo Chain-of-Thought. MINT-CoT intercala in modo adattivo token visivi rilevanti nei passaggi di ragionamento testuale tramite un Interleave Token, che seleziona dinamicamente regioni visive di qualsiasi forma all'interno delle figure matematiche. Per potenziare questa capacità, abbiamo costruito il dataset MINT-CoT, contenente 54K problemi matematici che allineano ogni passaggio di ragionamento con regioni visive a livello di token, accompagnato da una rigorosa pipeline di generazione dei dati. Presentiamo inoltre una strategia di addestramento MINT-CoT in tre fasi, che combina progressivamente CoT SFT solo testo, CoT SFT intervallato e CoT RL intervallato, da cui deriva il nostro modello MINT-CoT-7B. Esperimenti estensivi dimostrano l'efficacia del nostro metodo per un ragionamento visivo intervallato efficace nei domini matematici, dove MINT-CoT-7B supera il modello di riferimento rispettivamente del +34,08% su MathVista, +28,78% su GeoQA e +23,2% su MMStar. Il nostro codice e i dati sono disponibili su https://github.com/xinyan-cxy/MINT-CoT.
Le mappe di profondità sono ampiamente utilizzate nelle pipeline feed-forward di 3D Gaussian Splatting (3DGS) proiettandole in nuvole di punti 3D per la sintesi di nuove viste. Questo approccio offre vantaggi come un addestramento efficiente, l'uso di pose della camera note e una stima accurata della geometria. Tuttavia, le discontinuità di profondità ai bordi degli oggetti spesso portano a nuvole di punti frammentate o sparse, degradando la qualità del rendering — una limitazione ben nota delle rappresentazioni basate sulla profondità. Per affrontare questo problema, introduciamo PM-Loss, una nuova funzione di regolarizzazione basata su una mappa di punti predetta da un transformer pre-addestrato. Sebbene la mappa di punti stessa possa essere meno accurata della mappa di profondità, essa impone efficacemente una regolarità geometrica, specialmente intorno ai bordi degli oggetti. Con la mappa di profondità migliorata, il nostro metodo migliora significativamente il 3DGS feed-forward su varie architetture e scene, fornendo risultati di rendering costantemente migliori. La nostra pagina del progetto: https://aim-uofa.github.io/PMLoss
Attualmente, l'approccio più dominante per stabilire l'allineamento tra linguaggio e immagine consiste nel pre-addestrare congiuntamente encoder di testo e immagine attraverso l'apprendimento contrastivo, come nel caso di CLIP e delle sue varianti. In questo lavoro, ci chiediamo se un tale addestramento congiunto così costoso sia davvero necessario. In particolare, investigiamo se un modello linguistico pre-addestrato e fissato di grandi dimensioni (LLM) possa offrire un encoder di testo sufficientemente buono per guidare l'apprendimento delle rappresentazioni visive. Proponiamo quindi di apprendere l'allineamento Linguaggio-Immagine con un Encoder di Testo Fisso (LIFT) da un LLM, addestrando solo l'encoder di immagine. Sorprendentemente, attraverso benchmarking completi e studi di ablazione, scopriamo che questo framework semplificato LIFT è altamente efficace e supera CLIP nella maggior parte degli scenari che coinvolgono la comprensione compositiva e didascalie lunghe, ottenendo al contempo notevoli guadagni in termini di efficienza computazionale. Il nostro lavoro rappresenta un primo passo verso l'esplorazione sistematica di come gli embedding di testo provenienti da LLM possano guidare l'apprendimento visivo e suggerisce una scelta progettuale alternativa per l'apprendimento di rappresentazioni visive allineate al linguaggio.
I modelli di generazione di immagini autoregressivi (AR) hanno attirato un'attenzione crescente per i loro progressi nella qualità della sintesi, evidenziando la necessità di tecniche di watermarking robuste per prevenire un uso improprio. Tuttavia, le tecniche di watermarking durante la generazione esistenti sono principalmente progettate per i modelli di diffusione, dove i watermark sono incorporati negli stati latenti del processo di diffusione. Questo design presenta sfide significative per un adattamento diretto ai modelli AR, che generano immagini in modo sequenziale attraverso la previsione di token. Inoltre, gli attacchi di rigenerazione basati sulla diffusione possono cancellare efficacemente tali watermark perturbando gli stati latenti del processo di diffusione. Per affrontare queste sfide, proponiamo il Lexical Bias Watermarking (LBW), un nuovo framework progettato per i modelli AR che resiste agli attacchi di rigenerazione. LBW incorpora i watermark direttamente nelle mappe di token, favorendo la selezione di token da una lista verde predefinita durante la generazione. Questo approccio garantisce un'integrazione senza soluzione di continuità con i modelli AR esistenti e si estende naturalmente al watermarking post-hoc. Per aumentare la sicurezza contro attacchi in white-box, invece di utilizzare una singola lista verde, la lista verde per ciascuna immagine viene campionata casualmente da un pool di liste verdi. Il rilevamento del watermark viene eseguito attraverso la quantizzazione e l'analisi statistica della distribuzione dei token. Esperimenti estensivi dimostrano che LBW raggiunge una robustezza superiore del watermark, in particolare nel resistere agli attacchi di rigenerazione.
La generazione e l'editing di ritratti parlanti condizionati dall'audio guidati da input multimodali, inclusi testo, immagini e video, rimane un ambito poco esplorato. In questo articolo, presentiamo SkyReels-Audio, un framework unificato per la sintesi di video di ritratti parlanti ad alta fedeltà e coerenza temporale. Basato su trasformatori di diffusione video pre-addestrati, il nostro framework supporta la generazione e l'editing di lunghezza infinita, consentendo un condizionamento diversificato e controllabile attraverso input multimodali. Utilizziamo una strategia ibrida di apprendimento curriculare per allineare progressivamente l'audio con il movimento facciale, abilitando un controllo multimodale fine su sequenze video lunghe. Per migliorare la coerenza facciale locale, introduciamo una perdita basata su maschera facciale e un meccanismo di guida senza classificatore guidato dall'audio. Un approccio di denoising a finestra scorrevole fonde ulteriormente le rappresentazioni latenti attraverso segmenti temporali, garantendo fedeltà visiva e coerenza temporale su durate estese e diverse identità. Ancora più importante, costruiamo una pipeline dati dedicata per curare triplette di alta qualità costituite da audio, video e descrizioni testuali sincronizzati. Valutazioni benchmark complete dimostrano che SkyReels-Audio raggiunge prestazioni superiori in termini di accuratezza del lip-sync, coerenza dell'identità e dinamiche facciali realistiche, specialmente in condizioni complesse e impegnative.
Questo articolo affronta la sfida della ricostruzione di scene 3D dinamiche con movimenti complessi. Alcuni lavori recenti definiscono primitive gaussiane 3D nello spazio canonico e utilizzano campi di deformazione per mappare le primitive canoniche agli spazi di osservazione, ottenendo una sintesi dinamica in tempo reale. Tuttavia, questi metodi spesso incontrano difficoltà nel gestire scene con movimenti complessi a causa della complessità nell'ottimizzazione dei campi di deformazione. Per superare questo problema, proponiamo FreeTimeGS, una nuova rappresentazione 4D che consente alle primitive gaussiane di apparire in tempi e posizioni arbitrari. A differenza delle primitive gaussiane canoniche, la nostra rappresentazione offre una maggiore flessibilità, migliorando così la capacità di modellare scene 3D dinamiche. Inoltre, dotiamo ciascuna primitiva gaussiana di una funzione di movimento, permettendole di spostarsi nelle regioni vicine nel tempo, riducendo così la ridondanza temporale. I risultati degli esperimenti su diversi dataset dimostrano che la qualità di rendering del nostro metodo supera di gran lunga quella dei metodi recenti.
Ripensiamo le leggi di scala al momento del test da una prospettiva di efficienza pratica, rivelando che l'efficacia dei modelli più piccoli è significativamente sovrastimata. Il lavoro precedente, basato sull'ottimalità computazionale, trascura i colli di bottiglia critici nell'accesso alla memoria introdotti dalle strategie di inferenza (ad esempio, Best-of-N, CoT lunghi). La nostra analisi olistica, che copre modelli da 0,6B a 32B parametri, rivela una nuova Legge di Scala Cinetica che guida meglio l'allocazione delle risorse incorporando sia i costi computazionali che quelli di accesso alla memoria. La Legge di Scala Cinetica suggerisce che la potenza di calcolo al momento del test è più efficace quando utilizzata su modelli al di sopra di una certa soglia rispetto a quelli più piccoli. Una ragione chiave è che, nel TTS, l'attenzione, piuttosto che il numero di parametri, emerge come il fattore di costo dominante. Motivati da ciò, proponiamo un nuovo paradigma di scala incentrato sull'attenzione sparsa, che riduce il costo per token e consente generazioni più lunghe e più campioni paralleli all'interno dello stesso budget di risorse. Empiricamente, dimostriamo che i modelli con attenzione sparsa superano costantemente le controparti dense, ottenendo guadagni superiori a 60 punti nei regimi a basso costo e oltre 5 punti nei regimi ad alto costo per l'accuratezza nella risoluzione di problemi su AIME, includendo valutazioni sui MoE all'avanguardia. Questi risultati suggeriscono che l'attenzione sparsa è essenziale per realizzare il pieno potenziale della scala al momento del test perché, a differenza dell'addestramento, dove la scala dei parametri si satura, l'accuratezza al momento del test continua a migliorare attraverso una maggiore generazione. Il codice è disponibile su https://github.com/Infini-AI-Lab/Kinetics.
Negli studi sull'apprendimento trasferibile, si ottengono leggi di scala per vari importanti modelli di base per prevedere le loro proprietà e prestazioni a scale più ampie. Qui mostriamo come la derivazione delle leggi di scala possa essere utilizzata anche per il confronto tra modelli e dataset, consentendo di decidere quale procedura sia preferibile per il pre-addestramento. Per la prima volta, vengono derivate leggi di scala complete basate su misurazioni dense su un'ampia gamma di scale di modelli e campioni per due importanti procedure di apprendimento linguaggio-immagine, CLIP e MaMMUT, che utilizzano rispettivamente solo una perdita contrastiva o una combinazione di perdita contrastiva e generativa di didascalie. Garantendo un'accuratezza predittiva sufficiente per i punti non inclusi, utilizziamo le leggi di scala derivate per confrontare entrambi i modelli, ottenendo evidenze di un miglioramento più forte di MaMMUT con l'aumento della scala e di una migliore efficienza campionaria rispetto al CLIP standard. Per rafforzare la validità del confronto, mostriamo le leggi di scala per varie attività downstream, classificazione, recupero e segmentazione, e per diversi dataset aperti, DataComp, DFN e Re-LAION, osservando costantemente le stesse tendenze. Mostriamo che il confronto può essere effettuato anche derivando le leggi di scala con un programma di tasso di apprendimento costante, riducendo i costi computazionali. La derivazione accurata delle leggi di scala fornisce quindi i mezzi per eseguire confronti tra modelli e dataset su diverse scale, evitando conclusioni fuorvianti basate su misurazioni da singole scale di riferimento, aprendo la strada a un confronto sistematico e al miglioramento di modelli e dataset aperti per la loro creazione. Rilasciamo tutti i modelli pre-addestrati con i loro checkpoint intermedi, incluso openMaMMUT-L/14, che raggiunge un'accuratezza zero-shot su ImageNet-1k dell'80,3%, addestrato su 12,8 miliardi di campioni da DataComp-1.4B. Il codice per riprodurre gli esperimenti nel documento e i dati grezzi degli esperimenti possono essere trovati su https://github.com/LAION-AI/scaling-laws-for-comparison.
Presentiamo MedAgentGYM, il primo ambiente di formazione pubblicamente disponibile progettato per potenziare le capacità di ragionamento medico basato su codifica nei modelli linguistici di grandi dimensioni (LLM). MedAgentGYM comprende 72.413 istanze di attività distribuite in 129 categorie, derivate da scenari biomedici autentici del mondo reale. Le attività sono racchiuse in ambienti di codifica eseguibili, ciascuno dotato di descrizioni dettagliate dei compiti, meccanismi di feedback interattivi, annotazioni verificabili di verità di base e generazione scalabile di traiettorie di formazione. Un'ampia valutazione di oltre 30 LLM rivela una notevole disparità di prestazioni tra i modelli basati su API commerciali e le controparti open-source. Sfruttando MedAgentGYM, Med-Copilot-7B ottiene significativi miglioramenti delle prestazioni attraverso la messa a punto supervisionata (+36,44%) e il continuo apprendimento per rinforzo (+42,47%), emergendo come un'alternativa economica e rispettosa della privacy, competitiva con gpt-4o. Offrendo sia un benchmark completo che risorse di formazione accessibili e ampliabili all'interno di ambienti di esecuzione unificati, MedAgentGYM fornisce una piattaforma integrata per sviluppare assistenti di codifica basati su LLM per la ricerca e la pratica biomedica avanzata.
La composizione generale di oggetti (GOC) mira a integrare in modo fluido un oggetto target in una scena di sfondo con proprietà geometriche desiderate, preservando simultaneamente i dettagli fini del suo aspetto. Gli approcci recenti derivano incorporamenti semantici e li integrano in modelli di diffusione avanzati per abilitare la generazione con geometria modificabile. Tuttavia, questi incorporamenti altamente compatti codificano solo indizi semantici di alto livello e inevitabilmente scartano i dettagli fini dell'aspetto. Introduciamo un modello di diffusione con Geometria Modificabile e Aspetto Preservato Disaccoppiato (DGAD) che sfrutta prima gli incorporamenti semantici per catturare implicitamente le trasformazioni geometriche desiderate e poi utilizza un meccanismo di recupero basato su cross-attention per allineare le caratteristiche fini dell'aspetto con la rappresentazione modificata geometricamente, facilitando sia la modifica precisa della geometria che la preservazione fedele dell'aspetto nella composizione degli oggetti. Nello specifico, DGAD si basa su reti derivate da CLIP/DINO e su reti di riferimento per estrarre incorporamenti semantici e rappresentazioni che preservano l'aspetto, che vengono poi integrati in modo disaccoppiato nelle pipeline di codifica e decodifica. Integriamo prima gli incorporamenti semantici in modelli di diffusione pre-addestrati che mostrano forti capacità di ragionamento spaziale per catturare implicitamente la geometria degli oggetti, facilitando così la manipolazione flessibile degli oggetti e garantendo un'effettiva modificabilità. Successivamente, progettiamo un meccanismo di cross-attention denso che sfrutta la geometria degli oggetti appresa implicitamente per recuperare e allineare spazialmente le caratteristiche dell'aspetto con le loro regioni corrispondenti, garantendo una fedele coerenza dell'aspetto. Esperimenti estesi su benchmark pubblici dimostrano l'efficacia del framework DGAD proposto.
La maggior parte degli encoder visivi esistenti mappano le immagini in una sequenza fissa di token, trascurando il fatto che immagini diverse contengono quantità variabili di informazioni. Ad esempio, un'immagine visivamente complessa (ad esempio, una stanza disordinata) contiene intrinsecamente più informazioni e quindi merita più token rispetto a un'immagine semplice (ad esempio, una parete vuota). Per affrontare questa inefficienza, proponiamo DOVE, un encoder visivo dinamico che produce un numero variabile di token visivi (ovvero, vettori di rappresentazione continua) per ricostruire ciascuna immagine. I nostri risultati mostrano che DOVE riduce significativamente il numero medio di token mantenendo un'elevata qualità di ricostruzione. In diverse attività di probing lineare e di downstream multimodale, supera i metodi di tokenizzazione basati su autoencoder esistenti utilizzando molti meno token, catturando caratteristiche semantiche più espressive rispetto alla codifica a lunghezza fissa. Estendiamo ulteriormente DOVE con la tokenizzazione condizionata da query. Guidando il modello a concentrarsi sulle regioni rilevanti per la query, si ottiene un'estrazione semantica più efficiente e mirata. Il nostro codice e i checkpoint sono disponibili all'indirizzo https://dove-encoder.github.io/dove-encoder.
Il 3D Gaussian Splatting (3DGS) ha attirato notevole attenzione per la sua capacità di rendering in tempo reale e fotorealistico nella sintesi di nuove viste e nella modellazione 3D. Tuttavia, i metodi esistenti faticano a modellare accuratamente scene influenzate da oggetti transitori, portando alla comparsa di artefatti nelle immagini renderizzate. Identifichiamo che il processo di densificazione Gaussiana, pur migliorando la cattura dei dettagli della scena, contribuisce involontariamente a questi artefatti generando ulteriori Gaussiane che modellano disturbi transitori. Per affrontare questo problema, proponiamo RobustSplat, una soluzione robusta basata su due design critici. Innanzitutto, introduciamo una strategia di crescita Gaussiana ritardata che priorizza l'ottimizzazione della struttura statica della scena prima di consentire la divisione/clonazione delle Gaussiane, mitigando l'overfitting agli oggetti transitori nelle prime fasi di ottimizzazione. In secondo luogo, progettiamo un approccio di bootstrapping della maschera a cascata di scala che sfrutta inizialmente la supervisione della similarità delle feature a bassa risoluzione per una stima iniziale affidabile della maschera transitoria, approfittando della sua maggiore coerenza semantica e robustezza al rumore, per poi passare alla supervisione ad alta risoluzione per ottenere una previsione della maschera più precisa. Esperimenti estesi su più dataset complessi dimostrano che il nostro metodo supera i metodi esistenti, evidenziando chiaramente la robustezza e l'efficacia della nostra soluzione. La pagina del progetto è disponibile all'indirizzo https://fcyycf.github.io/RobustSplat/.
Mentre si apre l'era degli agenti autonomi che prendono decisioni per conto degli utenti, garantire l'integrità contestuale (CI) -- ovvero quali informazioni siano appropriate condividere durante lo svolgimento di un determinato compito -- diventa una questione centrale nel campo. Proponiamo che la CI richieda una forma di ragionamento in cui l'agente debba considerare il contesto in cui opera. Per testare questa ipotesi, iniziamo sollecitando i modelli linguistici di grandi dimensioni (LLM) a ragionare esplicitamente sulla CI quando decidono quali informazioni divulgare. Successivamente, estendiamo questo approccio sviluppando un framework di apprendimento per rinforzo (RL) che rafforza nei modelli il ragionamento necessario per raggiungere la CI. Utilizzando un dataset sintetico, creato automaticamente, composto da soli 700 esempi ma con contesti e norme di divulgazione delle informazioni diversificati, dimostriamo che il nostro metodo riduce sostanzialmente la divulgazione inappropriata di informazioni mantenendo al contempo le prestazioni del compito su diverse dimensioni e famiglie di modelli. È importante sottolineare che i miglioramenti si trasferiscono da questo dataset sintetico a benchmark consolidati di CI come PrivacyLens, che dispone di annotazioni umane e valuta la perdita di privacy degli assistenti AI nelle azioni e nelle chiamate agli strumenti.
Introduciamo Rectified Point Flow, una parametrizzazione unificata che formula la registrazione pairwise di nuvole di punti e l'assemblaggio di forme multi-parte come un singolo problema generativo condizionale. Date nuvole di punti non posizionate, il nostro metodo apprende un campo di velocità puntuale continuo che trasporta i punti rumorosi verso le loro posizioni target, dalle quali vengono recuperate le pose delle parti. A differenza dei lavori precedenti che regrediscono le pose delle parti con una gestione ad-hoc delle simmetrie, il nostro metodo apprende intrinsecamente le simmetrie di assemblaggio senza etichette di simmetria. Insieme a un encoder auto-supervisionato focalizzato sui punti sovrapposti, il nostro metodo raggiunge una nuova performance state-of-the-art su sei benchmark che coprono la registrazione pairwise e l'assemblaggio di forme. In particolare, la nostra formulazione unificata consente un addestramento congiunto efficace su dataset diversi, facilitando l'apprendimento di prior geometriche condivise e, di conseguenza, migliorando l'accuratezza. Pagina del progetto: https://rectified-pointflow.github.io/.
I sistemi di Generazione Aumentata dal Recupero (RAG) soffrono comunemente di Conflitti di Conoscenza, in cui le informazioni esterne recuperate contraddicono la conoscenza parametrica intrinseca dei modelli linguistici di grandi dimensioni (LLM). Ciò influisce negativamente sulle prestazioni in compiti downstream come il question answering (QA). Gli approcci esistenti tentano spesso di mitigare i conflitti confrontando direttamente due fonti di conoscenza in modo affiancato, ma questo può sovraccaricare gli LLM con contesti estranei o prolungati, ostacolando infine la loro capacità di identificare e mitigare le incongruenze. Per affrontare questo problema, proponiamo Micro-Act, un framework con uno spazio di azione gerarchico che percepisce automaticamente la complessità del contesto e scompone adattativamente ciascuna fonte di conoscenza in una sequenza di confronti granulari. Questi confronti sono rappresentati come passi azionabili, consentendo un ragionamento che va oltre il contesto superficiale. Attraverso esperimenti estesi su cinque dataset di benchmark, Micro-Act ottiene costantemente un aumento significativo dell'accuratezza nel QA rispetto ai migliori baseline su tutti e 5 i dataset e 3 tipi di conflitto, specialmente nei tipi temporali e semantici dove tutti i baseline falliscono in modo significativo. Ancora più importante, Micro-Act mostra prestazioni robuste anche su domande senza conflitti, evidenziando il suo valore pratico nelle applicazioni RAG del mondo reale.
La sintesi di video medici dinamici di alta qualità rimane una sfida significativa a causa della necessità di modellare sia la coerenza spaziale che la dinamica temporale. Gli approcci esistenti basati su Transformer presentano limitazioni critiche, tra cui interazioni insufficienti tra i canali, elevata complessità computazionale dovuta al self-attention e una guida di denoising grossolana dagli embedding dei timestep quando si gestiscono livelli di rumore variabili. In questo lavoro, proponiamo FEAT, un Transformer con attenzione efficiente a dimensioni complete, che affronta questi problemi attraverso tre innovazioni chiave: (1) un paradigma unificato con meccanismi di attenzione sequenziali spaziali-temporali-canali per catturare le dipendenze globali in tutte le dimensioni, (2) un design a complessità lineare per i meccanismi di attenzione in ciascuna dimensione, utilizzando l'attenzione key-value ponderata e l'attenzione globale sui canali, e (3) un modulo di guida residua sui valori che fornisce una guida fine a livello di pixel per adattarsi a diversi livelli di rumore. Valutiamo FEAT su benchmark standard e task downstream, dimostrando che FEAT-S, con solo il 23% dei parametri del modello all'avanguardia Endora, raggiunge prestazioni comparabili o addirittura superiori. Inoltre, FEAT-L supera tutti i metodi di confronto su più dataset, mostrando sia una superiorità in termini di efficacia che di scalabilità. Il codice è disponibile all'indirizzo https://github.com/Yaziwel/FEAT.
La calibrazione accurata tra LiDAR e telecamera è fondamentale per fondere la percezione multi-modale nei sistemi di guida autonoma e robotica. I metodi tradizionali di calibrazione richiedono un'ampia raccolta di dati in ambienti controllati e non sono in grado di compensare i cambiamenti di trasformazione durante il movimento del veicolo/robot. In questo articolo, proponiamo il primo modello che utilizza le caratteristiche della vista dall'alto (BEV) per eseguire la calibrazione LiDAR-telecamera a partire da dati grezzi, denominato BEVCALIB. Per raggiungere questo obiettivo, estraiamo separatamente le caratteristiche BEV della telecamera e del LiDAR e le fondiamo in uno spazio condiviso di caratteristiche BEV. Per sfruttare appieno le informazioni geometriche provenienti dalle caratteristiche BEV, introduciamo un nuovo selettore di caratteristiche per filtrare quelle più importanti nel decodificatore di trasformazione, riducendo così il consumo di memoria e consentendo un addestramento efficiente. Valutazioni estensive su KITTI, NuScenes e il nostro dataset dimostrano che BEVCALIB stabilisce un nuovo stato dell'arte. In varie condizioni di rumore, BEVCALIB supera il miglior baseline della letteratura in media del (47,08%, 82,32%) sul dataset KITTI e del (78,17%, 68,29%) sul dataset NuScenes, in termini di (traslazione, rotazione), rispettivamente. Nel dominio open-source, migliora il miglior baseline riproducibile di un ordine di grandezza. Il nostro codice e i risultati demo sono disponibili all'indirizzo https://cisl.ucr.edu/BEVCalib.
La modifica dei materiali degli oggetti nelle immagini basata su immagini esemplari è un'area di ricerca attiva nel campo della visione artificiale e della grafica. Proponiamo MARBLE, un metodo per eseguire la fusione di materiali e ricomporre le proprietà dei materiali a grana fine trovando gli embedding dei materiali nello spazio CLIP e utilizzandoli per controllare modelli pre-addestrati di generazione di immagini da testo. Miglioriamo la modifica dei materiali basata su esemplari individuando un blocco nel denoising UNet responsabile dell'attribuzione dei materiali. Date due immagini esemplari di materiali, troviamo direzioni nello spazio CLIP per fondere i materiali. Inoltre, possiamo ottenere un controllo parametrico su attributi dei materiali a grana fine come ruvidezza, metallicità, trasparenza e luminosità utilizzando una rete poco profonda per prevedere la direzione del cambiamento desiderato dell'attributo del materiale. Eseguiamo analisi qualitative e quantitative per dimostrare l'efficacia del nostro metodo proposto. Presentiamo anche la capacità del nostro metodo di eseguire più modifiche in un singolo passaggio in avanti e l'applicabilità alla pittura. Pagina del progetto: https://marblecontrol.github.io/
L'editing video guidato da testo mira a modificare il contenuto video in base a istruzioni in linguaggio naturale. Sebbene approcci recenti senza addestramento abbiano fatto progressi sfruttando modelli di diffusione pre-addestrati, si basano tipicamente su tecniche di inversione che mappano i video di input nello spazio latente, il che spesso porta a incoerenze temporali e a una ridotta fedeltà strutturale. Per affrontare questo problema, proponiamo FlowDirector, un nuovo framework di editing video senza inversione. Il nostro framework modella il processo di editing come un'evoluzione diretta nello spazio dei dati, guidando il video tramite un'Equazione Differenziale Ordinaria (ODE) per transizioni fluide lungo la sua intrinseca varietà spazio-temporale, preservando così la coerenza temporale e i dettagli strutturali. Per ottenere modifiche localizzate e controllabili, introduciamo un meccanismo di mascheramento guidato dall'attenzione che modula il campo di velocità dell'ODE, preservando le regioni non target sia spazialmente che temporalmente. Inoltre, per affrontare modifiche incomplete e migliorare l'allineamento semantico con le istruzioni di editing, presentiamo una strategia di editing potenziata da guida ispirata al Classifier-Free Guidance, che sfrutta segnali differenziali tra più flussi candidati per orientare la traiettoria di editing verso un allineamento semantico più forte senza compromettere la coerenza strutturale. Esperimenti estesi su benchmark dimostrano che FlowDirector raggiunge prestazioni all'avanguardia nell'aderenza alle istruzioni, nella coerenza temporale e nella conservazione dello sfondo, stabilendo un nuovo paradigma per un editing video efficiente e coerente senza inversione.
I recenti progressi nei modelli linguistici a pensiero lento (ad esempio, OpenAI-o1 e DeepSeek-R1) hanno dimostrato capacità straordinarie in compiti di ragionamento complesso emulando la cognizione riflessiva simile a quella umana. Tuttavia, estendere tali capacità ai modelli linguistici multimodali di grandi dimensioni (MLLM) rimane una sfida a causa dell'elevato costo di riaddestramento degli allineamenti visione-linguaggio quando si aggiornano i modelli linguistici di ragionamento sottostanti. Una soluzione diretta è quella di disaccoppiare la percezione dal ragionamento, ovvero convertire gli input visivi in rappresentazioni linguistiche (ad esempio, didascalie) che vengono poi passate a un potente ragionatore basato solo su testo. Tuttavia, questo disaccoppiamento introduce una sfida critica: l'estrattore visivo deve generare descrizioni che siano sia fedeli all'immagine che sufficientemente informative per supportare un ragionamento accurato a valle. Per affrontare questo problema, proponiamo il Disaccoppiamento Percettivo Allineato al Ragionamento tramite Ottimizzazione della Ricompensa delle Didascalie (RACRO) - una strategia di apprendimento per rinforzo guidata dal ragionamento che allinea il comportamento di generazione delle didascalie dell'estrattore con l'obiettivo di ragionamento. Chiudendo il ciclo percezione-ragionamento tramite l'ottimizzazione basata sulla ricompensa, RACRO migliora significativamente il grounding visivo ed estrae rappresentazioni ottimizzate per il ragionamento. Esperimenti su benchmark multimodali di matematica e scienze dimostrano che il metodo RACRO proposto raggiunge prestazioni medie all'avanguardia, consentendo al contempo una scalabilità superiore e un adattamento plug-and-play a modelli linguistici di ragionamento più avanzati senza la necessità di un costoso riallineamento multimodale.
Le tecniche di watermarking per i modelli linguistici di grandi dimensioni (LLM) possono influenzare significativamente la qualità dell'output, ma i loro effetti sulla veridicità, sicurezza e utilità rimangono criticamente poco esaminati. Questo articolo presenta un'analisi sistematica di come due approcci popolari di watermarking - Gumbel e KGW - influenzano queste proprietà fondamentali di allineamento in quattro LLM allineati. I nostri esperimenti rivelano due distinti modelli di degradazione: l'attenuazione delle protezioni, in cui una maggiore utilità compromette la sicurezza del modello, e l'amplificazione delle protezioni, in cui un'eccessiva cautela riduce l'utilità del modello. Questi modelli emergono da spostamenti indotti dal watermarking nella distribuzione dei token, evidenziando la tensione fondamentale che esiste tra gli obiettivi di allineamento. Per mitigare queste degradazioni, proponiamo il Resampling di Allineamento (AR), un metodo di campionamento in fase di inferenza che utilizza un modello di ricompensa esterno per ripristinare l'allineamento. Stabiliamo un limite inferiore teorico sul miglioramento del punteggio di ricompensa atteso all'aumentare della dimensione del campione e dimostriamo empiricamente che il campionamento di appena 2-4 generazioni con watermarking recupera efficacemente o supera i punteggi di allineamento di base (senza watermarking). Per superare la limitata diversità di risposta del watermarking Gumbel standard, la nostra implementazione modificata sacrifica la rigorosa assenza di distorsione mantenendo una robusta rilevabilità, garantendo la compatibilità con AR. I risultati sperimentali confermano che AR recupera con successo l'allineamento di base in entrambi gli approcci di watermarking, mantenendo una forte rilevabilità del watermark. Questo lavoro rivela il delicato equilibrio tra la forza del watermarking e l'allineamento del modello, fornendo una semplice soluzione in fase di inferenza per implementare responsabilmente LLM con watermarking nella pratica.
La generazione di interazioni mano-oggetto (Hand-Object Interaction, HOI) presenta un significativo potenziale applicativo. Tuttavia, gli approcci attuali per la generazione di movimenti 3D HOI si basano fortemente su modelli 3D predefiniti e dati di movimento acquisiti in laboratorio, limitando le capacità di generalizzazione. Nel frattempo, i metodi di generazione di video HOI privilegiano la fedeltà visiva a livello di pixel, spesso sacrificando la plausibilità fisica. Riconoscendo che l'aspetto visivo e i pattern di movimento condividono leggi fisiche fondamentali nel mondo reale, proponiamo un nuovo framework che combina prior visivi e vincoli dinamici all'interno di un processo di diffusione sincronizzato per generare simultaneamente il video e il movimento HOI. Per integrare le eterogenee semantiche, l'aspetto e le caratteristiche del movimento, il nostro metodo implementa una modulazione adattiva tri-modale per l'allineamento delle caratteristiche, abbinata a un'attenzione completa 3D per modellare le dipendenze inter- e intra-modali. Inoltre, introduciamo un modello di diffusione di interazione 3D consapevole della visione che genera sequenze di interazione 3D esplicite direttamente dagli output della diffusione sincronizzata, per poi riutilizzarle in un ciclo di feedback a circuito chiuso. Questa architettura elimina le dipendenze da modelli di oggetti predefiniti o da guide esplicite di posa, migliorando significativamente la coerenza tra video e movimento. I risultati sperimentali dimostrano la superiorità del nostro metodo rispetto agli approcci all'avanguardia nella generazione di sequenze HOI ad alta fedeltà e dinamicamente plausibili, con notevoli capacità di generalizzazione in scenari reali non visti. Pagina del progetto disponibile all'indirizzo https://github.com/Droliven/SViMo\_project.
Prevedere accuratamente griglie di occupazione 3D da input visivi è fondamentale per la guida autonoma, ma i metodi discriminativi attuali faticano a gestire dati rumorosi, osservazioni incomplete e le strutture complesse intrinseche delle scene 3D. In questo lavoro, riformuliamo la previsione di occupazione 3D come un compito di modellazione generativa utilizzando modelli di diffusione, che apprendono la distribuzione sottostante dei dati e incorporano prior di scene 3D. Questo approccio migliora la coerenza delle previsioni, la robustezza al rumore e gestisce meglio le complessità delle strutture spaziali 3D. I nostri esperimenti estesi dimostrano che i modelli generativi basati su diffusione superano gli approcci discriminativi all'avanguardia, fornendo previsioni di occupazione più realistiche e accurate, specialmente nelle regioni occluse o a bassa visibilità. Inoltre, le previsioni migliorate apportano benefici significativi ai compiti di pianificazione a valle, evidenziando i vantaggi pratici del nostro metodo per applicazioni reali di guida autonoma.
La valutazione automatizzata delle abilità sportive richiede la cattura di schemi di movimento fondamentali che distinguono le prestazioni degli esperti da quelle dei principianti, tuttavia i metodi attuali di campionamento video interrompono la continuità temporale essenziale per la valutazione della competenza. A tal fine, introduciamo il Proficiency-Aware Temporal Sampling (PATS), una nuova strategia di campionamento che preserva i movimenti fondamentali completi all'interno di segmenti temporali continui per la valutazione delle abilità multi-vista. PATS segmenta in modo adattivo i video per garantire che ogni porzione analizzata contenga l'esecuzione completa dei componenti critici della prestazione, ripetendo questo processo su più segmenti per massimizzare la copertura delle informazioni mantenendo la coerenza temporale. Valutato sul benchmark EgoExo4D con SkillFormer, PATS supera l'accuratezza dello stato dell'arte in tutte le configurazioni di visualizzazione (+0,65% a +3,05%) e offre miglioramenti sostanziali in domini impegnativi (+26,22% bouldering, +2,39% musica, +1,13% basket). L'analisi sistematica rivela che PATS si adatta con successo a diverse caratteristiche delle attività, dal campionamento ad alta frequenza per sport dinamici alla segmentazione fine per abilità sequenziali, dimostrando la sua efficacia come approccio adattivo al campionamento temporale che avanza la valutazione automatizzata delle abilità per applicazioni nel mondo reale.
L'interpretazione automatizzata delle immagini TC, in particolare la localizzazione e la descrizione di anomalie attraverso scansioni multi-piano e di tutto il corpo, rimane una sfida significativa nella radiologia clinica. Questo lavoro mira ad affrontare questa sfida attraverso quattro contributi chiave: (i) Sulla tassonomia, collaboriamo con radiologi senior per proporre un sistema di classificazione gerarchico completo, con 404 anomalie rappresentative in tutte le regioni del corpo; (ii) Sui dati, contribuiamo con un dataset contenente oltre 14.5K immagini TC da piani multipli e da tutte le regioni del corpo umano, e forniamo meticolosamente annotazioni di riferimento per oltre 19K anomalie, ciascuna collegata alla descrizione dettagliata e inserita nella tassonomia; (iii) Sullo sviluppo del modello, proponiamo OminiAbnorm-CT, che può automaticamente individuare e descrivere anomalie su immagini TC multi-piano e di tutto il corpo basandosi su query testuali, consentendo anche un'interazione flessibile attraverso prompt visivi; (iv) Sui benchmark, stabiliamo tre compiti di valutazione rappresentativi basati su scenari clinici reali. Attraverso esperimenti estesi, dimostriamo che OminiAbnorm-CT può superare significativamente i metodi esistenti in tutti i compiti e metriche.
Quanto sono specifiche per una lingua le rappresentazioni del parlato apprese da modelli auto-supervisionati? La ricerca esistente ha dimostrato che una gamma di caratteristiche linguistiche può essere decodificata con successo da modelli end-to-end addestrati esclusivamente su registrazioni vocali. Tuttavia, è meno chiaro in che misura il pre-addestramento su lingue specifiche migliori le informazioni linguistiche specifiche per quella lingua. In questo studio, testiamo la codifica delle informazioni fonetiche e lessicali dell'olandese nelle rappresentazioni interne dei modelli Wav2Vec2 auto-supervisionati. Il pre-addestramento esclusivo sull'olandese migliora la rappresentazione delle caratteristiche linguistiche olandesi rispetto al pre-addestramento su quantità simili di inglese o su quantità maggiori di dati multilingue. Questo vantaggio specifico per la lingua è ben rilevato da sonde di clustering o classificazione addestrate ed è parzialmente osservabile utilizzando metriche zero-shot. Inoltre, il beneficio specifico per la lingua nella codifica delle caratteristiche linguistiche si allinea con le prestazioni a valle nel riconoscimento automatico del parlato (ASR).