Articoli di ricerca IA selezionati quotidianamente con traduzioni
Sebbene i Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) dimostrino capacità notevoli sulle immagini statiche, spesso non riescono a comprendere video brevi dinamici e ricchi di informazioni, un mezzo dominante nel panorama digitale odierno. Per colmare questa lacuna, introduciamo Kwai Keye-VL, un modello multimodale di base da 8 miliardi di parametri progettato per ottenere prestazioni all'avanguardia nella comprensione dei video brevi, mantenendo al contempo solide capacità generali di visione e linguaggio. Lo sviluppo di Keye-VL si basa su due pilastri fondamentali: un dataset massiccio e di alta qualità che supera i 600 miliardi di token con una forte enfasi sui video, e una ricetta di addestramento innovativa. Questa ricetta prevede un processo di pre-addestramento in quattro fasi per un solido allineamento visione-linguaggio, seguito da un meticoloso processo di post-addestramento in due fasi. La prima fase di post-addestramento potenzia capacità fondamentali come il seguire istruzioni, mentre la seconda fase si concentra sulla stimolazione del ragionamento avanzato. In questa seconda fase, un'innovazione chiave è la nostra miscela di dati "cold-start" a cinque modalità, che include "pensiero", "non-pensiero", "auto-pensiero", "pensiero con immagine" e dati video di alta qualità. Questa miscela insegna al modello a decidere quando e come ragionare. Successivi passaggi di apprendimento per rinforzo (RL) e allineamento migliorano ulteriormente queste capacità di ragionamento e correggono comportamenti anomali del modello, come output ripetitivi. Per validare il nostro approccio, conduciamo valutazioni estensive, dimostrando che Keye-VL raggiunge risultati all'avanguardia sui benchmark video pubblici e rimane altamente competitivo su compiti generali basati su immagini (Figura 1). Inoltre, sviluppiamo e rilasciamo il KC-MMBench, un nuovo benchmark progettato per scenari reali di video brevi, dove Keye-VL mostra un vantaggio significativo.
La colorizzazione delle animazioni è una parte cruciale della produzione industriale delle animazioni reali. La colorizzazione di animazioni lunghe comporta costi di manodopera elevati. Pertanto, l'automazione della colorizzazione di animazioni lunghe basata su modelli di generazione video ha un significativo valore di ricerca. Gli studi esistenti si limitano alla colorizzazione a breve termine. Questi studi adottano un paradigma locale, fondendo caratteristiche sovrapposte per ottenere transizioni fluide tra segmenti locali. Tuttavia, il paradigma locale trascura le informazioni globali, non riuscendo a mantenere una consistenza cromatica a lungo termine. In questo studio, sosteniamo che una consistenza cromatica ideale a lungo termine può essere raggiunta attraverso un paradigma globale-locale dinamico, ovvero estraendo dinamicamente caratteristiche globali coerenti con il colore rilevanti per la generazione corrente. Nello specifico, proponiamo LongAnimation, un nuovo framework che include principalmente uno SketchDiT, una Memoria Globale-Locale Dinamica (DGLM) e un Premio per la Coerenza Cromatica. Lo SketchDiT cattura caratteristiche di riferimento ibride per supportare il modulo DGLM. Il modulo DGLM utilizza un modello di comprensione video lungo per comprimere dinamicamente le caratteristiche storiche globali e fondere adattivamente con le caratteristiche della generazione corrente. Per affinare la coerenza cromatica, introduciamo un Premio per la Coerenza Cromatica. Durante l'inferenza, proponiamo una fusione di coerenza cromatica per rendere fluida la transizione tra segmenti video. Esperimenti estesi su animazioni a breve termine (14 fotogrammi) e a lungo termine (media di 500 fotogrammi) dimostrano l'efficacia di LongAnimation nel mantenere la coerenza cromatica a breve e lungo termine per il compito di colorizzazione di animazioni in dominio aperto. Il codice è disponibile all'indirizzo https://cn-makers.github.io/long_animation_web/.
Presentiamo Depth Anything at Any Condition (DepthAnything-AC), un modello di base per la stima della profondità monoculare (MDE) in grado di gestire diverse condizioni ambientali. I precedenti modelli di base MDE raggiungono prestazioni impressionanti in scenari generali, ma non si comportano bene in ambienti complessi del mondo reale che presentano condizioni difficili, come variazioni di illuminazione, condizioni meteorologiche avverse e distorsioni indotte dai sensori. Per superare le sfide della scarsità di dati e dell'incapacità di generare pseudo-etichette di alta qualità da immagini corrotte, proponiamo un paradigma di fine-tuning di regolarizzazione della consistenza non supervisionata che richiede solo una quantità relativamente piccola di dati non etichettati. Inoltre, proponiamo il Vincolo di Distanza Spaziale per imporre esplicitamente al modello di apprendere le relazioni relative a livello di patch, ottenendo confini semantici più chiari e dettagli più accurati. I risultati sperimentali dimostrano le capacità zero-shot di DepthAnything-AC su diversi benchmark, inclusi benchmark di condizioni meteorologiche avverse del mondo reale, benchmark di corruzione sintetica e benchmark generali. Pagina del progetto: https://ghost233lism.github.io/depthanything-AC-page Codice: https://github.com/HVision-NKU/DepthAnythingAC
I notevoli progressi dei modelli di base per la visione e il linguaggio nella comprensione, ragionamento e generazione multimodale hanno stimolato crescenti sforzi per estendere tale intelligenza al mondo fisico, alimentando la fioritura dei modelli visione-linguaggio-azione (VLA). Nonostante approcci apparentemente diversi, osserviamo che gli attuali modelli VLA possono essere unificati in un unico framework: gli input di visione e linguaggio vengono elaborati da una serie di moduli VLA, producendo una catena di token d'azione che codificano progressivamente informazioni più concrete e azionabili, generando infine azioni eseguibili. Determiniamo inoltre che la principale scelta progettuale che distingue i modelli VLA risiede nella formulazione dei token d'azione, che può essere categorizzata in descrizione linguistica, codice, affordance, traiettoria, stato obiettivo, rappresentazione latente, azione grezza e ragionamento. Tuttavia, manca ancora una comprensione completa dei token d'azione, ostacolando significativamente lo sviluppo efficace dei VLA e oscurando le direzioni future. Pertanto, questa survey mira a categorizzare e interpretare la ricerca esistente sui VLA attraverso la lente della tokenizzazione delle azioni, distillare i punti di forza e le limitazioni di ciascun tipo di token e identificare aree di miglioramento. Attraverso questa revisione e analisi sistematica, offriamo una prospettiva sintetizzata sull'evoluzione più ampia dei modelli VLA, evidenziamo direzioni poco esplorate ma promettenti e contribuiamo con linee guida per la ricerca futura, sperando di avvicinare il campo all'intelligenza generale.
Presentiamo FreeMorph, il primo metodo per il morphing di immagini che non richiede tuning e che si adatta a input con semantiche o layout diversi. A differenza dei metodi esistenti che si basano sul fine-tuning di modelli di diffusione pre-addestrati e sono limitati da vincoli temporali e discrepanze semantiche/layout, FreeMorph offre un morphing di immagini ad alta fedeltà senza necessitare di addestramento per ogni istanza. Nonostante la loro efficienza e potenziale, i metodi senza tuning affrontano sfide nel mantenere risultati di alta qualità a causa della natura non lineare del processo di denoising multi-step e dei bias ereditati dal modello di diffusione pre-addestrato. In questo articolo, introduciamo FreeMorph per affrontare queste sfide integrando due innovazioni chiave. 1) Proponiamo innanzitutto un design di interpolazione sferica guidata che incorpora una guida esplicita dalle immagini di input modificando i moduli di self-attention, affrontando così la perdita di identità e garantendo transizioni direzionali lungo la sequenza generata. 2) Introduciamo inoltre una tendenza di variazione orientata ai passi che miscela i moduli di self-attention derivati da ciascuna immagine di input per ottenere transizioni controllate e coerenti che rispettano entrambi gli input. Le nostre valutazioni estensive dimostrano che FreeMorph supera i metodi esistenti, essendo da 10x a 50x più veloce e stabilendo un nuovo stato dell'arte per il morphing di immagini.
Presentiamo il Decodifica Parallela con Consapevolezza Locale (LPD) per accelerare la generazione autoregressiva di immagini. La tradizionale generazione autoregressiva di immagini si basa sulla previsione della patch successiva, un processo vincolato dalla memoria che comporta un'elevata latenza. I lavori esistenti hanno tentato di parallelizzare la previsione della patch successiva passando alla previsione multi-patch per accelerare il processo, ma hanno ottenuto solo una parallelizzazione limitata. Per raggiungere un'elevata parallelizzazione mantenendo la qualità della generazione, introduciamo due tecniche chiave: (1) Modellazione Autoregressiva Parallelizzata Flessibile, una nuova architettura che consente un ordinamento di generazione arbitrario e gradi di parallelizzazione. Utilizza token di query posizionali apprendibili per guidare la generazione nelle posizioni target, garantendo al contempo la visibilità reciproca tra i token generati contemporaneamente per una decodifica parallela coerente. (2) Ordinamento della Generazione con Consapevolezza Locale, una nuova schedulazione che forma gruppi per minimizzare le dipendenze intra-gruppo e massimizzare il supporto contestuale, migliorando la qualità della generazione. Con questi progetti, riduciamo i passaggi di generazione da 256 a 20 (risoluzione 256x256) e da 1024 a 48 (risoluzione 512x512) senza compromettere la qualità nella generazione condizionata per classe su ImageNet, ottenendo una latenza almeno 3,4 volte inferiore rispetto ai precedenti modelli autoregressivi parallelizzati.
La generazione automatica di referti radiologici (RRG) mira a produrre descrizioni testuali dettagliate a partire da immagini cliniche, come le tomografie computerizzate (TC), per migliorare l'accuratezza e l'efficienza della diagnosi e della fornitura di consigli gestionali. La RRG è complicata da due sfide principali: (1) la complessità intrinseca nell'estrazione di informazioni rilevanti dai dati di imaging in condizioni di risorse limitate, e (2) la difficoltà nel valutare oggettivamente le discrepanze tra i referti generati dal modello e quelli redatti da esperti. Per affrontare queste sfide, proponiamo mu^2LLM, un modello linguistico di grandi dimensioni **multiscala** e **multimodale** per i compiti di RRG. Il nuovo {mu}^2Tokenizer, come livello intermedio, integra caratteristiche multimodali provenienti dal tokenizer visivo multiscala e dal tokenizer testuale, migliorando poi la qualità della generazione dei referti attraverso l'ottimizzazione diretta delle preferenze (DPO), guidata da GREEN-RedLlama. I risultati sperimentali su quattro ampi dataset medici di immagini TC e referti dimostrano che il nostro metodo supera gli approcci esistenti, evidenziando il potenziale dei nostri mu^2LLM ottimizzati su dati limitati per i compiti di RRG.
Le applicazioni scientifiche del machine learning spesso si basano su modelli piccoli e specializzati, ottimizzati per domini specifici. Tali modelli spesso raggiungono prestazioni eccellenti, ma mancano di flessibilità. I modelli di base offrono versatilità, ma tipicamente hanno prestazioni inferiori rispetto agli approcci specializzati, specialmente su modalità non tradizionali e domini a coda lunga. Proponiamo MARVIS (Modality Adaptive Reasoning over VISualizations), un metodo senza addestramento che consente anche a piccoli modelli visione-linguaggio di prevedere qualsiasi modalità di dati con alta accuratezza. MARVIS trasforma gli spazi di embedding latenti in rappresentazioni visive e sfrutta le capacità di ragionamento spaziale e fine dei modelli visione-linguaggio per interpretarle e utilizzarle con successo. MARVIS raggiunge prestazioni competitive nei domini visivi, audio, biologici e tabellari utilizzando un singolo modello da 3 miliardi di parametri, ottenendo risultati che superano Gemini del 16% in media e si avvicinano ai metodi specializzati, senza esporre informazioni personalmente identificabili (P.I.I.) o richiedere alcun addestramento specifico per dominio. Rendiamo disponibili il nostro codice e i dataset all'indirizzo https://github.com/penfever/marvis.
La comunicazione faccia a faccia, come attività umana comune, motiva la ricerca sulla generazione interattiva di teste. Un agente virtuale può generare risposte motorie con capacità sia di ascolto che di parlato basandosi sui segnali audio o motori dell'altro utente e di se stesso. Tuttavia, i precedenti paradigmi di generazione basati su clip o i metodi di commutazione esplicita tra generatore di ascolto e parlato presentano limitazioni nell'acquisizione di segnali futuri, nella comprensione contestuale del comportamento e nella fluidità della commutazione, rendendo difficile ottenere risultati in tempo reale e realistici. In questo articolo, proponiamo un framework basato su autoregressione (AR) chiamato ARIG per realizzare la generazione in tempo reale con un maggiore realismo interattivo. Per ottenere la generazione in tempo reale, modelliamo la previsione del movimento come un processo AR non quantizzato vettorialmente. A differenza della previsione basata su indici di codebook discreti, rappresentiamo la distribuzione del movimento utilizzando una procedura di diffusione, ottenendo previsioni più accurate nello spazio continuo. Per migliorare il realismo interattivo, enfatizziamo la comprensione del comportamento interattivo (IBU) e la comprensione dettagliata dello stato conversazionale (CSU). Nell'IBU, basandoci su segnali dual-track e dual-modali, sintetizziamo i comportamenti a breve termine attraverso un apprendimento integrato bidirezionale e eseguiamo una comprensione contestuale su lunghi intervalli. Nel CSU, utilizziamo i segnali di attività vocale e le caratteristiche contestuali dell'IBU per comprendere i vari stati (interruzione, feedback, pausa, ecc.) che esistono nelle conversazioni reali. Questi servono come condizioni per la previsione progressiva finale del movimento. Esperimenti estesi hanno verificato l'efficacia del nostro modello.
Il legame intrinseco tra il movimento facciale e il parlato è spesso trascurato nella modellazione generativa, dove la sintesi di volti parlanti e la conversione da testo a voce (TTS) sono tipicamente affrontate come compiti separati. Questo articolo introduce JAM-Flow, un framework unificato per sintetizzare e condizionare simultaneamente sia il movimento facciale che il parlato. Il nostro approccio sfrutta il flow matching e una nuova architettura Multi-Modal Diffusion Transformer (MM-DiT), integrando moduli specializzati Motion-DiT e Audio-DiT. Questi sono accoppiati tramite strati di attenzione congiunta selettiva e incorporano scelte architetturali chiave, come gli embedding posizionali temporalmente allineati e il mascheramento localizzato dell'attenzione congiunta, per consentire un'interazione cross-modale efficace preservando i punti di forza specifici di ciascuna modalità. Addestrato con un obiettivo di tipo inpainting, JAM-Flow supporta un'ampia gamma di input di condizionamento, inclusi testo, audio di riferimento e movimento di riferimento, facilitando compiti come la generazione sincronizzata di volti parlanti da testo, l'animazione guidata da audio e molto altro, all'interno di un unico modello coerente. JAM-Flow rappresenta un significativo progresso nella modellazione generativa multi-modale, fornendo una soluzione pratica per la sintesi audio-visiva olistica. Pagina del progetto: https://joonghyuk.com/jamflow-web
I benchmark a scelta multipla sono stati a lungo il cavallo di battaglia della valutazione dei modelli linguistici, poiché la valutazione delle scelte multiple è oggettiva e facile da automatizzare. Tuttavia, dimostriamo che le domande a scelta multipla provenienti da benchmark popolari possono spesso essere risposte senza nemmeno vedere la domanda. Queste scorciatoie derivano da una limitazione fondamentale della valutazione discriminativa, non condivisa dalle valutazioni delle risposte libere e generative del modello. Fino a poco tempo fa, non sembrava esserci un'alternativa valida e scalabile alla scelta multipla, ma dimostriamo che questo è cambiato. Consideriamo la valutazione generativa attraverso quello che chiamiamo "answer matching": forniamo al modello candidato la domanda senza le opzioni, lo facciamo generare una risposta libera, quindi utilizziamo un moderno modello linguistico con la risposta di riferimento per determinare se la risposta corrisponde a quella di riferimento. Per confrontare la validità delle diverse strategie di valutazione, annotiamo MMLU-Pro e GPQA-Diamond per ottenere dati di valutazione umana e misuriamo l'accordo di ciascun approccio di valutazione. Troviamo che l'answer matching utilizzando modelli recenti—anche di piccole dimensioni—raggiunge un accordo quasi perfetto, nell'intervallo dell'accordo tra annotatori. Al contrario, sia la valutazione a scelta multipla che l'uso di LLM come giudice senza risposte di riferimento si allineano male con la valutazione umana. Migliorare le valutazioni attraverso l'answer matching non è solo una preoccupazione concettuale: le classifiche di diversi modelli cambiano significativamente quando si valutano le loro risposte libere con l'answer matching. Alla luce di questi risultati, discutiamo come spostare l'ecosistema di valutazione dalla scelta multipla all'answer matching.
I precedenti metodi di editing video guidati da testo spesso soffrono di incoerenza temporale, distorsione del movimento e, soprattutto, di una limitata trasformazione del dominio. Attribuiamo queste limitazioni a una modellazione insufficiente della rilevanza spaziotemporale dei pixel durante il processo di editing. Per affrontare questo problema, proponiamo STR-Match, un algoritmo di editing video senza addestramento che produce video visivamente accattivanti e coerenti spaziotemporalmente attraverso un'ottimizzazione latente guidata dal nostro nuovo punteggio STR. Il punteggio cattura la rilevanza spaziotemporale dei pixel tra frame adiacenti sfruttando moduli di attenzione spaziale 2D e temporale 1D nei modelli di diffusione testo-video (T2V), senza il sovraccarico di meccanismi di attenzione 3D computazionalmente costosi. Integrato in un framework di ottimizzazione latente con una maschera latente, STR-Match genera video temporalmente coerenti e visivamente fedeli, mantenendo prestazioni solide anche sotto significative trasformazioni di dominio, preservando al contempo gli attributi visivi chiave della sorgente. Esperimenti estensivi dimostrano che STR-Match supera costantemente i metodi esistenti sia nella qualità visiva che nella coerenza spaziotemporale.