Articoli di ricerca IA selezionati quotidianamente con traduzioni
Gli agenti Large Language Models (LLMs) sono sempre più cruciali per affrontare compiti complessi in ambienti interattivi. Il lavoro esistente si concentra principalmente sul miglioramento delle prestazioni attraverso il clonaggio del comportamento da esperti più forti, tuttavia tali approcci spesso falliscono nelle applicazioni reali, principalmente a causa dell'incapacità di riprendersi dagli errori. Tuttavia, i dati di critica a livello di passo sono difficili e costosi da raccogliere. Automatizzare e costruire dinamicamente set di auto-critica è quindi cruciale per dotare i modelli di capacità di agente intelligente. In questo lavoro, proponiamo un framework iterativo di auto-addestramento, Agent-R, che consente all'agente linguistico di Riflettere al volo. A differenza dei metodi tradizionali che premiano o penalizzano le azioni in base alla correttezza, Agent-R sfrutta MCTS per costruire dati di addestramento che recuperano traiettorie corrette da quelle errate. Una sfida chiave della riflessione dell'agente risiede nella necessità di una revisione tempestiva anziché aspettare fino alla fine di un rollout. Per affrontare ciò, introduciamo un meccanismo di costruzione della critica guidato dal modello: il modello attore identifica il primo passo errato (entro la sua capacità attuale) in una traiettoria fallita. Partendo da esso, lo uniamo al percorso corretto adiacente, che condivide lo stesso nodo genitore nell'albero. Questa strategia consente al modello di apprendere la riflessione basata sulla sua politica attuale, garantendo quindi una migliore efficienza nell'apprendimento. Per esplorare ulteriormente la scalabilità di questo paradigma di auto-miglioramento, indaghiamo il perfezionamento iterativo delle capacità di correzione degli errori e della costruzione del dataset. I nostri risultati dimostrano che Agent-R migliora continuamente la capacità del modello di riprendersi dagli errori e consente una correzione tempestiva degli errori. Gli esperimenti condotti su tre ambienti interattivi mostrano che Agent-R equipaggia efficacemente gli agenti per correggere azioni erronee evitando loop, ottenendo prestazioni superiori rispetto ai metodi di base (+5,59%).
Introduciamo MMVU, un ampio benchmark di livello esperto multidisciplinare per valutare i modelli di base nell'ambito della comprensione video. MMVU include 3.000 domande annotate da esperti che coprono 27 materie in quattro discipline principali: Scienze, Sanità, Discipline Umanistiche e Scienze Sociali, e Ingegneria. Rispetto ai benchmark precedenti, MMVU presenta tre principali innovazioni. In primo luogo, sfida i modelli ad applicare conoscenze specifiche di dominio e a eseguire ragionamenti di livello esperto per analizzare video di dominio specializzato, andando oltre la percezione visiva di base tipicamente valutata nei benchmark video attuali. In secondo luogo, ogni esempio è annotato da esperti umani da zero. Implementiamo rigorosi controlli sulla qualità dei dati per garantire l'alta qualità del dataset. Infine, ogni esempio è arricchito con ragionamenti annotati da esperti e conoscenze di dominio rilevanti, facilitando l'analisi approfondita. Conduciamo una valutazione approfondita di 32 modelli di base multimodali di frontiera su MMVU. I modelli più recenti capaci di System-2, o1 e Gemini 2.0 Flash Thinking, raggiungono le prestazioni più elevate tra i modelli testati. Tuttavia, non riescono ancora a eguagliare l'esperienza umana. Attraverso analisi degli errori approfondite e studi di casi, offriamo spunti utili per futuri progressi nella comprensione video di livello esperto e ricca di conoscenze per domini specializzati.
Questo articolo rivede l'implementazione del Bilanciamento del Carico della Perdita (LBL) durante l'addestramento dei modelli Mixture-of-Experts (MoEs). In particolare, LBL per MoEs è definito come la somma N_E sum_{i=1}^{N_E} f_i p_i, dove N_E è il numero totale di esperti, f_i rappresenta la frequenza dell'esperto i selezionato e p_i indica il punteggio medio di gating dell'esperto i. I framework di addestramento MoE esistenti di solito adottano la strategia di addestramento parallelo in modo che f_i e il LBL siano calcolati all'interno di un micro-batch e poi mediati tra gruppi paralleli. In sostanza, un micro-batch per l'addestramento di LLM su scala miliardaria contiene normalmente pochissime sequenze. Quindi, il LBL del micro-batch è quasi a livello di sequenza, e il router è spinto a distribuire uniformemente il token all'interno di ciascuna sequenza. In virtù di questo vincolo rigoroso, anche i token da una sequenza specifica del dominio (ad esempio, codice) vengono instradati uniformemente a tutti gli esperti, inibendo così la specializzazione dell'esperto. In questo lavoro, proponiamo di calcolare il LBL utilizzando un global-batch per allentare questo vincolo. Poiché un global-batch contiene sequenze molto più diverse rispetto a un micro-batch, ciò incoraggerà un equilibrio del carico a livello di corpus. In particolare, introduciamo un passaggio di comunicazione aggiuntivo per sincronizzare f_i tra micro-batch e quindi utilizzarlo per calcolare il LBL. Attraverso esperimenti sull'addestramento di LLM basati su MoEs (fino a 42,8 miliardi di parametri totali e 400 miliardi di token), scopriamo sorprendentemente che la strategia del LBL del global-batch porta a eccellenti miglioramenti delle prestazioni sia nella perplessità di pre-addestramento che nei compiti successivi. La nostra analisi rivela che il LBL del global-batch migliora notevolmente anche la specializzazione di dominio degli esperti MoE.
Questo articolo presenta UI-TARS, un modello di agente GUI nativo che percepisce esclusivamente le schermate come input e esegue interazioni simili a quelle umane (ad esempio, operazioni di tastiera e mouse). A differenza dei framework di agenti prevalenti che dipendono da modelli commerciali pesantemente avvolti (ad esempio, GPT-4o) con prompt e flussi di lavoro creati da esperti, UI-TARS è un modello end-to-end che supera tali framework sofisticati. Gli esperimenti dimostrano le sue prestazioni superiori: UI-TARS raggiunge prestazioni di stato dell'arte in oltre 10 benchmark di agenti GUI che valutano percezione, grounding ed esecuzione di compiti GUI. In particolare, nel benchmark OSWorld, UI-TARS raggiunge punteggi di 24,6 con 50 passaggi e 22,7 con 15 passaggi, superando Claude (rispettivamente 22,0 e 14,9). In AndroidWorld, UI-TARS raggiunge 46,6, superando GPT-4o (34,5). UI-TARS incorpora diverse innovazioni chiave: (1) Percezione potenziata: sfruttando un dataset su larga scala di schermate GUI per una comprensione consapevole del contesto degli elementi dell'UI e per una descrizione precisa; (2) Modellazione dell'azione unificata, che standardizza le azioni in uno spazio unificato tra piattaforme e raggiunge un grounding e un'interazione precisi attraverso tracce d'azione su larga scala; (3) Ragionamento System-2, che incorpora un ragionamento deliberato nella presa di decisioni a più passaggi, coinvolgendo molteplici schemi di ragionamento come la decomposizione del compito, il pensiero riflessivo, il riconoscimento delle tappe, ecc.; (4) Addestramento iterativo con tracce online riflessive, che affronta il collo di bottiglia dei dati raccogliendo automaticamente, filtrando e raffinando riflessivamente nuove tracce d'interazione su centinaia di macchine virtuali. Attraverso l'addestramento iterativo e il tuning riflessivo, UI-TARS impara continuamente dai propri errori e si adatta a situazioni impreviste con minima intervento umano. Analizziamo anche il percorso evolutivo degli agenti GUI per guidare ulteriormente lo sviluppo di questo settore.
Presentiamo TokenVerse, un metodo per la personalizzazione multi-concetto, sfruttando un modello di diffusione testo-immagine pre-addestrato. Il nostro framework è in grado di separare elementi visivi complessi e attributi da anche una singola immagine, consentendo al contempo la generazione fluida di combinazioni di concetti estratti da più immagini. A differenza dei lavori esistenti, TokenVerse può gestire più immagini con diversi concetti ciascuna e supporta una vasta gamma di concetti, tra cui oggetti, accessori, materiali, posa e illuminazione. Il nostro lavoro sfrutta un modello testo-immagine basato su DiT, in cui il testo in input influisce sulla generazione attraverso sia l'attenzione che la modulazione (spostamento e scala). Osserviamo che lo spazio di modulazione è semantico e consente un controllo localizzato su concetti complessi. Sfruttando questa intuizione, progettiamo un framework basato sull'ottimizzazione che prende in input un'immagine e una descrizione testuale, e trova per ciascuna parola una direzione distinta nello spazio di modulazione. Queste direzioni possono quindi essere utilizzate per generare nuove immagini che combinano i concetti appresi in una configurazione desiderata. Dimostriamo l'efficacia di TokenVerse in contesti di personalizzazione sfidanti e mettiamo in mostra i suoi vantaggi rispetto ai metodi esistenti. La pagina web del progetto è disponibile su https://token-verse.github.io/
Presentiamo Hunyuan3D 2.0, un avanzato sistema di sintesi 3D su larga scala per la generazione di asset 3D ad alta risoluzione con texture. Questo sistema include due componenti fondamentali: un modello di generazione di forme su larga scala -- Hunyuan3D-DiT, e un modello di sintesi di texture su larga scala -- Hunyuan3D-Paint. Il modello generativo di forme, basato su un trasformatore diffusivo basato su flussi scalabili, mira a creare geometrie che si allineino correttamente con un'immagine di condizione data, ponendo così una solida base per le applicazioni successive. Il modello di sintesi delle texture, beneficiando di forti vincoli geometrici e diffusivi, produce mappe di texture ad alta risoluzione e vibranti per mesh generate o realizzate a mano. Inoltre, abbiamo sviluppato Hunyuan3D-Studio -- una piattaforma di produzione versatile e user-friendly che semplifica il processo di ricreazione degli asset 3D. Consente sia agli utenti professionisti che amatoriali di manipolare o addirittura animare le loro mesh in modo efficiente. Valutiamo sistematicamente i nostri modelli, dimostrando che Hunyuan3D 2.0 supera i modelli state-of-the-art precedenti, inclusi i modelli open-source e i modelli closed-source nei dettagli geometrici, nell'allineamento alle condizioni, nella qualità delle texture, eccetera. Hunyuan3D 2.0 è pubblicamente rilasciato al fine di colmare le lacune nella comunità 3D open-source per quanto riguarda i modelli generativi di fondamenta su larga scala. Il codice e i pesi pre-addestrati dei nostri modelli sono disponibili su: https://github.com/Tencent/Hunyuan3D-2
Nonostante le promettenti prestazioni dei Grandi Modelli Linguaggio e Visione (LVLM) nell'interpretazione visiva, a volte generano output errati. Mentre i modelli di ricompensa (RMs) con apprendimento per rinforzo o ridimensionamento al momento del test offrono il potenziale per migliorare la qualità della generazione, rimane una lacuna critica: i modelli di ricompensa multimodali pubblicamente disponibili per i LVLM sono rari, e i dettagli di implementazione dei modelli proprietari sono spesso poco chiari. Colmiamo questa lacuna con InternLM-XComposer2.5-Reward (IXC-2.5-Reward), un modello di ricompensa multimodale semplice ma efficace che allinea i LVLM con le preferenze umane. Per garantire la robustezza e la versatilità di IXC-2.5-Reward, abbiamo creato un corpus di preferenze multimodale di alta qualità che spazia tra input testuali, immagini e video in diversi settori, come il seguire istruzioni, la comprensione generale, documenti ricchi di testo, ragionamento matematico e comprensione video. IXC-2.5-Reward ottiene eccellenti risultati sul più recente benchmark di modelli di ricompensa multimodali e mostra prestazioni competitive sui benchmark di modelli di ricompensa solo testuali. Dimostriamo inoltre tre applicazioni chiave di IXC-2.5-Reward: (1) Fornire un segnale di supervisione per l'addestramento con RL. Integrare IXC-2.5-Reward con l'Ottimizzazione della Politica Prossimale (PPO) produce IXC-2.5-Chat, che mostra miglioramenti consistenti nel seguire le istruzioni e nel dialogo aperto multimodale; (2) Selezionare la migliore risposta tra le risposte candidate per il ridimensionamento al momento del test; e (3) Filtrare campioni anomali o rumorosi dai dati di addestramento esistenti per l'ottimizzazione delle istruzioni delle immagini e dei video. Per garantire la riproducibilità e facilitare ulteriori ricerche, abbiamo reso disponibili tutti i pesi del modello e le ricette di addestramento su https://github.com/InternLM/InternLM-XComposer.
I modelli di linguaggio di ragionamento (RLM), noti anche come Grandi Modelli di Ragionamento (LRM), come ad esempio l'o1 e l'o3 di OpenAI, il DeepSeek-V3 e il QwQ di Alibaba, hanno ridefinito le capacità di risoluzione dei problemi dell'IA estendendo i grandi modelli di linguaggio (LLM) con meccanismi avanzati di ragionamento. Tuttavia, i loro elevati costi, la natura proprietaria e le complesse architetture - che combinano in modo unico Apprendimento per Rinforzo (RL), euristiche di ricerca e LLM - presentano sfide di accessibilità e scalabilità. Per affrontare queste questioni, proponiamo un piano dettagliato che organizza i componenti RLM in un framework modulare, basato su un'indagine e analisi di tutti i lavori RLM. Questo piano incorpora diverse strutture di ragionamento (catene, alberi, grafi e forme nidificate), strategie di ragionamento (ad esempio, Ricerca ad Albero Monte Carlo, Ricerca a Fascio), concetti di RL (modelli di politica, di valore e altri) e regimi di supervisione (Supervisione Basata sull'Output e Basata sul Processo). Forniamo inoltre dettagliate formulazioni matematiche e specifiche algoritmiche per semplificare l'implementazione di RLM. Mostrando come schemi come LLaMA-Berry, QwQ, Journey Learning e Graph of Thoughts si adattino come casi speciali, dimostriamo la versatilità e il potenziale unificante del piano. Per illustrarne l'utilità, presentiamo x1, un'implementazione modulare per prototipare e sperimentare rapidamente con RLM. Utilizzando x1 e una revisione della letteratura, forniamo importanti intuizioni, come ad esempio l'addestramento a fasi multiple per i modelli di politica e di valore, e l'importanza delle distribuzioni di addestramento familiari. Infine, delineiamo come i RLM possano integrarsi con un ecosistema più ampio di LLM, inclusi strumenti e database. Il nostro lavoro svela la costruzione di RLM, democratizza le capacità avanzate di ragionamento e favorisce l'innovazione, mirando a ridurre il divario tra "IA ricca" e "IA povera" abbassando le barriere allo sviluppo e alla sperimentazione di RLM.
Gli smartphone sono diventati indispensabili nella vita moderna, tuttavia affrontare compiti complessi sui dispositivi mobili rimane spesso frustrante. I recenti progressi nei modelli multimodali di grandi dimensioni (LMM) basati su agenti mobili hanno dimostrato la capacità di percepire e agire negli ambienti mobili. Tuttavia, gli approcci attuali presentano significative limitazioni: non riescono ad affrontare le reali esigenze umane, faticano con compiti che richiedono ragionamento intensivo e a lungo termine, e mancano di meccanismi per imparare e migliorare dalle esperienze precedenti. Per superare queste sfide, presentiamo Mobile-Agent-E, un framework gerarchico multi-agente in grado di auto-evolversi attraverso esperienze passate. Per gerarchico intendiamo una separazione esplicita tra la pianificazione ad alto livello e l'esecuzione delle azioni a basso livello. Il framework è composto da un Manager, responsabile della pianificazione generale suddividendo compiti complessi in sotto-obiettivi, e quattro agenti subordinati - Perceptor, Operator, Action Reflector e Notetaker - che gestiscono rispettivamente la percezione visiva dettagliata, l'esecuzione immediata delle azioni, la verifica degli errori e l'aggregazione delle informazioni. Mobile-Agent-E include anche un modulo di auto-evoluzione innovativo che mantiene una memoria a lungo termine persistente comprendente Suggerimenti e Scorciatoie. I Suggerimenti sono indicazioni generali e lezioni apprese da compiti precedenti su come interagire efficacemente con l'ambiente. Le Scorciatoie sono sequenze riutilizzabili ed eseguibili di operazioni atomiche adattate a subroutine specifiche. L'inclusione di Suggerimenti e Scorciatoie facilita il continuo perfezionamento delle prestazioni e dell'efficienza. Insieme a questo framework, presentiamo Mobile-Eval-E, un nuovo benchmark che include compiti mobili complessi che richiedono interazioni a lungo termine tra più app. I risultati empirici mostrano che Mobile-Agent-E ottiene un miglioramento assoluto del 22% rispetto agli approcci precedenti allo stato dell'arte su tre fondamentali modelli di base. Pagina del progetto: https://x-plug.github.io/MobileAgent.
Gli agenti autonomi alimentati da grandi modelli linguistici (LLM) hanno il potenziale di potenziare le capacità umane, assistendo nelle attività digitali dall'invio di email all'esecuzione di analisi dei dati. Le capacità dei LLM esistenti in tali compiti sono spesso ostacolate dalla mancanza di dati di alta qualità degli agenti provenienti dagli ambienti corrispondenti con cui interagiscono. Proponiamo Learn-by-interact, un framework centrato sui dati per adattare gli agenti LLM a qualsiasi ambiente specifico senza annotazioni umane. Learn-by-interact sintetizza traiettorie di interazioni agente-ambiente basate sulla documentazione e costruisce istruzioni riassumendo o astrattando le storie di interazione, un processo chiamato costruzione inversa. Valutiamo la qualità dei nostri dati sintetici utilizzandoli sia in scenari basati su addestramento che nell'apprendimento in contesto senza addestramento (ICL), dove sviluppiamo approcci innovativi di recupero ottimizzati per gli agenti. Estesi esperimenti su SWE-bench, WebArena, OSWorld e Spider2-V che spaziano tra ambienti di codifica realistici, web e desktop mostrano l'efficacia di Learn-by-interact in vari compiti agentici successivi - i risultati di base migliorano fino al 12,2\% per ICL con Claude-3.5 e 19,5\% per l'addestramento con Codestral-22B. Dimostriamo inoltre il ruolo critico della costruzione inversa, che fornisce fino al 14,0\% di miglioramento per l'addestramento. I nostri studi di ablazione dimostrano l'efficienza fornita dai nostri dati sintetici in ICL e la superiorità del nostro pipeline di recupero rispetto ad approcci alternativi come la generazione con recupero potenziato (RAG) convenzionale. Ci aspettiamo che Learn-by-interact funga da fondamento per la sintesi dei dati degli agenti poiché i LLM vengono sempre più impiegati negli ambienti reali.
Depth Anything ha ottenuto un notevole successo nella stima della profondità monoculare con una forte capacità di generalizzazione. Tuttavia, soffre di inconsistenza temporale nei video, ostacolando le sue applicazioni pratiche. Sono state proposte varie metodologie per alleviare questo problema sfruttando modelli di generazione video o introducendo vincoli da flussi ottici e posizioni delle telecamere. Tuttavia, queste metodologie sono applicabili solo a video brevi (< 10 secondi) e richiedono un compromesso tra qualità ed efficienza computazionale. Proponiamo Video Depth Anything per una stima della profondità coerente e di alta qualità in video super lunghi (oltre diversi minuti) senza sacrificare l'efficienza. Basiamo il nostro modello su Depth Anything V2 e sostituiamo la sua parte finale con una parte spazio-temporale efficiente. Progettiamo una perdita di consistenza temporale semplice ma efficace vincolando il gradiente temporale della profondità, eliminando la necessità di vincoli geometrici aggiuntivi. Il modello è addestrato su un dataset congiunto di profondità video e immagini non etichettate, simile a Depth Anything V2. Inoltre, è stata sviluppata una nuova strategia basata su frame chiave per l'inferenza video a lungo termine. Gli esperimenti mostrano che il nostro modello può essere applicato a video di lunghezza arbitraria senza compromettere qualità, coerenza o capacità di generalizzazione. Valutazioni approfondite su diversi benchmark video dimostrano che il nostro approccio stabilisce un nuovo stato dell'arte nella stima della profondità video senza supervisione. Offriamo modelli di diverse dimensioni per supportare una gamma di scenari, con il nostro modello più piccolo in grado di garantire prestazioni in tempo reale a 30 FPS.
La modellazione generativa mira a trasformare rumore casuale in output strutturati. In questo lavoro, miglioriamo i modelli di diffusione video consentendo il controllo del movimento tramite campionamento di rumore latente strutturato. Ciò viene ottenuto semplicemente modificando i dati: pre-elaboriamo i video di addestramento per ottenere rumore strutturato. Di conseguenza, il nostro metodo è agnostico al design del modello di diffusione, non richiedendo modifiche alle architetture o ai flussi di addestramento del modello. In particolare, proponiamo un algoritmo di distorsione del rumore innovativo, sufficientemente veloce da essere eseguito in tempo reale, che sostituisce la casualità temporale gaussiana con rumore distorto correlato derivato dai campi di flusso ottico, preservando al contempo la gaussianità spaziale. L'efficienza del nostro algoritmo ci consente di ottimizzare i moderni modelli di base di diffusione video utilizzando rumore distorto con un overhead minimo e di fornire una soluzione completa per una vasta gamma di controlli di movimento user-friendly: controllo del movimento locale degli oggetti, controllo del movimento globale della telecamera e trasferimento di movimento. L'armonizzazione tra coerenza temporale e gaussianità spaziale nel nostro rumore distorto porta a un controllo efficace del movimento mantenendo la qualità dei pixel per frame. Estesi esperimenti e studi utente dimostrano i vantaggi del nostro metodo, rendendolo un approccio robusto e scalabile per il controllo del movimento nei modelli di diffusione video. I risultati video sono disponibili sulla nostra pagina web: https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. Il codice sorgente e i checkpoint del modello sono disponibili su GitHub: https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.
Dimostriamo che i tag GPS contenuti nei metadati delle foto forniscono un segnale di controllo utile per la generazione di immagini. Alleniamo modelli GPS-per-immagine e li utilizziamo per compiti che richiedono una comprensione dettagliata di come le immagini variano all'interno di una città. In particolare, alleniamo un modello di diffusione per generare immagini condizionate sia dal GPS che dal testo. Il modello appreso genera immagini che catturano l'aspetto distintivo di diversi quartieri, parchi e luoghi di interesse. Estraiamo inoltre modelli 3D da modelli GPS-per-immagine 2D attraverso campionamento di distillazione del punteggio, utilizzando il condizionamento GPS per vincolare l'aspetto della ricostruzione da ciascun punto di vista. Le nostre valutazioni suggeriscono che i nostri modelli condizionati dal GPS imparano con successo a generare immagini che variano in base alla posizione, e che il condizionamento GPS migliora la stima della struttura 3D.
La qualità dei dati di Supervised Fine-Tuning (SFT) svolge un ruolo critico nel migliorare le capacità conversazionali dei Large Language Models (LLM). Tuttavia, man mano che i LLM diventano più avanzati, la disponibilità di dati SFT di alta qualità annotati da esseri umani è diventata un significativo collo di bottiglia, rendendo necessaria una maggiore dipendenza dai dati di addestramento sintetici. In questo lavoro, presentiamo Condor, un nuovo framework di generazione di dati sintetici a due fasi che incorpora World Knowledge Tree e Self-Reflection Refinement per produrre dati SFT di alta qualità su larga scala. I nostri risultati sperimentali dimostrano che un modello di base sintonizzato su soli 20K campioni generati da Condor raggiunge prestazioni superiori rispetto ai suoi equivalenti. La fase di raffinamento aggiuntiva in Condor consente inoltre un auto-miglioramento iterativo per i LLM a varie scale (fino a 72B), convalidando l'efficacia del nostro approccio. Inoltre, la nostra indagine sullo scaling per i dati sintetici nel post-addestramento rivela un notevole potenziale inesplorato per miglioramenti delle prestazioni, aprendo promettenti vie per futuri studi.
In questo articolo, proponiamo un nuovo metodo di generazione di un volto parlante guidato dall'audio in grado di generare contemporaneamente espressive espressioni facciali e gesti manuali. A differenza dei metodi esistenti che si concentrano sulla generazione di pose dell'intero corpo o dell'intera parte superiore del corpo, esaminiamo le sfide della generazione di gesti durante il discorso e identifichiamo la debole corrispondenza tra le caratteristiche audio e i gesti dell'intero corpo come una limitazione chiave. Per affrontare ciò, ridefiniamo il compito come un processo a due fasi. Nella prima fase, generiamo pose delle mani direttamente dall'input audio, sfruttando la forte correlazione tra i segnali audio e i movimenti delle mani. Nella seconda fase, utilizziamo un modello di diffusione per sintetizzare frame video, incorporando le pose delle mani generate nella prima fase per produrre espressioni facciali realistiche e movimenti del corpo. I nostri risultati sperimentali dimostrano che il metodo proposto supera gli approcci all'avanguardia, come CyberHost e Vlogger, sia in termini di qualità visiva che di precisione di sincronizzazione. Questo lavoro fornisce una nuova prospettiva sulla generazione di gesti guidata dall'audio e un solido framework per creare animazioni espressive e naturali di un volto parlante.
Introduciamo MAGI, un framework ibrido per la generazione di video che combina il modellamento mascherato per la generazione intra-frame con il modellamento causale per la generazione del frame successivo. La nostra innovazione chiave, Complete Teacher Forcing (CTF), condiziona i frame mascherati su frame di osservazione completi anziché mascherati (ovvero Masked Teacher Forcing, MTF), consentendo una transizione fluida dalla generazione autoregressiva a livello di token (livello di patch) a livello di frame. CTF supera significativamente MTF, ottenendo un miglioramento del +23% nei punteggi FVD nella previsione video condizionata al primo frame. Per affrontare problemi come il bias di esposizione, adottiamo strategie di addestramento mirate, stabilendo un nuovo punto di riferimento nella generazione autoregressiva di video. Gli esperimenti mostrano che MAGI può generare sequenze video lunghe e coerenti di oltre 100 frame, anche quando addestrato su soli 16 frame, evidenziando il suo potenziale per la generazione di video scalabile e di alta qualità.
I modelli visione-linguaggio (VLM), che elaborano input di immagini e testo, sono sempre più integrati negli assistenti virtuali e in altre applicazioni di intelligenza artificiale per i consumatori. Senza adeguate protezioni, tuttavia, i VLM potrebbero fornire consigli dannosi (ad esempio, su come autolesionarsi) o incoraggiare comportamenti pericolosi (ad esempio, consumare droghe). Nonostante questi evidenti rischi, finora sono stati condotti pochi studi sull'analisi della sicurezza dei VLM e sui nuovi rischi creati dagli input multimodali. Per colmare questa lacuna, presentiamo MSTS, una Suite di Test di Sicurezza Multimodale per i VLM. MSTS comprende 400 stimoli di test distribuiti su 40 categorie di rischi dettagliate. Ciascun stimolo di test è composto da un testo e un'immagine che rivelano il loro significato non sicuro solo combinati. Con MSTS, individuiamo chiari problemi di sicurezza in diversi VLM aperti. Troviamo anche alcuni VLM sicuri per caso, nel senso che sono sicuri perché non riescono a comprendere nemmeno semplici stimoli di test. Traduciamo MSTS in dieci lingue, presentando stimoli non in lingua inglese per aumentare la frequenza delle risposte non sicure del modello. Mostriamo inoltre che i modelli sono più sicuri quando testati solo con testo piuttosto che con stimoli multimodali. Infine, esploriamo l'automazione delle valutazioni di sicurezza dei VLM, scoprendo che persino i migliori classificatori di sicurezza sono carenti.
Indaghiamo la relazione tra la geometria degli embedding dei token e il loro ruolo nella previsione del token successivo all'interno dei modelli transformer. Un aspetto importante di questa connessione utilizza il concetto di misura empirica, che codifica la distribuzione dei cloud di punti dei token attraverso i livelli del transformer e guida l'evoluzione delle rappresentazioni dei token nell'immagine interagente del campo medio. Utilizziamo metriche come la dimensione intrinseca, l'overlap di vicinato e la similarità coseno per esplorare osservativamente queste misure empiriche attraverso i livelli. Per convalidare il nostro approccio, confrontiamo queste metriche con un dataset in cui i token sono mescolati, interrompendo la struttura sintattica e semantica. Le nostre scoperte rivelano una correlazione tra le proprietà geometriche degli embedding dei token e la perdita di entropia incrociata delle previsioni dei token successivi, implicando che i prompt con valori di perdita più alti hanno token rappresentati in spazi di dimensioni superiori.
La generazione personalizzata di titoli di notizie mira a fornire agli utenti titoli accattivanti adattati alle loro preferenze. I metodi prevalenti si concentrano sulle preferenze dei contenuti orientate agli utenti, ma la maggior parte di essi trascura il fatto che diverse preferenze stilistiche siano fondamentali per gli interessi panoramici degli utenti, portando a una personalizzazione non ottimale. In considerazione di ciò, proponiamo un nuovo framework di Generazione Personalizzata di Titoli Consapevole dello Stile-Contenuto (SCAPE). SCAPE estrae sia le caratteristiche dei contenuti che stilistiche dai titoli con l'aiuto della collaborazione di un grande modello di linguaggio (LLM). Integra inoltre in modo adattivo gli interessi a lungo e a breve termine degli utenti attraverso una rete di fusione gerarchica basata sull'apprendimento contrastivo. Integrando gli interessi panoramici nel generatore di titoli, SCAPE riflette le preferenze stilistiche-contenuto degli utenti durante il processo di generazione. Estesi esperimenti sul dataset del mondo reale PENS dimostrano la superiorità di SCAPE rispetto alle baselines.
I Large Vision Language Models (LVLM) hanno dimostrato notevoli capacità nell'interpretare e descrivere contenuti visivi, raggiungendo prestazioni all'avanguardia in vari compiti visione-linguaggio. Tuttavia, questi modelli mostrano frequentemente comportamenti di allucinazione, generando descrizioni contenenti oggetti o dettagli assenti nell'immagine di input. Il nostro lavoro indaga questo fenomeno analizzando i pattern di attenzione attraverso i livelli e le teste del transformer, rivelando che le allucinazioni derivano spesso dal progressivo deterioramento dell'ancoraggio visivo nei livelli più profondi. Proponiamo un nuovo approccio di modifica dell'attenzione che combina enfasi selettiva sui token e modulazione specifica delle teste per mantenere l'ancoraggio visivo durante l'intero processo di generazione. Il nostro metodo introduce due componenti chiave: (1) un meccanismo di selezione dei token a doppio flusso che identifica e priorita sia i token visuali informativi localmente che significativi spazialmente, e (2) una strategia di modulazione specifica delle teste di attenzione che amplifica differenzialmente l'elaborazione delle informazioni visive in base alla sensibilità visiva misurata delle singole teste di attenzione. Attraverso un'ampia sperimentazione sul dataset MSCOCO, dimostriamo che il nostro approccio riduce i tassi di allucinazione fino al 62,3\% rispetto ai modelli di base mantenendo prestazioni comprese. La nostra analisi rivela che modulare selettivamente i token attraverso le teste di attenzione con diversi livelli di sensibilità visiva può migliorare significativamente l'ancoraggio visivo senza richiedere il ritraining del modello.