Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti progressi nella generazione video hanno raggiunto un impressionante realismo nel movimento, ma spesso trascurano la narrazione basata sui personaggi, un compito cruciale per la generazione automatizzata di film e animazioni. Introduciamo Talking Characters, un compito più realistico per generare animazioni di personaggi parlanti direttamente da discorsi e testo. A differenza dei talking head, Talking Characters mira a generare il ritratto completo di uno o più personaggi, andando oltre la regione facciale. In questo articolo, proponiamo MoCha, il primo del suo genere a generare personaggi parlanti. Per garantire una sincronizzazione precisa tra video e discorso, proponiamo un meccanismo di attenzione a finestra tra discorso e video che allinea efficacemente i token di discorso e video. Per affrontare la scarsità di dataset video su larga scala etichettati con discorsi, introduciamo una strategia di addestramento congiunto che sfrutta sia dati video etichettati con discorsi che con testo, migliorando significativamente la generalizzazione attraverso diverse azioni dei personaggi. Progettiamo inoltre modelli di prompt strutturati con tag di personaggio, consentendo, per la prima volta, conversazioni multi-personaggio con dialoghi a turni, permettendo ai personaggi generati dall'IA di impegnarsi in conversazioni contestualmente consapevoli con coerenza cinematografica. Valutazioni qualitative e quantitative estese, inclusi studi sulle preferenze umane e confronti con benchmark, dimostrano che MoCha stabilisce un nuovo standard per la narrazione cinematografica generata dall'IA, raggiungendo un realismo, un'espressività, una controllabilità e una generalizzazione superiori.
Questo articolo esplora il compito della Generazione di Testo Visivo Complesso (CVTG), che si concentra sulla creazione di contenuti testuali intricati distribuiti in diverse regioni all'interno di immagini visive. Nel CVTG, i modelli di generazione di immagini spesso producono testo visivo distorto e sfocato o omettendo parte del testo visivo. Per affrontare queste sfide, proponiamo TextCrafter, un nuovo metodo di rendering multi-testo visivo. TextCrafter utilizza una strategia progressiva per scomporre il testo visivo complesso in componenti distinti, garantendo un allineamento robusto tra il contenuto testuale e il suo supporto visivo. Inoltre, incorpora un meccanismo di potenziamento della focalizzazione sui token per amplificare la prominenza del testo visivo durante il processo di generazione. TextCrafter affronta efficacemente le principali sfide nei compiti CVTG, come la confusione del testo, le omissioni e la sfocatura. Inoltre, presentiamo un nuovo dataset di benchmark, CVTG-2K, progettato per valutare rigorosamente le prestazioni dei modelli generativi nei compiti CVTG. Esperimenti estensivi dimostrano che il nostro metodo supera gli approcci all'avanguardia.
Presentiamo Open-Reasoner-Zero, la prima implementazione open source di un addestramento RL su larga scala orientato al ragionamento, focalizzato su scalabilità, semplicità e accessibilità. Attraverso esperimenti estesi, dimostriamo che un approccio minimalista, con PPO vanilla e GAE (lambda=1, gamma=1) e ricompense basate su regole semplici, senza alcuna regolarizzazione KL, è sufficiente per scalare sia la lunghezza delle risposte che le prestazioni nei benchmark, simile al fenomeno osservato in DeepSeek-R1-Zero. Utilizzando lo stesso modello base di DeepSeek-R1-Zero-Qwen-32B, la nostra implementazione raggiunge prestazioni superiori su AIME2024, MATH500 e il benchmark GPQA Diamond, dimostrando al contempo un'efficienza notevole – richiedendo solo un decimo dei passi di addestramento rispetto alla pipeline DeepSeek-R1-Zero. In spirito open source, rilasciamo il nostro codice sorgente, le impostazioni dei parametri, i dati di addestramento e i pesi del modello in varie dimensioni.
Mentre l'entusiasmo per il ridimensionamento del calcolo (dati e parametri) nell'era del pre-addestramento si è gradualmente attenuato, il ridimensionamento al momento del test (TTS), anche noto come "calcolo al momento del test", è emerso come un importante focus di ricerca. Studi recenti dimostrano che il TTS può ulteriormente stimolare le capacità di risoluzione dei problemi dei grandi modelli linguistici (LLM), consentendo significativi progressi non solo in compiti specializzati di ragionamento, come la matematica e la programmazione, ma anche in compiti generali come domande e risposte aperte. Tuttavia, nonostante l'esplosione di recenti sforzi in questo ambito, rimane un urgente bisogno di una rassegna completa che offra una comprensione sistemica. Per colmare questa lacuna, proponiamo un framework unificato e multidimensionale strutturato lungo quattro dimensioni fondamentali della ricerca sul TTS: cosa ridimensionare, come ridimensionare, dove ridimensionare e quanto bene ridimensionare. Basandoci su questa tassonomia, conduciamo una revisione estesa di metodi, scenari applicativi e aspetti di valutazione, e presentiamo una scomposizione organizzata che evidenzia i ruoli funzionali unici delle singole tecniche all'interno del panorama più ampio del TTS. Da questa analisi, distilliamo le principali traiettorie di sviluppo del TTS fino ad oggi e offriamo linee guida pratiche per l'implementazione. Inoltre, identifichiamo diverse sfide aperte e offriamo spunti su promettenti direzioni future, tra cui un ulteriore ridimensionamento, la chiarificazione dell'essenza funzionale delle tecniche, la generalizzazione a più compiti e ulteriori attribuzioni.
I Large Reasoning Models (LRM) migliorano significativamente la capacità di ragionamento dei Large Language Models (LLM) imparando a ragionare, dimostrando prestazioni promettenti nella risoluzione di compiti complessi. Tuttavia, il loro processo di ragionamento deliberativo porta a inefficienze nell'uso dei token, nel consumo di memoria e nel tempo di inferenza. Pertanto, questa survey fornisce una revisione dei metodi di inferenza efficiente progettati specificamente per gli LRM, concentrandosi sulla mitigazione dell'inefficienza dei token preservando la qualità del ragionamento. In primo luogo, introduciamo una tassonomia per raggruppare i metodi recenti in due categorie principali: (a) Chain-of-Thought (CoT) esplicita compatta, che riduce i token mantenendo la struttura di ragionamento esplicita, e (b) CoT latente implicita, che codifica i passaggi di ragionamento all'interno di rappresentazioni nascoste invece che in token espliciti. Nel frattempo, discutiamo i loro punti di forza e di debolezza. Successivamente, conduciamo analisi empiriche sui metodi esistenti sotto gli aspetti delle prestazioni e dell'efficienza. Inoltre, presentiamo le sfide aperte in questo campo, tra cui il ragionamento controllabile centrato sull'uomo, il compromesso tra interpretabilità ed efficienza del ragionamento, la garanzia della sicurezza del ragionamento efficiente e le applicazioni più ampie del ragionamento efficiente. In aggiunta, evidenziamo intuizioni chiave per migliorare l'efficienza dell'inferenza degli LRM attraverso tecniche come la fusione di modelli, nuove architetture e agenti router. Speriamo che questo lavoro serva come una guida preziosa, aiutando i ricercatori a superare le sfide in questo campo vivace.
La sintesi di interazioni uomo-ambiente (Human-Scene Interactions, HSI) diversificate e fisicamente plausibili è fondamentale sia per l'animazione digitale che per l'AI incarnata. Nonostante i progressi incoraggianti, i metodi attuali si concentrano principalmente sullo sviluppo di controllori separati, ciascuno specializzato per un compito di interazione specifico. Ciò limita significativamente la capacità di affrontare una vasta gamma di compiti HSI complessi che richiedono l'integrazione di più abilità, ad esempio sedersi mentre si trasporta un oggetto. Per risolvere questo problema, presentiamo TokenHSI, una singola politica unificata basata su transformer, in grado di unificare più abilità e adattarsi in modo flessibile. L'intuizione chiave è modellare la propriocezione dell'umanoide come un token condiviso separato e combinarlo con token di compito distinti attraverso un meccanismo di mascheramento. Tale politica unificata consente una condivisione efficace delle conoscenze tra le abilità, facilitando così l'addestramento multi-task. Inoltre, l'architettura della nostra politica supporta input di lunghezza variabile, consentendo un adattamento flessibile delle abilità apprese a nuovi scenari. Addestrando ulteriori tokenizer di compiti, possiamo non solo modificare le geometrie degli obiettivi di interazione, ma anche coordinare più abilità per affrontare compiti complessi. Gli esperimenti dimostrano che il nostro approccio può migliorare significativamente la versatilità, l'adattabilità e l'estensibilità in vari compiti HSI. Sito web: https://liangpan99.github.io/TokenHSI/
L'addestramento di modelli visione-linguaggio (VLMs) richiede tipicamente coppie immagine-testo su larga scala e di alta qualità, ma la raccolta o la sintesi di tali dati è costosa. Al contrario, i dati testuali sono abbondanti ed economici, sollevando la domanda: è possibile sintetizzare dati multimodali di alta qualità esclusivamente dal testo? Per affrontare questa sfida, proponiamo un framework di sintesi dati multimodale integrato in tre fasi, che genera due dataset: Unicorn-1.2M e Unicorn-471K-Instruction. Nella Fase 1: Sintesi di Dati di Didascalie Diversificate, costruiamo 1.2 milioni di didascalie semanticamente diversificate e di alta qualità espandendo semi di didascalie sparse utilizzando modelli linguistici di grandi dimensioni (LLMs). Nella Fase 2: Generazione di Dati per l'Instruction-Tuning, elaboriamo ulteriormente 471.000 didascalie in compiti di instruction-tuning multi-turn per supportare ragionamenti complessi. Infine, nella Fase 3: Trasferimento di Rappresentazione Modale, queste rappresentazioni testuali delle didascalie vengono trasformate in rappresentazioni visive, producendo rappresentazioni di immagini sintetiche diversificate. Questo processo in tre fasi ci permette di costruire Unicorn-1.2M per il pre-training e Unicorn-471K-Instruction per l'instruction-tuning, senza fare affidamento su immagini reali. Eliminando la dipendenza da immagini reali mantenendo qualità e diversità dei dati, il nostro framework offre una soluzione economica e scalabile per l'addestramento di VLMs. Il codice è disponibile all'indirizzo https://github.com/Yu-xm/Unicorn.git.
Ragionare prima di agire e immaginare potenziali esiti (cioè, modelli del mondo) sono elementi essenziali per agenti incarnati che operano in ambienti complessi e aperti. Tuttavia, i lavori precedenti incorporano solo una di queste capacità in un agente end-to-end o integrano più modelli specializzati in un sistema di agenti, limitando l'efficienza di apprendimento e la generalizzazione della politica. Pertanto, questo articolo rappresenta il primo tentativo di sinergizzare Ragionamento e Immaginazione in una politica Generalista end-to-end, denominata RIG. Per addestrare RIG in modo end-to-end, costruiamo una pipeline di dati che integra e arricchisce progressivamente il contenuto dell'immaginazione e del ragionamento nelle traiettorie raccolte da agenti esistenti. L'apprendimento congiunto del ragionamento e della generazione dell'immagine successiva modella esplicitamente la correlazione intrinseca tra ragionamento, azione e dinamiche degli ambienti, dimostrando così un miglioramento di oltre 17 volte nell'efficienza del campionamento e nella generalizzazione rispetto ai lavori precedenti. Durante l'inferenza, RIG prima ragiona sulla prossima azione, produce un'azione potenziale e poi prevede gli esiti dell'azione, offrendo all'agente l'opportunità di rivedere e autocorreggersi in base all'immaginazione prima di compiere azioni reali. I risultati sperimentali mostrano che la sinergia tra ragionamento e immaginazione non solo migliora la robustezza, la generalizzazione e l'interoperabilità della politica generalista, ma consente anche lo scaling al momento del test per migliorare le prestazioni complessive.
L'apprendimento per rinforzo (RL) con ricompense verificabili (RLVR) ha mostrato risultati promettenti in compiti di ragionamento matematico e di codifica dove sono disponibili risposte di riferimento ben strutturate. Tuttavia, la sua applicabilità a domini più ampi rimane poco esplorata. In questo lavoro, studiamo l'estensione di RLVR a domini più diversificati come medicina, chimica, psicologia ed economia. Osserviamo un elevato accordo nei giudizi binari tra diversi modelli linguistici di grandi dimensioni (LLM) quando esistono risposte di riferimento oggettive, il che mette in discussione la necessità di annotazioni su larga scala per addestrare modelli di ricompensa specifici per dominio. Per affrontare i limiti delle ricompense binarie quando si gestiscono risposte di riferimento non strutturate, incorporiamo ulteriormente un punteggio soft basato su modello in RLVR per migliorarne la flessibilità. I nostri esperimenti mostrano che un modello generativo di ricompensa distillato può servire come verificatore efficace tra domini, fornendo segnali di ricompensa affidabili per RL senza richiedere annotazioni specifiche per dominio. Ottimizzando un modello base da 7B utilizzando vari algoritmi di RL rispetto al nostro modello di ricompensa, otteniamo politiche che superano di gran lunga i migliori LLM open-source allineati come Qwen2.5-72B-Instruct e DeepSeek-R1-Distill-Qwen-32B, in diversi domini in contesti di risposte libere. Ciò rafforza anche la robustezza e la scalabilità di RLVR, evidenziandone il potenziale per applicazioni nel mondo reale con etichette rumorose o deboli.
La generazione e l'editing di video condizionati da prompt testuali o immagini hanno registrato progressi significativi. Tuttavia, permangono sfide nel controllare accuratamente il layout globale e i dettagli geometrici esclusivamente attraverso testi, e nel supportare il controllo del movimento e le modifiche locali tramite immagini. In questo articolo, miriamo a ottenere un controllo spaziale e del movimento basato su schizzi per la generazione di video e a supportare un editing granulare di video reali o sintetici. Basandoci sul modello di generazione video DiT, proponiamo una struttura di controllo efficiente in termini di memoria con blocchi di controllo basati su schizzi che predicono le caratteristiche residue dei blocchi DiT saltati. Gli schizzi vengono disegnati su uno o due fotogrammi chiave (in punti temporali arbitrari) per facilitare l'interazione. Per propagare tali condizioni di schizzo temporalmente sparse su tutti i fotogrammi, proponiamo un meccanismo di attenzione inter-fotogramma per analizzare la relazione tra i fotogrammi chiave e ciascun fotogramma del video. Per l'editing video basato su schizzi, progettiamo un modulo aggiuntivo di inserimento video che mantiene la coerenza tra il contenuto appena modificato e la caratteristica spaziale e il movimento dinamico del video originale. Durante l'inferenza, utilizziamo la fusione latente per la preservazione accurata delle regioni non modificate. Esperimenti estensivi dimostrano che il nostro SketchVideo raggiunge prestazioni superiori nella generazione e nell'editing video controllabile.
I modelli linguistici di grandi dimensioni (LLM) potenziati per il ragionamento generano esplicitamente passaggi intermedi di ragionamento prima di produrre risposte finali, aiutando il modello a eccellere nella risoluzione di problemi complessi. In questo articolo, dimostriamo che questo quadro generativo emergente offre un'opportunità unica per un controllo più granulare sul comportamento del modello. Proponiamo l'Intervento di Pensiero, un paradigma innovativo progettato per guidare esplicitamente i processi di ragionamento interni degli LLM inserendo o revisionando strategicamente specifici token di pensiero. Conduciamo valutazioni approfondite su più task, tra cui il seguire istruzioni su IFEval, la gerarchia delle istruzioni su SEP e l'allineamento alla sicurezza su XSTest e SORRY-Bench. I nostri risultati dimostrano che l'Intervento di Pensiero supera significativamente gli approcci di prompting di base, ottenendo miglioramenti fino al 6,7% in termini di accuratezza negli scenari di seguire istruzioni, un aumento del 15,4% nel ragionamento sulle gerarchie di istruzioni e un incremento del 40,0% nei tassi di rifiuto per prompt non sicuri utilizzando i modelli open-source DeepSeek R1. Nel complesso, il nostro lavoro apre una nuova e promettente direzione di ricerca per il controllo dei LLM potenziati per il ragionamento.
Proponiamo un approccio innovativo per la generazione di output complessi che migliora significativamente l'accuratezza nei task di text-to-SQL. Il nostro metodo sfrutta i risultati dell'esecuzione per selezionare la query semanticamente più coerente tra più candidati, consentendo a modelli più piccoli e convenienti di superare metodi di ragionamento computazionalmente intensivi come o1, o3-mini e DeepSeek R1, riducendo i costi di inferenza fino a 30 volte. Si integra facilmente con i modelli esistenti, offrendo un percorso pratico e scalabile verso la generazione di SQL all'avanguardia.
È estremamente desiderabile ottenere un modello in grado di generare mesh 3D di alta qualità da prompt testuali in pochi secondi. Sebbene i recenti tentativi abbiano adattato modelli di diffusione pre-addestrati da testo a immagine, come Stable Diffusion (SD), in generatori di rappresentazioni 3D (ad esempio, Triplane), spesso soffrono di una qualità scadente a causa della mancanza di dati di addestramento 3D di alta qualità sufficienti. Con l'obiettivo di superare la carenza di dati, proponiamo un nuovo schema di addestramento, denominato Progressive Rendering Distillation (PRD), che elimina la necessità di ground-truth 3D distillando modelli di diffusione multi-vista e adattando SD in un generatore 3D nativo. In ogni iterazione dell'addestramento, PRD utilizza la U-Net per denoisare progressivamente il latente dal rumore casuale per pochi passi, e in ogni passo decodifica il latente denoisato in un output 3D. Modelli di diffusione multi-vista, tra cui MVDream e RichDreamer, vengono utilizzati insieme a SD per distillare texture e geometrie coerenti con il testo negli output 3D attraverso la distillazione del punteggio. Poiché PRD supporta l'addestramento senza ground-truth 3D, possiamo facilmente scalare i dati di addestramento e migliorare la qualità della generazione per prompt testuali complessi con concetti creativi. Nel frattempo, PRD può accelerare la velocità di inferenza del modello di generazione in pochi passi. Con PRD, addestriamo un generatore Triplane, denominato TriplaneTurbo, che aggiunge solo il 2,5% di parametri addestrabili per adattare SD alla generazione di Triplane. TriplaneTurbo supera i precedenti generatori da testo a 3D sia in efficienza che in qualità. In particolare, è in grado di produrre mesh 3D di alta qualità in 1,2 secondi e generalizza bene per input testuali complessi. Il codice è disponibile all'indirizzo https://github.com/theEricMa/TriplaneTurbo.
Il rilevamento delle frodi telefoniche affronta sfide significative a causa della mancanza di dati di addestramento multimodali di alta qualità che integrano segnali audio con analisi testuali orientate al ragionamento. Per colmare questa lacuna, presentiamo TeleAntiFraud-28k, il primo dataset open-source audio-testo di "slow-thinking" specificamente progettato per l'analisi automatizzata delle frodi telefoniche. Il nostro dataset è costruito attraverso tre strategie: (1) Generazione di campioni testuali veritieri con preservazione della privacy utilizzando registrazioni di chiamate trascritte tramite riconoscimento vocale automatico (ASR) (con audio originale anonimizzato), garantendo coerenza con il mondo reale attraverso la rigenerazione tramite modelli di sintesi vocale (TTS); (2) Miglioramento semantico tramite campionamento auto-istruttivo basato su modelli linguistici di grandi dimensioni (LLM) su output ASR autentici per ampliare la copertura degli scenari; (3) Sintesi avversaria multi-agente che simula tattiche di frode emergenti attraverso scenari di comunicazione predefiniti e tipologie di frode. Il dataset generato contiene 28.511 coppie audio-testo rigorosamente processate, complete di annotazioni dettagliate per il ragionamento antifrode. Il dataset è suddiviso in tre task: classificazione degli scenari, rilevamento delle frodi, classificazione del tipo di frode. Inoltre, costruiamo TeleAntiFraud-Bench, un benchmark di valutazione standardizzato composto da istanze campionate proporzionalmente dal dataset, per facilitare test sistematici delle prestazioni dei modelli sui task di rilevamento delle frodi telefoniche. Contribuiamo anche con un modello di fine-tuning supervisionato (SFT) ottimizzato per la produzione, addestrato su dati ibridi reali/sintetici, mentre rendiamo open-source il framework di elaborazione dati per consentire l'espansione del dataset guidata dalla comunità. Questo lavoro stabilisce un framework di base per la ricerca multimodale antifrode, affrontando al contempo sfide critiche relative alla privacy dei dati e alla diversità degli scenari. Il progetto sarà rilasciato all'indirizzo https://github.com/JimmyMa99/TeleAntiFraud.
I modelli di azione sono essenziali per consentire agli agenti autonomi di eseguire compiti complessi. Tuttavia, l'addestramento di grandi modelli di azione rimane una sfida a causa della diversità degli ambienti degli agenti e della complessità dei dati agentici. Nonostante il crescente interesse, le infrastrutture esistenti offrono un supporto limitato per il fine-tuning scalabile e specifico per gli agenti. Presentiamo ActionStudio, un framework leggero ed estensibile per dati e addestramento progettato per grandi modelli di azione. ActionStudio unifica traiettorie eterogenee degli agenti attraverso un formato standardizzato, supporta paradigmi di addestramento diversificati tra cui LoRA, fine-tuning completo e configurazioni distribuite, e integra strumenti robusti di pre-elaborazione e verifica. Ne validiamo l'efficacia su benchmark pubblici e realistici del settore, dimostrando prestazioni solide e scalabilità pratica. Abbiamo reso disponibile il codice e i dati su https://github.com/SalesforceAIResearch/xLAM per facilitare la ricerca nella comunità.
Negli ultimi anni, i grandi modelli linguistici (LLM) hanno dimostrato capacità notevoli in vari problemi di intelligenza artificiale. Tuttavia, non riescono a pianificare in modo affidabile, anche quando vengono forniti di una definizione dettagliata del compito di pianificazione. Tentativi di migliorare le loro capacità di pianificazione, come il prompting a catena di pensiero, il fine-tuning e il "ragionamento" esplicito, producono comunque piani errati e generalmente non riescono a generalizzare su compiti più ampi. In questo articolo, mostriamo come utilizzare gli LLM per generare piani corretti, anche per compiti fuori distribuzione di dimensioni crescenti. Per un dato dominio di pianificazione, chiediamo a un LLM di generare diverse funzioni euristiche dipendenti dal dominio sotto forma di codice Python, le valutiamo su un insieme di compiti di addestramento all'interno di una ricerca greedy best-first e selezioniamo quella più efficace. Le euristiche generate dagli LLM risolvono molti più compiti di test non visti rispetto alle euristiche indipendenti dal dominio all'avanguardia per la pianificazione classica. Sono addirittura competitive con il più potente algoritmo di apprendimento per la pianificazione dipendente dal dominio. Questi risultati sono particolarmente significativi considerando che la nostra implementazione proof-of-concept si basa su un pianificatore Python non ottimizzato, mentre i benchmark si basano su codice C++ altamente ottimizzato. In alcuni domini, le euristiche generate dagli LLM espandono meno stati rispetto ai benchmark, rivelando che non solo sono efficientemente calcolabili, ma a volte anche più informative delle euristiche all'avanguardia. Nel complesso, i nostri risultati dimostrano che campionare un insieme di programmi di funzioni euristiche di pianificazione può migliorare significativamente le capacità di pianificazione degli LLM.
Questo lavoro si concentra sull'avatarizzazione 4D in dominio aperto, con l'obiettivo di creare un avatar 4D a partire da un'immagine ritratto in uno stile arbitrario. Selezioniamo i triplan parametrici come rappresentazione intermedia 4D e proponiamo un paradigma di addestramento pratico che sfrutta sia le reti generative adversarial (GAN) che i modelli di diffusione. Il nostro design nasce dall'osservazione che le GAN 4D eccellono nel collegare immagini e triplan senza supervisione, ma spesso incontrano difficoltà nel gestire distribuzioni di dati eterogenee. Un robusto prior di diffusione 2D emerge come soluzione, assistendo la GAN nel trasferire la sua competenza attraverso vari domini. La sinergia tra questi esperti permette la costruzione di un dataset immagine-triplan multi-dominio, che guida lo sviluppo di un creatore di avatar 4D generale. Esperimenti estensivi suggeriscono che il nostro modello, AvatarArtist, è in grado di produrre avatar 4D di alta qualità con una forte robustezza rispetto a vari domini di immagini sorgente. Il codice, i dati e i modelli saranno resi pubblicamente disponibili per facilitare studi futuri.
I recenti progressi in DUSt3R hanno consentito una stima robusta di nuvole dense di punti e parametri della fotocamera per scene statiche, sfruttando architetture di rete Transformer e supervisione diretta su dataset 3D su larga scala. Al contrario, la scala limitata e la diversità dei dataset 4D disponibili rappresentano un importante collo di bottiglia per l'addestramento di un modello 4D altamente generalizzabile. Questo vincolo ha spinto i metodi 4D convenzionali a perfezionare modelli 3D su dati video dinamici scalabili con ulteriori prior geometrici come il flusso ottico e le profondità. In questo lavoro, seguiamo un percorso opposto e introduciamo Easi3R, un metodo semplice ma efficiente per la ricostruzione 4D che non richiede addestramento. Il nostro approccio applica l'adattamento dell'attenzione durante l'inferenza, eliminando la necessità di pre-addestramento da zero o di perfezionamento della rete. Abbiamo scoperto che i livelli di attenzione in DUSt3R codificano intrinsecamente informazioni ricche sul movimento della fotocamera e degli oggetti. Disaccoppiando attentamente queste mappe di attenzione, otteniamo una segmentazione accurata delle regioni dinamiche, una stima della posa della fotocamera e una ricostruzione della mappa densa di punti 4D. Esperimenti estesi su video dinamici del mondo reale dimostrano che il nostro adattamento dell'attenzione leggero supera significativamente i precedenti metodi all'avanguardia che sono stati addestrati o perfezionati su ampi dataset dinamici. Il nostro codice è pubblicamente disponibile per scopi di ricerca all'indirizzo https://easi3r.github.io/.
Nel dominio della creazione di contenuti 3D, il raggiungimento di una topologia ottimale delle mesh attraverso modelli di intelligenza artificiale è da tempo un obiettivo per gli artisti 3D. Metodi precedenti, come MeshGPT, hanno esplorato la generazione di oggetti 3D pronti per l'uso tramite tecniche auto-regressive sulle mesh. Sebbene questi metodi producano risultati visivamente impressionanti, la loro dipendenza da previsioni token-per-token nel processo auto-regressivo porta a diverse limitazioni significative. Queste includono velocità di generazione estremamente lente e un numero incontrollabile di facce della mesh. In questo articolo, introduciamo MeshCraft, un nuovo framework per la generazione efficiente e controllabile di mesh, che sfrutta la diffusione spaziale continua per generare facce triangolari discrete. Nello specifico, MeshCraft è composto da due componenti principali: 1) un VAE basato su transformer che codifica mesh grezze in token continui a livello di faccia e li decodifica nuovamente nelle mesh originali, e 2) un transformer di diffusione basato su flusso condizionato dal numero di facce, che consente la generazione di mesh 3D di alta qualità con un numero predefinito di facce. Utilizzando il modello di diffusione per la generazione simultanea dell'intera topologia della mesh, MeshCraft raggiunge una generazione di mesh ad alta fedeltà a velocità significativamente più elevate rispetto ai metodi auto-regressivi. In particolare, MeshCraft può generare una mesh con 800 facce in soli 3,2 secondi (35 volte più veloce rispetto alle baseline esistenti). Esperimenti estensivi dimostrano che MeshCraft supera le tecniche all'avanguardia sia nelle valutazioni qualitative che quantitative sul dataset ShapeNet e mostra prestazioni superiori sul dataset Objaverse. Inoltre, si integra perfettamente con le strategie di guida condizionale esistenti, dimostrando il suo potenziale per alleviare gli artisti dal lavoro manuale dispendioso coinvolto nella creazione delle mesh.
La maggior parte dei generatori di oggetti 3D si concentra sulla qualità estetica, spesso trascurando i vincoli fisici necessari nelle applicazioni. Uno di questi vincoli è che l'oggetto 3D dovrebbe essere autoportante, ovvero rimanere in equilibrio sotto l'effetto della gravità. Gli approcci precedenti per generare oggetti 3D stabili utilizzavano simulatori fisici differenziabili per ottimizzare la geometria al momento del test, un processo lento, instabile e soggetto a ottimi locali. Ispirati dalla letteratura sull'allineamento dei modelli generativi a feedback esterni, proponiamo Direct Simulation Optimization (DSO), un framework che utilizza il feedback di un simulatore (non differenziabile) per aumentare la probabilità che il generatore 3D produca direttamente oggetti 3D stabili. Costruiamo un dataset di oggetti 3D etichettati con un punteggio di stabilità ottenuto dal simulatore fisico. Possiamo quindi ottimizzare il generatore 3D utilizzando il punteggio di stabilità come metrica di allineamento, tramite direct preference optimization (DPO) o direct reward optimization (DRO), un nuovo obiettivo che introduciamo per allineare i modelli di diffusione senza richiedere preferenze a coppie. I nostri esperimenti dimostrano che il generatore feed-forward ottimizzato, utilizzando l'obiettivo DPO o DRO, è molto più veloce e ha una maggiore probabilità di produrre oggetti stabili rispetto all'ottimizzazione al momento del test. In particolare, il framework DSO funziona anche senza oggetti 3D di riferimento per l'addestramento, consentendo al generatore 3D di migliorarsi automaticamente raccogliendo feedback di simulazione sui propri output.
I Modelli Linguistici Multimodali di Grande Scala (MLLM) sono emersi per affrontare le sfide del Visual Question Answering (VQA), dando vita a un nuovo filone di ricerca focalizzato sulla conduzione di valutazioni oggettive di questi modelli. I metodi di valutazione esistenti presentano limitazioni dovute al significativo carico di lavoro umano richiesto per progettare coppie di domande e risposte per immagini visive, il che intrinsecamente restringe la scala e l'ambito delle valutazioni. Sebbene gli approcci automatizzati MLLM-as-judge tentino di ridurre il carico di lavoro umano attraverso valutazioni automatiche, spesso introducono distorsioni. Per affrontare questi problemi, proponiamo un framework di valutazione MLLM basato su Peer Review non supervisionato. Questo framework utilizza esclusivamente dati immagine, consentendo ai modelli di generare automaticamente domande e condurre valutazioni peer review delle risposte provenienti da altri modelli, alleviando efficacemente la dipendenza dal carico di lavoro umano. Inoltre, introduciamo un sistema di punteggio visione-linguaggio per mitigare i problemi di distorsione, che si concentra su tre aspetti: (i) correttezza della risposta; (ii) comprensione e ragionamento visivo; e (iii) correlazione immagine-testo. I risultati sperimentali dimostrano che UPME raggiunge una correlazione di Pearson di 0.944 con le valutazioni umane sul dataset MMstar e di 0.814 sul dataset ScienceQA, indicando che il nostro framework si allinea strettamente con benchmark progettati da esseri umani e con le preferenze intrinseche degli stessi.
Le capacità di risoluzione di problemi matematici dei modelli linguistici di grandi dimensioni sono diventate un punto focale della ricerca, con un crescente interesse nello sfruttare percorsi di ragionamento auto-generati come un modo promettente per affinare e migliorare questi modelli. Questi percorsi catturano processi logici passo-passo richiedendo solo la risposta corretta per la supervisione. Il metodo di auto-addestramento si è dimostrato efficace nei compiti di ragionamento, eliminando la necessità di modelli esterni e annotazioni manuali. Tuttavia, ottimizzare l'uso dei dati auto-generati per l'addestramento del modello rimane una sfida aperta. In questo lavoro, proponiamo l'Entropy-Based Adaptive Weighting for Self-Training (EAST), una strategia di ponderazione adattiva progettata per dare priorità ai dati incerti durante l'auto-addestramento. Nello specifico, EAST utilizza una funzione di mappatura con un parametro regolabile che controlla l'acutezza della ponderazione, assegnando pesi maggiori ai dati in cui il modello mostra una maggiore incertezza. Questo approccio guida il modello a concentrarsi su esempi più informativi e impegnativi, migliorando così la sua capacità di ragionamento. Valutiamo il nostro approccio sui benchmark GSM8K e MATH. I risultati empirici mostrano che, mentre il metodo standard non produce praticamente alcun miglioramento (0%) su MATH, EAST raggiunge un guadagno di circa l'1% rispetto al modello di base. Su GSM8K, EAST ottiene un ulteriore miglioramento delle prestazioni dell'1-2% rispetto al metodo standard.
La recente comparsa dei Large Vision-Language Models (VLMs) ha portato alla creazione di una varietà di benchmark diversi per valutare tali modelli. Nonostante ciò, osserviamo che la maggior parte dei metodi di valutazione esistenti soffre del fatto che richiedono al modello di scegliere tra risposte predefinite, sacrificando l'apertura, oppure valutano le risposte utilizzando un modello giudice, risultando in una valutazione soggettiva e inaffidabile. Inoltre, notiamo una mancanza di benchmark per i VLMs nella lingua coreana, che sono necessari come metrica separata rispetto ai più comuni benchmark in lingua inglese, poiché le prestazioni dei modelli generativi di linguaggio possono differire significativamente in base alla lingua utilizzata. Pertanto, presentiamo KOFFVQA, un benchmark general-purpose di risposta libera a domande visive in lingua coreana per la valutazione dei VLMs. Il nostro benchmark è composto da 275 domande accuratamente progettate, ciascuna associata a un'immagine e a criteri di valutazione che coprono 10 diversi aspetti delle prestazioni dei VLMs. I criteri di valutazione eliminano il problema dell'inaffidabilità consentendo al modello giudice di valutare ciascuna risposta in base a un insieme predefinito di regole. Definendo i criteri di valutazione in modo oggettivo, anche un piccolo modello open-source può essere utilizzato per valutare i modelli sul nostro benchmark in modo affidabile. Oltre a valutare un gran numero di VLMs esistenti sul nostro benchmark, verifichiamo sperimentalmente che il nostro metodo di utilizzo di criteri di valutazione preesistenti è molto più affidabile rispetto ai metodi esistenti. Il nostro codice di valutazione è disponibile all'indirizzo https://github.com/maum-ai/KOFFVQA.
L'ottimizzazione multiobiettivo evolutiva (EMO) ha compiuto progressi significativi negli ultimi due decenni. Tuttavia, con l'aumento delle dimensioni e della complessità dei problemi, gli algoritmi EMO tradizionali incontrano limitazioni sostanziali nelle prestazioni a causa di un parallelismo e una scalabilità insufficienti. Sebbene la maggior parte del lavoro si sia concentrata sulla progettazione di algoritmi per affrontare queste sfide, poca attenzione è stata dedicata all'accelerazione hardware, lasciando così un evidente divario tra gli algoritmi EMO e i dispositivi di calcolo avanzati, come le GPU. Per colmare questo divario, proponiamo di parallelizzare gli algoritmi EMO sulle GPU attraverso la metodologia di tensorizzazione. Utilizzando la tensorizzazione, le strutture dati e le operazioni degli algoritmi EMO vengono trasformate in rappresentazioni tensoriali concise, che consentono automaticamente l'utilizzo del calcolo GPU. Dimostriamo l'efficacia del nostro approccio applicandolo a tre algoritmi EMO rappresentativi: NSGA-III, MOEA/D e HypE. Per valutare in modo completo la nostra metodologia, introduciamo un benchmark di controllo robotico multiobiettivo utilizzando un motore fisico accelerato da GPU. I nostri esperimenti mostrano che gli algoritmi EMO tensorizzati raggiungono accelerazioni fino a 1113x rispetto alle loro controparti basate su CPU, mantenendo la qualità delle soluzioni e scalando efficacemente le dimensioni della popolazione fino a centinaia di migliaia. Inoltre, gli algoritmi EMO tensorizzati affrontano in modo efficiente complessi compiti di controllo robotico multiobiettivo, producendo soluzioni di alta qualità con comportamenti diversificati. I codici sorgente sono disponibili all'indirizzo https://github.com/EMI-Group/evomo.
I modelli linguistici pre-addestrati su video (Video LLM) dimostrano capacità di ragionamento notevoli, ma adattare questi modelli a nuovi compiti che coinvolgono modalità o tipi di dati aggiuntivi (ad esempio, audio o informazioni 3D) rimane una sfida. In questo articolo, presentiamo PAVE, un framework flessibile per adattare i Video LLM pre-addestrati a compiti downstream con segnali di canale laterale, come audio, indicazioni 3D o video multi-vista. PAVE introduce adattatori leggeri, denominati "patch", che aggiungono un numero ridotto di parametri e operazioni a un modello di base senza modificarne l'architettura o i pesi pre-addestrati. In questo modo, PAVE può adattare efficacemente il modello pre-addestrato per supportare vari compiti downstream, tra cui risposte a domande audio-visive, ragionamento 3D, riconoscimento di video multi-vista e comprensione di video ad alta frequenza di fotogrammi. In questi compiti, PAVE migliora significativamente le prestazioni del modello di base, superando i modelli specifici per compiti all'avanguardia con un costo aggiuntivo minimo di circa lo 0,1% in termini di FLOP e parametri. Inoltre, PAVE supporta l'apprendimento multi-task e si generalizza bene su diversi Video LLM. Il nostro codice è disponibile all'indirizzo https://github.com/dragonlzm/PAVE.
I metodi di Parameter-Efficient FineTuning (PEFT) hanno recentemente guadagnato una popolarità significativa grazie alla diffusa disponibilità di modelli preaddestrati su larga scala. Questi metodi consentono un rapido adattamento a task downstream con un costo computazionale minimo. Tuttavia, i popolari metodi di finetuning come LoRA mostrano una robustezza limitata quando si tratta di scelte di iperparametri o regimi di addestramento prolungati, impedendo prestazioni ottimali out-of-the-box. Al contrario, approcci vincolati, come ETHER, offrono una maggiore robustezza ma sono limitati ad adattamenti di rango estremamente basso e trasformazioni a forza fissa, riducendo il loro potere espressivo di adattamento. In questo lavoro, proponiamo Decoupled Low-rank Adaptation (DeLoRA), un nuovo metodo di finetuning che normalizza e scala matrici a basso rango apprendibili. Vincolando la distanza della trasformazione, DeLoRA disaccoppia efficacemente l'apprendimento angolare dalla forza di adattamento, migliorando la robustezza senza compromettere le prestazioni. Attraverso valutazioni su generazione di immagini guidata da soggetti, comprensione del linguaggio naturale e instruction tuning, dimostriamo che DeLoRA eguaglia o supera le prestazioni dei metodi PEFT concorrenti, mostrando al contempo una robustezza maggiore. Il codice è disponibile all'indirizzo https://github.com/ExplainableML/DeLoRA.
I gesti co-verbali svolgono un ruolo cruciale nella comunicazione non verbale. In questo articolo, introduciamo un nuovo framework per la comprensione dei gesti co-verbali in contesti reali. Nello specifico, proponiamo tre nuovi task e benchmark per valutare la capacità di un modello di comprendere le associazioni tra gesti, testo e parlato: (i) retrieval basato sui gesti, (ii) individuazione di parole accompagnate da gesti e (iii) rilevamento del parlante attivo mediante gesti. Presentiamo un nuovo approccio che apprende una rappresentazione tri-modale parlato-testo-video-gesti per risolvere questi task. Sfruttando una combinazione di perdita contrastiva globale a livello di frase e perdita di accoppiamento locale gesto-parola, dimostriamo che è possibile apprendere una forte rappresentazione dei gesti in modo debolmente supervisionato da video in contesti reali. Le nostre rappresentazioni apprese superano i metodi precedenti, inclusi i grandi modelli visione-linguaggio (VLMs), in tutti e tre i task. Un'ulteriore analisi rivela che le modalità parlato e testo catturano segnali distinti relativi ai gesti, sottolineando i vantaggi dell'apprendimento di uno spazio di embedding condiviso tri-modale. Il dataset, il modello e il codice sono disponibili al seguente indirizzo: https://www.robots.ox.ac.uk/~vgg/research/jegal