ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrezziAccountSpazio di lavoro

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

1

MoCha: Verso la Sintesi di Personaggi Parlanti di Livello Cinematografico
MoCha: Towards Movie-Grade Talking Character Synthesis

Mar 30
ByCong Wei, Bo Sun, Haoyu Ma, Ji Hou, Felix Juefei-Xu, Zecheng He, Xiaoliang Dai, Luxin Zhang, Kunpeng Li, Tingbo Hou, Animesh Sinha, Peter Vajda, Wenhu Chen
138
19

I recenti progressi nella generazione video hanno raggiunto un impressionante realismo nel movimento, ma spesso trascurano la narrazione basata sui personaggi, un compito cruciale per la generazione automatizzata di film e animazioni. Introduciamo Talking Characters, un compito più realistico per generare animazioni di personaggi parlanti direttamente da discorsi e testo. A differenza dei talking head, Talking Characters mira a generare il ritratto completo di uno o più personaggi, andando oltre la regione facciale. In questo articolo, proponiamo MoCha, il primo del suo genere a generare personaggi parlanti. Per garantire una sincronizzazione precisa tra video e discorso, proponiamo un meccanismo di attenzione a finestra tra discorso e video che allinea efficacemente i token di discorso e video. Per affrontare la scarsità di dataset video su larga scala etichettati con discorsi, introduciamo una strategia di addestramento congiunto che sfrutta sia dati video etichettati con discorsi che con testo, migliorando significativamente la generalizzazione attraverso diverse azioni dei personaggi. Progettiamo inoltre modelli di prompt strutturati con tag di personaggio, consentendo, per la prima volta, conversazioni multi-personaggio con dialoghi a turni, permettendo ai personaggi generati dall'IA di impegnarsi in conversazioni contestualmente consapevoli con coerenza cinematografica. Valutazioni qualitative e quantitative estese, inclusi studi sulle preferenze umane e confronti con benchmark, dimostrano che MoCha stabilisce un nuovo standard per la narrazione cinematografica generata dall'IA, raggiungendo un realismo, un'espressività, una controllabilità e una generalizzazione superiori.

2

TextCrafter: Rendering Precise di Testi Multipli in Scene Visuali Complesse
TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes

Mar 30
ByNikai Du, Zhennan Chen, Zhizhou Chen, Shan Gao, Xi Chen, Zhengkai Jiang, Jian Yang, Ying Tai
94
3

Questo articolo esplora il compito della Generazione di Testo Visivo Complesso (CVTG), che si concentra sulla creazione di contenuti testuali intricati distribuiti in diverse regioni all'interno di immagini visive. Nel CVTG, i modelli di generazione di immagini spesso producono testo visivo distorto e sfocato o omettendo parte del testo visivo. Per affrontare queste sfide, proponiamo TextCrafter, un nuovo metodo di rendering multi-testo visivo. TextCrafter utilizza una strategia progressiva per scomporre il testo visivo complesso in componenti distinti, garantendo un allineamento robusto tra il contenuto testuale e il suo supporto visivo. Inoltre, incorpora un meccanismo di potenziamento della focalizzazione sui token per amplificare la prominenza del testo visivo durante il processo di generazione. TextCrafter affronta efficacemente le principali sfide nei compiti CVTG, come la confusione del testo, le omissioni e la sfocatura. Inoltre, presentiamo un nuovo dataset di benchmark, CVTG-2K, progettato per valutare rigorosamente le prestazioni dei modelli generativi nei compiti CVTG. Esperimenti estensivi dimostrano che il nostro metodo supera gli approcci all'avanguardia.

3

Open-Reasoner-Zero: Un Approccio Open Source per Scalare l'Apprendimento per Rinforzo sul Modello Base
Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model

Mar 31
ByJingcheng Hu, Yinmin Zhang, Qi Han, Daxin Jiang, Xiangyu Zhang, Heung-Yeung Shum
62
3

Presentiamo Open-Reasoner-Zero, la prima implementazione open source di un addestramento RL su larga scala orientato al ragionamento, focalizzato su scalabilità, semplicità e accessibilità. Attraverso esperimenti estesi, dimostriamo che un approccio minimalista, con PPO vanilla e GAE (lambda=1, gamma=1) e ricompense basate su regole semplici, senza alcuna regolarizzazione KL, è sufficiente per scalare sia la lunghezza delle risposte che le prestazioni nei benchmark, simile al fenomeno osservato in DeepSeek-R1-Zero. Utilizzando lo stesso modello base di DeepSeek-R1-Zero-Qwen-32B, la nostra implementazione raggiunge prestazioni superiori su AIME2024, MATH500 e il benchmark GPQA Diamond, dimostrando al contempo un'efficienza notevole – richiedendo solo un decimo dei passi di addestramento rispetto alla pipeline DeepSeek-R1-Zero. In spirito open source, rilasciamo il nostro codice sorgente, le impostazioni dei parametri, i dati di addestramento e i pesi del modello in varie dimensioni.

4

Cosa, Come, Dove e Quanto Bene? Un'indagine sul Ridimensionamento al Momento del Test nei Modelli Linguistici di Grande Dimensione
What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models

Mar 31
ByQiyuan Zhang, Fuyuan Lyu, Zexu Sun, Lei Wang, Weixu Zhang, Zhihan Guo, Yufei Wang, Irwin King, Xue Liu, Chen Ma
54
2

Mentre l'entusiasmo per il ridimensionamento del calcolo (dati e parametri) nell'era del pre-addestramento si è gradualmente attenuato, il ridimensionamento al momento del test (TTS), anche noto come "calcolo al momento del test", è emerso come un importante focus di ricerca. Studi recenti dimostrano che il TTS può ulteriormente stimolare le capacità di risoluzione dei problemi dei grandi modelli linguistici (LLM), consentendo significativi progressi non solo in compiti specializzati di ragionamento, come la matematica e la programmazione, ma anche in compiti generali come domande e risposte aperte. Tuttavia, nonostante l'esplosione di recenti sforzi in questo ambito, rimane un urgente bisogno di una rassegna completa che offra una comprensione sistemica. Per colmare questa lacuna, proponiamo un framework unificato e multidimensionale strutturato lungo quattro dimensioni fondamentali della ricerca sul TTS: cosa ridimensionare, come ridimensionare, dove ridimensionare e quanto bene ridimensionare. Basandoci su questa tassonomia, conduciamo una revisione estesa di metodi, scenari applicativi e aspetti di valutazione, e presentiamo una scomposizione organizzata che evidenzia i ruoli funzionali unici delle singole tecniche all'interno del panorama più ampio del TTS. Da questa analisi, distilliamo le principali traiettorie di sviluppo del TTS fino ad oggi e offriamo linee guida pratiche per l'implementazione. Inoltre, identifichiamo diverse sfide aperte e offriamo spunti su promettenti direzioni future, tra cui un ulteriore ridimensionamento, la chiarificazione dell'essenza funzionale delle tecniche, la generalizzazione a più compiti e ulteriori attribuzioni.

5

Inferenza Efficiente per Modelli di Ragionamento su Grande Scala: Una Rassegna
Efficient Inference for Large Reasoning Models: A Survey

Mar 29
ByYue Liu, Jiaying Wu, Yufei He, Hongcheng Gao, Hongyu Chen, Baolong Bi, Jiaheng Zhang, Zhiqi Huang, Bryan Hooi
46
3

I Large Reasoning Models (LRM) migliorano significativamente la capacità di ragionamento dei Large Language Models (LLM) imparando a ragionare, dimostrando prestazioni promettenti nella risoluzione di compiti complessi. Tuttavia, il loro processo di ragionamento deliberativo porta a inefficienze nell'uso dei token, nel consumo di memoria e nel tempo di inferenza. Pertanto, questa survey fornisce una revisione dei metodi di inferenza efficiente progettati specificamente per gli LRM, concentrandosi sulla mitigazione dell'inefficienza dei token preservando la qualità del ragionamento. In primo luogo, introduciamo una tassonomia per raggruppare i metodi recenti in due categorie principali: (a) Chain-of-Thought (CoT) esplicita compatta, che riduce i token mantenendo la struttura di ragionamento esplicita, e (b) CoT latente implicita, che codifica i passaggi di ragionamento all'interno di rappresentazioni nascoste invece che in token espliciti. Nel frattempo, discutiamo i loro punti di forza e di debolezza. Successivamente, conduciamo analisi empiriche sui metodi esistenti sotto gli aspetti delle prestazioni e dell'efficienza. Inoltre, presentiamo le sfide aperte in questo campo, tra cui il ragionamento controllabile centrato sull'uomo, il compromesso tra interpretabilità ed efficienza del ragionamento, la garanzia della sicurezza del ragionamento efficiente e le applicazioni più ampie del ragionamento efficiente. In aggiunta, evidenziamo intuizioni chiave per migliorare l'efficienza dell'inferenza degli LRM attraverso tecniche come la fusione di modelli, nuove architetture e agenti router. Speriamo che questo lavoro serva come una guida preziosa, aiutando i ricercatori a superare le sfide in questo campo vivace.

6

TokenHSI: Sintesi Unificata delle Interazioni Fisiche Uomo-Scena attraverso la Tokenizzazione dei Compiti
TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization

Mar 25
ByLiang Pan, Zeshi Yang, Zhiyang Dou, Wenjia Wang, Buzhen Huang, Bo Dai, Taku Komura, Jingbo Wang
41
3

La sintesi di interazioni uomo-ambiente (Human-Scene Interactions, HSI) diversificate e fisicamente plausibili è fondamentale sia per l'animazione digitale che per l'AI incarnata. Nonostante i progressi incoraggianti, i metodi attuali si concentrano principalmente sullo sviluppo di controllori separati, ciascuno specializzato per un compito di interazione specifico. Ciò limita significativamente la capacità di affrontare una vasta gamma di compiti HSI complessi che richiedono l'integrazione di più abilità, ad esempio sedersi mentre si trasporta un oggetto. Per risolvere questo problema, presentiamo TokenHSI, una singola politica unificata basata su transformer, in grado di unificare più abilità e adattarsi in modo flessibile. L'intuizione chiave è modellare la propriocezione dell'umanoide come un token condiviso separato e combinarlo con token di compito distinti attraverso un meccanismo di mascheramento. Tale politica unificata consente una condivisione efficace delle conoscenze tra le abilità, facilitando così l'addestramento multi-task. Inoltre, l'architettura della nostra politica supporta input di lunghezza variabile, consentendo un adattamento flessibile delle abilità apprese a nuovi scenari. Addestrando ulteriori tokenizer di compiti, possiamo non solo modificare le geometrie degli obiettivi di interazione, ma anche coordinare più abilità per affrontare compiti complessi. Gli esperimenti dimostrano che il nostro approccio può migliorare significativamente la versatilità, l'adattabilità e l'estensibilità in vari compiti HSI. Sito web: https://liangpan99.github.io/TokenHSI/

7

Unicorn: Sintesi di Dati Solo Testo per l'Addestramento di Modelli di Visione e Linguaggio
Unicorn: Text-Only Data Synthesis for Vision Language Model Training

Mar 28
ByXiaomin Yu, Pengxiang Ding, Wenjie Zhang, Siteng Huang, Songyang Gao, Chengwei Qin, Kejian Wu, Zhaoxin Fan, Ziyue Qiao, Donglin Wang
39
2

L'addestramento di modelli visione-linguaggio (VLMs) richiede tipicamente coppie immagine-testo su larga scala e di alta qualità, ma la raccolta o la sintesi di tali dati è costosa. Al contrario, i dati testuali sono abbondanti ed economici, sollevando la domanda: è possibile sintetizzare dati multimodali di alta qualità esclusivamente dal testo? Per affrontare questa sfida, proponiamo un framework di sintesi dati multimodale integrato in tre fasi, che genera due dataset: Unicorn-1.2M e Unicorn-471K-Instruction. Nella Fase 1: Sintesi di Dati di Didascalie Diversificate, costruiamo 1.2 milioni di didascalie semanticamente diversificate e di alta qualità espandendo semi di didascalie sparse utilizzando modelli linguistici di grandi dimensioni (LLMs). Nella Fase 2: Generazione di Dati per l'Instruction-Tuning, elaboriamo ulteriormente 471.000 didascalie in compiti di instruction-tuning multi-turn per supportare ragionamenti complessi. Infine, nella Fase 3: Trasferimento di Rappresentazione Modale, queste rappresentazioni testuali delle didascalie vengono trasformate in rappresentazioni visive, producendo rappresentazioni di immagini sintetiche diversificate. Questo processo in tre fasi ci permette di costruire Unicorn-1.2M per il pre-training e Unicorn-471K-Instruction per l'instruction-tuning, senza fare affidamento su immagini reali. Eliminando la dipendenza da immagini reali mantenendo qualità e diversità dei dati, il nostro framework offre una soluzione economica e scalabile per l'addestramento di VLMs. Il codice è disponibile all'indirizzo https://github.com/Yu-xm/Unicorn.git.

8

RIG: Sinergetica tra Ragionamento e Immaginazione nelle Politiche Generaliste End-to-End
RIG: Synergizing Reasoning and Imagination in End-to-End Generalist Policy

Mar 31
ByZhonghan Zhao, Wenwei Zhang, Haian Huang, Kuikun Liu, Jianfei Gao, Gaoang Wang, Kai Chen
29
3

Ragionare prima di agire e immaginare potenziali esiti (cioè, modelli del mondo) sono elementi essenziali per agenti incarnati che operano in ambienti complessi e aperti. Tuttavia, i lavori precedenti incorporano solo una di queste capacità in un agente end-to-end o integrano più modelli specializzati in un sistema di agenti, limitando l'efficienza di apprendimento e la generalizzazione della politica. Pertanto, questo articolo rappresenta il primo tentativo di sinergizzare Ragionamento e Immaginazione in una politica Generalista end-to-end, denominata RIG. Per addestrare RIG in modo end-to-end, costruiamo una pipeline di dati che integra e arricchisce progressivamente il contenuto dell'immaginazione e del ragionamento nelle traiettorie raccolte da agenti esistenti. L'apprendimento congiunto del ragionamento e della generazione dell'immagine successiva modella esplicitamente la correlazione intrinseca tra ragionamento, azione e dinamiche degli ambienti, dimostrando così un miglioramento di oltre 17 volte nell'efficienza del campionamento e nella generalizzazione rispetto ai lavori precedenti. Durante l'inferenza, RIG prima ragiona sulla prossima azione, produce un'azione potenziale e poi prevede gli esiti dell'azione, offrendo all'agente l'opportunità di rivedere e autocorreggersi in base all'immaginazione prima di compiere azioni reali. I risultati sperimentali mostrano che la sinergia tra ragionamento e immaginazione non solo migliora la robustezza, la generalizzazione e l'interoperabilità della politica generalista, ma consente anche lo scaling al momento del test per migliorare le prestazioni complessive.

9

Ampliamento dell'Apprendimento per Rinforzo con Ricompense Verificabili in Diversi Domini
Expanding RL with Verifiable Rewards Across Diverse Domains

Mar 31
ByYi Su, Dian Yu, Linfeng Song, Juntao Li, Haitao Mi, Zhaopeng Tu, Min Zhang, Dong Yu
24
2

L'apprendimento per rinforzo (RL) con ricompense verificabili (RLVR) ha mostrato risultati promettenti in compiti di ragionamento matematico e di codifica dove sono disponibili risposte di riferimento ben strutturate. Tuttavia, la sua applicabilità a domini più ampi rimane poco esplorata. In questo lavoro, studiamo l'estensione di RLVR a domini più diversificati come medicina, chimica, psicologia ed economia. Osserviamo un elevato accordo nei giudizi binari tra diversi modelli linguistici di grandi dimensioni (LLM) quando esistono risposte di riferimento oggettive, il che mette in discussione la necessità di annotazioni su larga scala per addestrare modelli di ricompensa specifici per dominio. Per affrontare i limiti delle ricompense binarie quando si gestiscono risposte di riferimento non strutturate, incorporiamo ulteriormente un punteggio soft basato su modello in RLVR per migliorarne la flessibilità. I nostri esperimenti mostrano che un modello generativo di ricompensa distillato può servire come verificatore efficace tra domini, fornendo segnali di ricompensa affidabili per RL senza richiedere annotazioni specifiche per dominio. Ottimizzando un modello base da 7B utilizzando vari algoritmi di RL rispetto al nostro modello di ricompensa, otteniamo politiche che superano di gran lunga i migliori LLM open-source allineati come Qwen2.5-72B-Instruct e DeepSeek-R1-Distill-Qwen-32B, in diversi domini in contesti di risposte libere. Ciò rafforza anche la robustezza e la scalabilità di RLVR, evidenziandone il potenziale per applicazioni nel mondo reale con etichette rumorose o deboli.

10

SketchVideo: Generazione e Modifica di Video Basati su Schizzi
SketchVideo: Sketch-based Video Generation and Editing

Mar 30
ByFeng-Lin Liu, Hongbo Fu, Xintao Wang, Weicai Ye, Pengfei Wan, Di Zhang, Lin Gao
23
3

La generazione e l'editing di video condizionati da prompt testuali o immagini hanno registrato progressi significativi. Tuttavia, permangono sfide nel controllare accuratamente il layout globale e i dettagli geometrici esclusivamente attraverso testi, e nel supportare il controllo del movimento e le modifiche locali tramite immagini. In questo articolo, miriamo a ottenere un controllo spaziale e del movimento basato su schizzi per la generazione di video e a supportare un editing granulare di video reali o sintetici. Basandoci sul modello di generazione video DiT, proponiamo una struttura di controllo efficiente in termini di memoria con blocchi di controllo basati su schizzi che predicono le caratteristiche residue dei blocchi DiT saltati. Gli schizzi vengono disegnati su uno o due fotogrammi chiave (in punti temporali arbitrari) per facilitare l'interazione. Per propagare tali condizioni di schizzo temporalmente sparse su tutti i fotogrammi, proponiamo un meccanismo di attenzione inter-fotogramma per analizzare la relazione tra i fotogrammi chiave e ciascun fotogramma del video. Per l'editing video basato su schizzi, progettiamo un modulo aggiuntivo di inserimento video che mantiene la coerenza tra il contenuto appena modificato e la caratteristica spaziale e il movimento dinamico del video originale. Durante l'inferenza, utilizziamo la fusione latente per la preservazione accurata delle regioni non modificate. Esperimenti estensivi dimostrano che il nostro SketchVideo raggiunge prestazioni superiori nella generazione e nell'editing video controllabile.

11

Controllo Efficace dei Modelli di Ragionamento attraverso l'Intervento sul Pensiero
Effectively Controlling Reasoning Models through Thinking Intervention

Mar 31
ByTong Wu, Chong Xiang, Jiachen T. Wang, Prateek Mittal
19
4

I modelli linguistici di grandi dimensioni (LLM) potenziati per il ragionamento generano esplicitamente passaggi intermedi di ragionamento prima di produrre risposte finali, aiutando il modello a eccellere nella risoluzione di problemi complessi. In questo articolo, dimostriamo che questo quadro generativo emergente offre un'opportunità unica per un controllo più granulare sul comportamento del modello. Proponiamo l'Intervento di Pensiero, un paradigma innovativo progettato per guidare esplicitamente i processi di ragionamento interni degli LLM inserendo o revisionando strategicamente specifici token di pensiero. Conduciamo valutazioni approfondite su più task, tra cui il seguire istruzioni su IFEval, la gerarchia delle istruzioni su SEP e l'allineamento alla sicurezza su XSTest e SORRY-Bench. I nostri risultati dimostrano che l'Intervento di Pensiero supera significativamente gli approcci di prompting di base, ottenendo miglioramenti fino al 6,7% in termini di accuratezza negli scenari di seguire istruzioni, un aumento del 15,4% nel ragionamento sulle gerarchie di istruzioni e un incremento del 40,0% nei tassi di rifiuto per prompt non sicuri utilizzando i modelli open-source DeepSeek R1. Nel complesso, il nostro lavoro apre una nuova e promettente direzione di ricerca per il controllo dei LLM potenziati per il ragionamento.

12

Interroga e Conquista: Generazione di SQL Guidata dall'Esecuzione
Query and Conquer: Execution-Guided SQL Generation

Mar 31
ByŁukasz Borchmann, Marek Wydmuch
17
2

Proponiamo un approccio innovativo per la generazione di output complessi che migliora significativamente l'accuratezza nei task di text-to-SQL. Il nostro metodo sfrutta i risultati dell'esecuzione per selezionare la query semanticamente più coerente tra più candidati, consentendo a modelli più piccoli e convenienti di superare metodi di ragionamento computazionalmente intensivi come o1, o3-mini e DeepSeek R1, riducendo i costi di inferenza fino a 30 volte. Si integra facilmente con i modelli esistenti, offrendo un percorso pratico e scalabile verso la generazione di SQL all'avanguardia.

13

Distillazione Progressiva del Rendering: Adattamento di Stable Diffusion per la Generazione Istantanea da Testo a Mesh senza Dati 3D
Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data

Mar 27
ByZhiyuan Ma, Xinyue Liang, Rongyuan Wu, Xiangyu Zhu, Zhen Lei, Lei Zhang
15
2

È estremamente desiderabile ottenere un modello in grado di generare mesh 3D di alta qualità da prompt testuali in pochi secondi. Sebbene i recenti tentativi abbiano adattato modelli di diffusione pre-addestrati da testo a immagine, come Stable Diffusion (SD), in generatori di rappresentazioni 3D (ad esempio, Triplane), spesso soffrono di una qualità scadente a causa della mancanza di dati di addestramento 3D di alta qualità sufficienti. Con l'obiettivo di superare la carenza di dati, proponiamo un nuovo schema di addestramento, denominato Progressive Rendering Distillation (PRD), che elimina la necessità di ground-truth 3D distillando modelli di diffusione multi-vista e adattando SD in un generatore 3D nativo. In ogni iterazione dell'addestramento, PRD utilizza la U-Net per denoisare progressivamente il latente dal rumore casuale per pochi passi, e in ogni passo decodifica il latente denoisato in un output 3D. Modelli di diffusione multi-vista, tra cui MVDream e RichDreamer, vengono utilizzati insieme a SD per distillare texture e geometrie coerenti con il testo negli output 3D attraverso la distillazione del punteggio. Poiché PRD supporta l'addestramento senza ground-truth 3D, possiamo facilmente scalare i dati di addestramento e migliorare la qualità della generazione per prompt testuali complessi con concetti creativi. Nel frattempo, PRD può accelerare la velocità di inferenza del modello di generazione in pochi passi. Con PRD, addestriamo un generatore Triplane, denominato TriplaneTurbo, che aggiunge solo il 2,5% di parametri addestrabili per adattare SD alla generazione di Triplane. TriplaneTurbo supera i precedenti generatori da testo a 3D sia in efficienza che in qualità. In particolare, è in grado di produrre mesh 3D di alta qualità in 1,2 secondi e generalizza bene per input testuali complessi. Il codice è disponibile all'indirizzo https://github.com/theEricMa/TriplaneTurbo.

14

ActionStudio: Un Framework Leggero per i Dati e l'Addestramento di Modelli di Azione su Larga Scala
ActionStudio: A Lightweight Framework for Data and Training of Large Action Models

Mar 28
ByJianguo Zhang, Thai Hoang, Ming Zhu, Zuxin Liu, Shiyu Wang, Tulika Awalgaonkar, Akshara Prabhakar, Haolin Chen, Weiran Yao, Zhiwei Liu, Juntao Tan, Juan Carlos Niebles, Shelby Heinecke, Huan Wang, Silvio Savarese, Caiming Xiong
12
2

I modelli di azione sono essenziali per consentire agli agenti autonomi di eseguire compiti complessi. Tuttavia, l'addestramento di grandi modelli di azione rimane una sfida a causa della diversità degli ambienti degli agenti e della complessità dei dati agentici. Nonostante il crescente interesse, le infrastrutture esistenti offrono un supporto limitato per il fine-tuning scalabile e specifico per gli agenti. Presentiamo ActionStudio, un framework leggero ed estensibile per dati e addestramento progettato per grandi modelli di azione. ActionStudio unifica traiettorie eterogenee degli agenti attraverso un formato standardizzato, supporta paradigmi di addestramento diversificati tra cui LoRA, fine-tuning completo e configurazioni distribuite, e integra strumenti robusti di pre-elaborazione e verifica. Ne validiamo l'efficacia su benchmark pubblici e realistici del settore, dimostrando prestazioni solide e scalabilità pratica. Abbiamo reso disponibile il codice e i dati su https://github.com/SalesforceAIResearch/xLAM per facilitare la ricerca nella comunità.

15

TeleAntiFraud-28k: Un Dataset Audio-Testuale a Pensiero Lento per il Rilevamento di Frodi nelle Telecomunicazioni
TeleAntiFraud-28k: A Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection

Mar 31
ByZhiming Ma, Peidong Wang, Minhua Huang, Jingpeng Wang, Kai Wu, Xiangzhao Lv, Yachun Pang, Yin Yang, Wenjie Tang, Yuchen Kang
11
2

Il rilevamento delle frodi telefoniche affronta sfide significative a causa della mancanza di dati di addestramento multimodali di alta qualità che integrano segnali audio con analisi testuali orientate al ragionamento. Per colmare questa lacuna, presentiamo TeleAntiFraud-28k, il primo dataset open-source audio-testo di "slow-thinking" specificamente progettato per l'analisi automatizzata delle frodi telefoniche. Il nostro dataset è costruito attraverso tre strategie: (1) Generazione di campioni testuali veritieri con preservazione della privacy utilizzando registrazioni di chiamate trascritte tramite riconoscimento vocale automatico (ASR) (con audio originale anonimizzato), garantendo coerenza con il mondo reale attraverso la rigenerazione tramite modelli di sintesi vocale (TTS); (2) Miglioramento semantico tramite campionamento auto-istruttivo basato su modelli linguistici di grandi dimensioni (LLM) su output ASR autentici per ampliare la copertura degli scenari; (3) Sintesi avversaria multi-agente che simula tattiche di frode emergenti attraverso scenari di comunicazione predefiniti e tipologie di frode. Il dataset generato contiene 28.511 coppie audio-testo rigorosamente processate, complete di annotazioni dettagliate per il ragionamento antifrode. Il dataset è suddiviso in tre task: classificazione degli scenari, rilevamento delle frodi, classificazione del tipo di frode. Inoltre, costruiamo TeleAntiFraud-Bench, un benchmark di valutazione standardizzato composto da istanze campionate proporzionalmente dal dataset, per facilitare test sistematici delle prestazioni dei modelli sui task di rilevamento delle frodi telefoniche. Contribuiamo anche con un modello di fine-tuning supervisionato (SFT) ottimizzato per la produzione, addestrato su dati ibridi reali/sintetici, mentre rendiamo open-source il framework di elaborazione dati per consentire l'espansione del dataset guidata dalla comunità. Questo lavoro stabilisce un framework di base per la ricerca multimodale antifrode, affrontando al contempo sfide critiche relative alla privacy dei dati e alla diversità degli scenari. Il progetto sarà rilasciato all'indirizzo https://github.com/JimmyMa99/TeleAntiFraud.

16

Pianificazione Classica con Euristiche Generate da LLM: Sfidare lo Stato dell'Arte con Codice Python
Classical Planning with LLM-Generated Heuristics: Challenging the State of the Art with Python Code

Mar 24
ByAugusto B. Corrêa, André G. Pereira, Jendrik Seipp
9
1

Negli ultimi anni, i grandi modelli linguistici (LLM) hanno dimostrato capacità notevoli in vari problemi di intelligenza artificiale. Tuttavia, non riescono a pianificare in modo affidabile, anche quando vengono forniti di una definizione dettagliata del compito di pianificazione. Tentativi di migliorare le loro capacità di pianificazione, come il prompting a catena di pensiero, il fine-tuning e il "ragionamento" esplicito, producono comunque piani errati e generalmente non riescono a generalizzare su compiti più ampi. In questo articolo, mostriamo come utilizzare gli LLM per generare piani corretti, anche per compiti fuori distribuzione di dimensioni crescenti. Per un dato dominio di pianificazione, chiediamo a un LLM di generare diverse funzioni euristiche dipendenti dal dominio sotto forma di codice Python, le valutiamo su un insieme di compiti di addestramento all'interno di una ricerca greedy best-first e selezioniamo quella più efficace. Le euristiche generate dagli LLM risolvono molti più compiti di test non visti rispetto alle euristiche indipendenti dal dominio all'avanguardia per la pianificazione classica. Sono addirittura competitive con il più potente algoritmo di apprendimento per la pianificazione dipendente dal dominio. Questi risultati sono particolarmente significativi considerando che la nostra implementazione proof-of-concept si basa su un pianificatore Python non ottimizzato, mentre i benchmark si basano su codice C++ altamente ottimizzato. In alcuni domini, le euristiche generate dagli LLM espandono meno stati rispetto ai benchmark, rivelando che non solo sono efficientemente calcolabili, ma a volte anche più informative delle euristiche all'avanguardia. Nel complesso, i nostri risultati dimostrano che campionare un insieme di programmi di funzioni euristiche di pianificazione può migliorare significativamente le capacità di pianificazione degli LLM.

17

AvatarArtist: Avatarizzazione 4D a Dominio Aperto
AvatarArtist: Open-Domain 4D Avatarization

Mar 25
ByHongyu Liu, Xuan Wang, Ziyu Wan, Yue Ma, Jingye Chen, Yanbo Fan, Yujun Shen, Yibing Song, Qifeng Chen
8
2

Questo lavoro si concentra sull'avatarizzazione 4D in dominio aperto, con l'obiettivo di creare un avatar 4D a partire da un'immagine ritratto in uno stile arbitrario. Selezioniamo i triplan parametrici come rappresentazione intermedia 4D e proponiamo un paradigma di addestramento pratico che sfrutta sia le reti generative adversarial (GAN) che i modelli di diffusione. Il nostro design nasce dall'osservazione che le GAN 4D eccellono nel collegare immagini e triplan senza supervisione, ma spesso incontrano difficoltà nel gestire distribuzioni di dati eterogenee. Un robusto prior di diffusione 2D emerge come soluzione, assistendo la GAN nel trasferire la sua competenza attraverso vari domini. La sinergia tra questi esperti permette la costruzione di un dataset immagine-triplan multi-dominio, che guida lo sviluppo di un creatore di avatar 4D generale. Esperimenti estensivi suggeriscono che il nostro modello, AvatarArtist, è in grado di produrre avatar 4D di alta qualità con una forte robustezza rispetto a vari domini di immagini sorgente. Il codice, i dati e i modelli saranno resi pubblicamente disponibili per facilitare studi futuri.

18

Easi3R: Stima del Movimento Disaccoppiato da DUSt3R Senza Addestramento
Easi3R: Estimating Disentangled Motion from DUSt3R Without Training

Mar 31
ByXingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen
6
2

I recenti progressi in DUSt3R hanno consentito una stima robusta di nuvole dense di punti e parametri della fotocamera per scene statiche, sfruttando architetture di rete Transformer e supervisione diretta su dataset 3D su larga scala. Al contrario, la scala limitata e la diversità dei dataset 4D disponibili rappresentano un importante collo di bottiglia per l'addestramento di un modello 4D altamente generalizzabile. Questo vincolo ha spinto i metodi 4D convenzionali a perfezionare modelli 3D su dati video dinamici scalabili con ulteriori prior geometrici come il flusso ottico e le profondità. In questo lavoro, seguiamo un percorso opposto e introduciamo Easi3R, un metodo semplice ma efficiente per la ricostruzione 4D che non richiede addestramento. Il nostro approccio applica l'adattamento dell'attenzione durante l'inferenza, eliminando la necessità di pre-addestramento da zero o di perfezionamento della rete. Abbiamo scoperto che i livelli di attenzione in DUSt3R codificano intrinsecamente informazioni ricche sul movimento della fotocamera e degli oggetti. Disaccoppiando attentamente queste mappe di attenzione, otteniamo una segmentazione accurata delle regioni dinamiche, una stima della posa della fotocamera e una ricostruzione della mappa densa di punti 4D. Esperimenti estesi su video dinamici del mondo reale dimostrano che il nostro adattamento dell'attenzione leggero supera significativamente i precedenti metodi all'avanguardia che sono stati addestrati o perfezionati su ampi dataset dinamici. Il nostro codice è pubblicamente disponibile per scopi di ricerca all'indirizzo https://easi3r.github.io/.

19

MeshCraft: Esplorazione della Generazione Efficiente e Controllabile di Mesh con DiT basati su Flussi
MeshCraft: Exploring Efficient and Controllable Mesh Generation with Flow-based DiTs

Mar 29
ByXianglong He, Junyi Chen, Di Huang, Zexiang Liu, Xiaoshui Huang, Wanli Ouyang, Chun Yuan, Yangguang Li
6
2

Nel dominio della creazione di contenuti 3D, il raggiungimento di una topologia ottimale delle mesh attraverso modelli di intelligenza artificiale è da tempo un obiettivo per gli artisti 3D. Metodi precedenti, come MeshGPT, hanno esplorato la generazione di oggetti 3D pronti per l'uso tramite tecniche auto-regressive sulle mesh. Sebbene questi metodi producano risultati visivamente impressionanti, la loro dipendenza da previsioni token-per-token nel processo auto-regressivo porta a diverse limitazioni significative. Queste includono velocità di generazione estremamente lente e un numero incontrollabile di facce della mesh. In questo articolo, introduciamo MeshCraft, un nuovo framework per la generazione efficiente e controllabile di mesh, che sfrutta la diffusione spaziale continua per generare facce triangolari discrete. Nello specifico, MeshCraft è composto da due componenti principali: 1) un VAE basato su transformer che codifica mesh grezze in token continui a livello di faccia e li decodifica nuovamente nelle mesh originali, e 2) un transformer di diffusione basato su flusso condizionato dal numero di facce, che consente la generazione di mesh 3D di alta qualità con un numero predefinito di facce. Utilizzando il modello di diffusione per la generazione simultanea dell'intera topologia della mesh, MeshCraft raggiunge una generazione di mesh ad alta fedeltà a velocità significativamente più elevate rispetto ai metodi auto-regressivi. In particolare, MeshCraft può generare una mesh con 800 facce in soli 3,2 secondi (35 volte più veloce rispetto alle baseline esistenti). Esperimenti estensivi dimostrano che MeshCraft supera le tecniche all'avanguardia sia nelle valutazioni qualitative che quantitative sul dataset ShapeNet e mostra prestazioni superiori sul dataset Objaverse. Inoltre, si integra perfettamente con le strategie di guida condizionale esistenti, dimostrando il suo potenziale per alleviare gli artisti dal lavoro manuale dispendioso coinvolto nella creazione delle mesh.

20

DSO: Allineamento dei generatori 3D con feedback di simulazione per la correttezza fisica
DSO: Aligning 3D Generators with Simulation Feedback for Physical Soundness

Mar 28
ByRuining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi
5
2

La maggior parte dei generatori di oggetti 3D si concentra sulla qualità estetica, spesso trascurando i vincoli fisici necessari nelle applicazioni. Uno di questi vincoli è che l'oggetto 3D dovrebbe essere autoportante, ovvero rimanere in equilibrio sotto l'effetto della gravità. Gli approcci precedenti per generare oggetti 3D stabili utilizzavano simulatori fisici differenziabili per ottimizzare la geometria al momento del test, un processo lento, instabile e soggetto a ottimi locali. Ispirati dalla letteratura sull'allineamento dei modelli generativi a feedback esterni, proponiamo Direct Simulation Optimization (DSO), un framework che utilizza il feedback di un simulatore (non differenziabile) per aumentare la probabilità che il generatore 3D produca direttamente oggetti 3D stabili. Costruiamo un dataset di oggetti 3D etichettati con un punteggio di stabilità ottenuto dal simulatore fisico. Possiamo quindi ottimizzare il generatore 3D utilizzando il punteggio di stabilità come metrica di allineamento, tramite direct preference optimization (DPO) o direct reward optimization (DRO), un nuovo obiettivo che introduciamo per allineare i modelli di diffusione senza richiedere preferenze a coppie. I nostri esperimenti dimostrano che il generatore feed-forward ottimizzato, utilizzando l'obiettivo DPO o DRO, è molto più veloce e ha una maggiore probabilità di produrre oggetti stabili rispetto all'ottimizzazione al momento del test. In particolare, il framework DSO funziona anche senza oggetti 3D di riferimento per l'addestramento, consentendo al generatore 3D di migliorarsi automaticamente raccogliendo feedback di simulazione sui propri output.

21

UPME: Un Framework di Peer Review Non Supervisionato per la Valutazione di Modelli Linguistici Multimodali di Grande Scala
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation

Mar 19
ByQihui Zhang, Munan Ning, Zheyuan Liu, Yanbo Wang, Jiayi Ye, Yue Huang, Shuo Yang, Xiao Chen, Yibing Song, Li Yuan
5
2

I Modelli Linguistici Multimodali di Grande Scala (MLLM) sono emersi per affrontare le sfide del Visual Question Answering (VQA), dando vita a un nuovo filone di ricerca focalizzato sulla conduzione di valutazioni oggettive di questi modelli. I metodi di valutazione esistenti presentano limitazioni dovute al significativo carico di lavoro umano richiesto per progettare coppie di domande e risposte per immagini visive, il che intrinsecamente restringe la scala e l'ambito delle valutazioni. Sebbene gli approcci automatizzati MLLM-as-judge tentino di ridurre il carico di lavoro umano attraverso valutazioni automatiche, spesso introducono distorsioni. Per affrontare questi problemi, proponiamo un framework di valutazione MLLM basato su Peer Review non supervisionato. Questo framework utilizza esclusivamente dati immagine, consentendo ai modelli di generare automaticamente domande e condurre valutazioni peer review delle risposte provenienti da altri modelli, alleviando efficacemente la dipendenza dal carico di lavoro umano. Inoltre, introduciamo un sistema di punteggio visione-linguaggio per mitigare i problemi di distorsione, che si concentra su tre aspetti: (i) correttezza della risposta; (ii) comprensione e ragionamento visivo; e (iii) correlazione immagine-testo. I risultati sperimentali dimostrano che UPME raggiunge una correlazione di Pearson di 0.944 con le valutazioni umane sul dataset MMstar e di 0.814 sul dataset ScienceQA, indicando che il nostro framework si allinea strettamente con benchmark progettati da esseri umani e con le preferenze intrinseche degli stessi.

22

Decoupling degli Angoli e della Forza nell'Adattamento a Basso Rango
Decoupling Angles and Strength in Low-rank Adaptation

Mar 23
ByMassimo Bini, Leander Girrbach, Zeynep Akata
3
2

I metodi di Parameter-Efficient FineTuning (PEFT) hanno recentemente guadagnato una popolarità significativa grazie alla diffusa disponibilità di modelli preaddestrati su larga scala. Questi metodi consentono un rapido adattamento a task downstream con un costo computazionale minimo. Tuttavia, i popolari metodi di finetuning come LoRA mostrano una robustezza limitata quando si tratta di scelte di iperparametri o regimi di addestramento prolungati, impedendo prestazioni ottimali out-of-the-box. Al contrario, approcci vincolati, come ETHER, offrono una maggiore robustezza ma sono limitati ad adattamenti di rango estremamente basso e trasformazioni a forza fissa, riducendo il loro potere espressivo di adattamento. In questo lavoro, proponiamo Decoupled Low-rank Adaptation (DeLoRA), un nuovo metodo di finetuning che normalizza e scala matrici a basso rango apprendibili. Vincolando la distanza della trasformazione, DeLoRA disaccoppia efficacemente l'apprendimento angolare dalla forza di adattamento, migliorando la robustezza senza compromettere le prestazioni. Attraverso valutazioni su generazione di immagini guidata da soggetti, comprensione del linguaggio naturale e instruction tuning, dimostriamo che DeLoRA eguaglia o supera le prestazioni dei metodi PEFT concorrenti, mostrando al contempo una robustezza maggiore. Il codice è disponibile all'indirizzo https://github.com/ExplainableML/DeLoRA.

23

KOFFVQA: Un Benchmark VQA a Risposta Libera Valutato Oggettivamente per Grandi Modelli Visione-Linguaggio nella Lingua Coreana
KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models in the Korean Language

Mar 31
ByYoonshik Kim, Jaeyoon Jung
3
2

La recente comparsa dei Large Vision-Language Models (VLMs) ha portato alla creazione di una varietà di benchmark diversi per valutare tali modelli. Nonostante ciò, osserviamo che la maggior parte dei metodi di valutazione esistenti soffre del fatto che richiedono al modello di scegliere tra risposte predefinite, sacrificando l'apertura, oppure valutano le risposte utilizzando un modello giudice, risultando in una valutazione soggettiva e inaffidabile. Inoltre, notiamo una mancanza di benchmark per i VLMs nella lingua coreana, che sono necessari come metrica separata rispetto ai più comuni benchmark in lingua inglese, poiché le prestazioni dei modelli generativi di linguaggio possono differire significativamente in base alla lingua utilizzata. Pertanto, presentiamo KOFFVQA, un benchmark general-purpose di risposta libera a domande visive in lingua coreana per la valutazione dei VLMs. Il nostro benchmark è composto da 275 domande accuratamente progettate, ciascuna associata a un'immagine e a criteri di valutazione che coprono 10 diversi aspetti delle prestazioni dei VLMs. I criteri di valutazione eliminano il problema dell'inaffidabilità consentendo al modello giudice di valutare ciascuna risposta in base a un insieme predefinito di regole. Definendo i criteri di valutazione in modo oggettivo, anche un piccolo modello open-source può essere utilizzato per valutare i modelli sul nostro benchmark in modo affidabile. Oltre a valutare un gran numero di VLMs esistenti sul nostro benchmark, verifichiamo sperimentalmente che il nostro metodo di utilizzo di criteri di valutazione preesistenti è molto più affidabile rispetto ai metodi esistenti. Il nostro codice di valutazione è disponibile all'indirizzo https://github.com/maum-ai/KOFFVQA.

24

Collegare l'ottimizzazione multiobiettivo evolutiva e l'accelerazione GPU tramite tensorizzazione
Bridging Evolutionary Multiobjective Optimization and GPU Acceleration via Tensorization

Mar 26
ByZhenyu Liang, Hao Li, Naiwei Yu, Kebin Sun, Ran Cheng
3
3

L'ottimizzazione multiobiettivo evolutiva (EMO) ha compiuto progressi significativi negli ultimi due decenni. Tuttavia, con l'aumento delle dimensioni e della complessità dei problemi, gli algoritmi EMO tradizionali incontrano limitazioni sostanziali nelle prestazioni a causa di un parallelismo e una scalabilità insufficienti. Sebbene la maggior parte del lavoro si sia concentrata sulla progettazione di algoritmi per affrontare queste sfide, poca attenzione è stata dedicata all'accelerazione hardware, lasciando così un evidente divario tra gli algoritmi EMO e i dispositivi di calcolo avanzati, come le GPU. Per colmare questo divario, proponiamo di parallelizzare gli algoritmi EMO sulle GPU attraverso la metodologia di tensorizzazione. Utilizzando la tensorizzazione, le strutture dati e le operazioni degli algoritmi EMO vengono trasformate in rappresentazioni tensoriali concise, che consentono automaticamente l'utilizzo del calcolo GPU. Dimostriamo l'efficacia del nostro approccio applicandolo a tre algoritmi EMO rappresentativi: NSGA-III, MOEA/D e HypE. Per valutare in modo completo la nostra metodologia, introduciamo un benchmark di controllo robotico multiobiettivo utilizzando un motore fisico accelerato da GPU. I nostri esperimenti mostrano che gli algoritmi EMO tensorizzati raggiungono accelerazioni fino a 1113x rispetto alle loro controparti basate su CPU, mantenendo la qualità delle soluzioni e scalando efficacemente le dimensioni della popolazione fino a centinaia di migliaia. Inoltre, gli algoritmi EMO tensorizzati affrontano in modo efficiente complessi compiti di controllo robotico multiobiettivo, producendo soluzioni di alta qualità con comportamenti diversificati. I codici sorgente sono disponibili all'indirizzo https://github.com/EMI-Group/evomo.

25

PAVE: Patch e Adattamento di Modelli Linguistici su Grande Scala per Video
PAVE: Patching and Adapting Video Large Language Models

Mar 25
ByZhuoming Liu, Yiquan Li, Khoi Duc Nguyen, Yiwu Zhong, Yin Li
3
2

I modelli linguistici pre-addestrati su video (Video LLM) dimostrano capacità di ragionamento notevoli, ma adattare questi modelli a nuovi compiti che coinvolgono modalità o tipi di dati aggiuntivi (ad esempio, audio o informazioni 3D) rimane una sfida. In questo articolo, presentiamo PAVE, un framework flessibile per adattare i Video LLM pre-addestrati a compiti downstream con segnali di canale laterale, come audio, indicazioni 3D o video multi-vista. PAVE introduce adattatori leggeri, denominati "patch", che aggiungono un numero ridotto di parametri e operazioni a un modello di base senza modificarne l'architettura o i pesi pre-addestrati. In questo modo, PAVE può adattare efficacemente il modello pre-addestrato per supportare vari compiti downstream, tra cui risposte a domande audio-visive, ragionamento 3D, riconoscimento di video multi-vista e comprensione di video ad alta frequenza di fotogrammi. In questi compiti, PAVE migliora significativamente le prestazioni del modello di base, superando i modelli specifici per compiti all'avanguardia con un costo aggiuntivo minimo di circa lo 0,1% in termini di FLOP e parametri. Inoltre, PAVE supporta l'apprendimento multi-task e si generalizza bene su diversi Video LLM. Il nostro codice è disponibile all'indirizzo https://github.com/dragonlzm/PAVE.

26

Ponderazione Adattiva Basata sull'Entropia per l'Auto-Addestramento
Entropy-Based Adaptive Weighting for Self-Training

Mar 31
ByXiaoxuan Wang, Yihe Deng, Mingyu Derek Ma, Wei Wang
3
2

Le capacità di risoluzione di problemi matematici dei modelli linguistici di grandi dimensioni sono diventate un punto focale della ricerca, con un crescente interesse nello sfruttare percorsi di ragionamento auto-generati come un modo promettente per affinare e migliorare questi modelli. Questi percorsi catturano processi logici passo-passo richiedendo solo la risposta corretta per la supervisione. Il metodo di auto-addestramento si è dimostrato efficace nei compiti di ragionamento, eliminando la necessità di modelli esterni e annotazioni manuali. Tuttavia, ottimizzare l'uso dei dati auto-generati per l'addestramento del modello rimane una sfida aperta. In questo lavoro, proponiamo l'Entropy-Based Adaptive Weighting for Self-Training (EAST), una strategia di ponderazione adattiva progettata per dare priorità ai dati incerti durante l'auto-addestramento. Nello specifico, EAST utilizza una funzione di mappatura con un parametro regolabile che controlla l'acutezza della ponderazione, assegnando pesi maggiori ai dati in cui il modello mostra una maggiore incertezza. Questo approccio guida il modello a concentrarsi su esempi più informativi e impegnativi, migliorando così la sua capacità di ragionamento. Valutiamo il nostro approccio sui benchmark GSM8K e MATH. I risultati empirici mostrano che, mentre il metodo standard non produce praticamente alcun miglioramento (0%) su MATH, EAST raggiunge un guadagno di circa l'1% rispetto al modello di base. Su GSM8K, EAST ottiene un ulteriore miglioramento delle prestazioni dell'1-2% rispetto al metodo standard.

27

Comprendere i gesti co-verbali in contesti reali
Understanding Co-speech Gestures in-the-wild

Mar 28
BySindhu B Hegde, K R Prajwal, Taein Kwon, Andrew Zisserman
0
2

I gesti co-verbali svolgono un ruolo cruciale nella comunicazione non verbale. In questo articolo, introduciamo un nuovo framework per la comprensione dei gesti co-verbali in contesti reali. Nello specifico, proponiamo tre nuovi task e benchmark per valutare la capacità di un modello di comprendere le associazioni tra gesti, testo e parlato: (i) retrieval basato sui gesti, (ii) individuazione di parole accompagnate da gesti e (iii) rilevamento del parlante attivo mediante gesti. Presentiamo un nuovo approccio che apprende una rappresentazione tri-modale parlato-testo-video-gesti per risolvere questi task. Sfruttando una combinazione di perdita contrastiva globale a livello di frase e perdita di accoppiamento locale gesto-parola, dimostriamo che è possibile apprendere una forte rappresentazione dei gesti in modo debolmente supervisionato da video in contesti reali. Le nostre rappresentazioni apprese superano i metodi precedenti, inclusi i grandi modelli visione-linguaggio (VLMs), in tutti e tre i task. Un'ulteriore analisi rivela che le modalità parlato e testo catturano segnali distinti relativi ai gesti, sottolineando i vantaggi dell'apprendimento di uno spazio di embedding condiviso tri-modale. Il dataset, il modello e il codice sono disponibili al seguente indirizzo: https://www.robots.ox.ac.uk/~vgg/research/jegal

Mar 31
Apr 1
Apr 2