ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrezziAccountSpazio di lavoro

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

1

SRMT: Memoria Condivisa per la Pianificazione Continua del Percorso Multi-agente
SRMT: Shared Memory for Multi-agent Lifelong Pathfinding

Jan 22
ByAlsu Sagirova, Yuri Kuratov, Mikhail Burtsev
69
3

Il Reinforcement Learning Multi-agente (MARL) dimostra significativi progressi nella risoluzione di problemi multi-agente cooperativi e competitivi in vari ambienti. Una delle principali sfide nel MARL è la necessità di una previsione esplicita del comportamento degli agenti per raggiungere la cooperazione. Per risolvere questo problema, proponiamo il Shared Recurrent Memory Transformer (SRMT) che estende i memory transformers ai contesti multi-agente mediante l'aggregazione e la trasmissione globale delle memorie di lavoro individuali, consentendo agli agenti di scambiare informazioni implicitamente e coordinare le loro azioni. Valutiamo SRMT sul problema Partially Observable Multi-Agent Pathfinding in un compito di navigazione in un imbuto giocattolo che richiede agli agenti di passare attraverso un corridoio stretto e su un set di compiti di benchmark POGEMA. Nel compito dell'imbuto, SRMT supera costantemente una varietà di basi di apprendimento per rinforzo, specialmente con ricompense scarse, e generalizza in modo efficace a corridoi più lunghi rispetto a quelli visti durante l'addestramento. Sulle mappe POGEMA, incluse Mazes, Random e MovingAI, SRMT è competitivo con recenti algoritmi MARL, ibridi e basati su pianificazione. Questi risultati suggeriscono che l'incorporazione di memoria ricorrente condivisa nelle architetture basate su transformer può migliorare il coordinamento nei sistemi multi-agente decentralizzati. Il codice sorgente per l'addestramento e la valutazione è disponibile su GitHub: https://github.com/Aloriosa/srmt.

2

Migliorare la Generazione di Video con il Feedback Umano
Improving Video Generation with Human Feedback

Jan 23
ByJie Liu, Gongye Liu, Jiajun Liang, Ziyang Yuan, Xiaokun Liu, Mingwu Zheng, Xiele Wu, Qiulin Wang, Wenyu Qin, Menghan Xia, Xintao Wang, Xiaohong Liu, Fei Yang, Pengfei Wan, Di Zhang, Kun Gai, Yujiu Yang, Wanli Ouyang
52
5

La generazione di video ha ottenuto significativi progressi attraverso le tecniche di flusso rettificato, ma problemi come il movimento non fluido e lo scollamento tra video e indicazioni persistono. In questo lavoro, sviluppiamo un processo sistematico che sfrutta il feedback umano per mitigare questi problemi e perfezionare il modello di generazione video. In particolare, iniziamo costruendo un ampio dataset di preferenze umane focalizzato sui moderni modelli di generazione video, incorporando annotazioni a coppie su diverse dimensioni. Successivamente introduciamo VideoReward, un modello di ricompensa video multidimensionale, e esaminiamo come le annotazioni e varie scelte progettuali influenzino la sua efficacia ricompensativa. Da una prospettiva unificata di apprendimento per rinforzo mirata a massimizzare la ricompensa con regolarizzazione KL, introduciamo tre algoritmi di allineamento per modelli basati sul flusso estendendoli da quelli dei modelli di diffusione. Questi includono due strategie durante l'addestramento: ottimizzazione diretta delle preferenze per il flusso (Flow-DPO) e regressione pesata per ricompensa per il flusso (Flow-RWR), e una tecnica durante l'inferenza, Flow-NRG, che applica direttamente la guida della ricompensa a video rumorosi. I risultati sperimentali indicano che VideoReward supera significativamente i modelli di ricompensa esistenti, e Flow-DPO dimostra prestazioni superiori rispetto sia a Flow-RWR che ai metodi standard di fine-tuning supervisionato. Inoltre, Flow-NRG consente agli utenti di assegnare pesi personalizzati a più obiettivi durante l'inferenza, soddisfacendo le esigenze personali di qualità video. Pagina del progetto: https://gongyeliu.github.io/videoalign.

3

Sigma: Ridimensionamento Differenziale di Query, Chiave e Valore per Modelli Linguistici Efficienti
Sigma: Differential Rescaling of Query, Key and Value for Efficient Language Models

Jan 23
ByZhenghao Lin, Zihao Tang, Xiao Liu, Yeyun Gong, Yi Cheng, Qi Chen, Hang Li, Ying Xin, Ziyue Yang, Kailai Yang, Yu Yan, Xiao Liang, Shuai Lu, Yiming Huang, Zheheng Luo, Lei Qu, Xuan Feng, Yaoxiang Wang, Yuqing Xia, Feiyang Chen, Yuting Jiang, Yasen Hu, Hao Ni, Binyang Li, Guoshuai Zhao, Jui-Hao Chiang, Zhongxin Guo, Chen Lin, Kun Kuang, Wenjie Li, Yelong Shen, Jian Jiao, Peng Cheng, Mao Yang
48
2

Presentiamo Sigma, un efficiente modello linguistico di grandi dimensioni specializzato per il dominio di sistema, potenziato da un'architettura innovativa che include l'attenzione DiffQKV, e pre-addestrato sui nostri dati del dominio di sistema raccolti meticolosamente. L'attenzione DiffQKV migliora significativamente l'efficienza inferenziale di Sigma ottimizzando in modo differenziale i componenti Query (Q), Key (K) e Value (V) nel meccanismo di attenzione, in base ai loro diversi impatti sulle prestazioni del modello e sugli indicatori di efficienza. In particolare, (1) conduciamo ampi esperimenti che dimostrano la sensibilità variabile del modello alla compressione dei componenti K e V, portando allo sviluppo di KV compressi in modo differenziale, e (2) proponiamo Q aumentati per espandere la dimensione della testa Q, che migliora la capacità di rappresentazione del modello con minimi impatti sulla velocità di inferenza. Rigorose analisi teoriche ed empiriche rivelano che l'attenzione DiffQKV migliora significativamente l'efficienza, ottenendo fino a un miglioramento del 33,36% nella velocità di inferenza rispetto all'attenzione di query raggruppate convenzionale (GQA) in scenari di contesto lungo. Pre-addestriamo Sigma su 6T token da varie fonti, inclusi 19,5B di dati del dominio di sistema che abbiamo raccolto attentamente e 1T di token di dati sintetizzati e riscritti. Nei domini generali, Sigma raggiunge prestazioni comparabili ad altri modelli all'avanguardia. Nel dominio di sistema, presentiamo il primo benchmark completo AIMicius, dove Sigma dimostra prestazioni notevoli su tutte le attività, superando significativamente GPT-4 con un miglioramento assoluto fino al 52,5%.

4

Possiamo Generare Immagini con CoT? Verifichiamo e Rinforziamo la Generazione di Immagini Passo dopo Passo.
Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step

Jan 23
ByZiyu Guo, Renrui Zhang, Chengzhuo Tong, Zhizheng Zhao, Peng Gao, Hongsheng Li, Pheng-Ann Heng
43
2

Il ragionamento a catena di pensiero (CoT) è stato ampiamente esplorato in modelli di grandi dimensioni per affrontare compiti di comprensione complessi. Tuttavia, rimane ancora aperta la questione se tali strategie possano essere applicate per verificare e potenziare scenari di generazione di immagini. In questo articolo, forniamo la prima indagine completa sul potenziale del ragionamento CoT per migliorare la generazione di immagini autoregressive. Ci concentriamo su tre tecniche: scalare il calcolo al momento del test per la verifica, allineare le preferenze del modello con l'ottimizzazione diretta delle preferenze (DPO) e integrare queste tecniche per effetti complementari. I nostri risultati dimostrano che questi approcci possono essere adattati ed combinati in modo efficace per migliorare significativamente le prestazioni di generazione di immagini. Inoltre, dato il ruolo cruciale dei modelli di ricompensa nei nostri risultati, proponiamo il Modello di Ricompensa di Valutazione del Potenziale (PARM) e PARM++, specializzati per la generazione di immagini autoregressive. PARM valuta in modo adattivo ciascun passaggio di generazione attraverso un approccio di valutazione del potenziale, unendo i punti di forza dei modelli di ricompensa esistenti, e PARM++ introduce ulteriormente un meccanismo di riflessione per autocorreggere l'immagine generata non soddisfacente. Utilizzando le nostre strategie di ragionamento esaminate, miglioriamo un modello di base, Show-o, per ottenere risultati superiori, con un significativo miglioramento del +24% nel benchmark GenEval, superando Stable Diffusion 3 del +15%. Speriamo che il nostro studio fornisca approfondimenti unici e getti le basi per integrare il ragionamento CoT con la generazione di immagini autoregressive. Il codice e i modelli sono disponibili su https://github.com/ZiyuGuo99/Image-Generation-CoT

5

Ottimizzazione delle Preferenze Temporali per la Comprensione dei Video a Lunghezza Estesa
Temporal Preference Optimization for Long-Form Video Understanding

Jan 23
ByRui Li, Xiaohan Wang, Yuhui Zhang, Zeyu Wang, Serena Yeung-Levy
23
3

Nonostante i significativi progressi nei modelli video multimodali di grandi dimensioni (video-LMMs), raggiungere un ancoraggio temporale efficace in video a lunga durata rimane una sfida per i modelli esistenti. Per affrontare questa limitazione, proponiamo l'ottimizzazione delle preferenze temporali (TPO), un nuovo framework di post-training progettato per potenziare le capacità di ancoraggio temporale dei video-LMMs attraverso l'apprendimento delle preferenze. TPO adotta un approccio di auto-apprendimento che consente ai modelli di differenziare tra risposte temporali ben ancorate e meno accurate sfruttando set di dati di preferenza curati a due livelli di granularità: ancoraggio temporale localizzato, che si concentra su segmenti video specifici, e ancoraggio temporale completo, che cattura estese dipendenze temporali in sequenze video intere. Ottimizzando su questi set di dati di preferenza, TPO potenzia significativamente la comprensione temporale riducendo al contempo la dipendenza dai dati annotati manualmente. Estesi esperimenti su tre benchmark di comprensione video a lunga durata - LongVideoBench, MLVU e Video-MME - dimostrano l'efficacia di TPO su due modelli video-LMMs all'avanguardia. In particolare, LLaVA-Video-TPO si afferma come il principale modello 7B nel benchmark Video-MME, sottolineando il potenziale di TPO come soluzione scalabile ed efficiente per avanzare nel ragionamento temporale nella comprensione video a lunga durata. Pagina del progetto: https://ruili33.github.io/tpo_website.

6

Video-MMMU: Valutazione dell'Acquisizione di Conoscenza da Video Professionali Multidisciplinari
Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos

Jan 23
ByKairui Hu, Penghao Wu, Fanyi Pu, Wang Xiao, Yuanhan Zhang, Xiang Yue, Bo Li, Ziwei Liu
23
2

Gli esseri umani acquisiscono conoscenza attraverso tre fasi cognitive: percepire informazioni, comprendere la conoscenza e adattare la conoscenza per risolvere problemi nuovi. I video fungono da efficace mezzo per questo processo di apprendimento, facilitando una progressione attraverso queste fasi cognitive. Tuttavia, i benchmark video esistenti non riescono a valutare sistematicamente le capacità di acquisizione di conoscenza nei Grandi Modelli Multimodali (LMM). Per affrontare questa lacuna, presentiamo Video-MMMU, un benchmark multi-modale, multi-disciplinare progettato per valutare la capacità dei LMM di acquisire e utilizzare conoscenze dai video. Video-MMMU presenta una raccolta curata di 300 video di livello esperto e 900 domande annotate da umani in sei discipline, valutando l'acquisizione di conoscenza attraverso coppie domanda-risposta allineate alle fasi: Percezione, Comprensione e Adattamento. Una metrica proposta per il guadagno di conoscenza, Δconoscenza, quantifica il miglioramento delle prestazioni dopo la visione del video. L'valutazione dei LMM rivela un forte calo delle prestazioni all'aumentare delle richieste cognitive e mette in evidenza un significativo divario tra l'acquisizione di conoscenza umana e del modello, sottolineando la necessità di metodi per potenziare la capacità dei LMM di apprendere e adattarsi dai video.

7

IMAGINE-E: Valutazione dell'Intelligenza Generativa delle Immagini dei Modelli di Testo-immagine All'avanguardia
IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models

Jan 23
ByJiayi Lei, Renrui Zhang, Xiangfei Hu, Weifeng Lin, Zhen Li, Wenjian Sun, Ruoyi Du, Le Zhuo, Zhongyu Li, Xinyue Li, Shitian Zhao, Ziyu Guo, Yiting Lu, Peng Gao, Hongsheng Li
19
2

Con lo sviluppo rapido dei modelli di diffusione, i modelli di testo-immagine (T2I) hanno compiuto progressi significativi, mostrando notevoli capacità nel seguire prompt e generare immagini. Modelli recentemente lanciati come FLUX.1 e Ideogram2.0, insieme ad altri come Dall-E3 e Stable Diffusion 3, hanno dimostrato prestazioni eccezionali in varie complesse attività, sollevando interrogativi su se i modelli T2I stiano procedendo verso un'applicabilità generale. Oltre alla generazione tradizionale di immagini, questi modelli mostrano capacità in una vasta gamma di campi, inclusa la generazione controllabile, la modifica delle immagini, video, audio, 3D e generazione di movimento, nonché compiti di visione artificiale come segmentazione semantica e stima della profondità. Tuttavia, i framework di valutazione attuali sono insufficienti per valutare in modo esaustivo le prestazioni di questi modelli attraverso domini in espansione. Per valutare approfonditamente questi modelli, abbiamo sviluppato IMAGINE-E e testato sei modelli di spicco: FLUX.1, Ideogram2.0, Midjourney, Dall-E3, Stable Diffusion 3 e Jimeng. La nostra valutazione è divisa in cinque domini chiave: generazione di output strutturato, realismo e coerenza fisica, generazione in domini specifici, generazione di scenari impegnativi e compiti di creazione multi-stile. Questa valutazione completa mette in luce i punti di forza e le limitazioni di ciascun modello, in particolare le prestazioni eccezionali di FLUX.1 e Ideogram2.0 nei compiti strutturati e in domini specifici, sottolineando le applicazioni in espansione e il potenziale dei modelli T2I come strumenti AI fondamentali. Questo studio fornisce preziose intuizioni sullo stato attuale e sulla traiettoria futura dei modelli T2I mentre evolvono verso un'utilizzabilità generale. Gli script di valutazione saranno rilasciati su https://github.com/jylei16/Imagine-e.

8

DiffuEraser: Un modello di diffusione per il video inpainting
DiffuEraser: A Diffusion Model for Video Inpainting

Jan 17
ByXiaowen Li, Haolan Xue, Peiran Ren, Liefeng Bo
16
2

Gli algoritmi recenti di inpainting video integrano la propagazione dei pixel basata sul flusso con la generazione basata su trasformatori per sfruttare il flusso ottico per ripristinare texture e oggetti utilizzando informazioni dai frame vicini, completando le regioni mascherate attraverso i Trasformatori visivi. Tuttavia, questi approcci spesso si scontrano con sfocature e inconsistenze temporali quando si affrontano maschere di grandi dimensioni, evidenziando la necessità di modelli con capacità generative potenziate. Di recente, i modelli di diffusione sono emersi come una tecnica prominente nella generazione di immagini e video grazie alle loro prestazioni impressionanti. In questo articolo, presentiamo DiffuEraser, un modello di inpainting video basato sulla diffusione stabile, progettato per riempire regioni mascherate con maggiori dettagli e strutture più coerenti. Incorporiamo informazioni precedenti per fornire inizializzazione e condizionamento debole, che aiuta a mitigare artefatti rumorosi e a sopprimere allucinazioni. Inoltre, per migliorare la coerenza temporale durante l'inferenza a lunga sequenza, espandiamo i campi recettivi temporali sia del modello precedente che di DiffuEraser, e miglioriamo ulteriormente la coerenza sfruttando la proprietà di smoothing temporale dei Modelli di Diffusione Video. I risultati sperimentali dimostrano che il nostro metodo proposto supera le tecniche all'avanguardia sia per completezza del contenuto che per coerenza temporale, mantenendo nel contempo un'efficienza accettabile.

9

Step-KTO: Ottimizzazione del Ragionamento Matematico tramite Feedback Binario Graduale
Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback

Jan 18
ByYen-Ting Lin, Di Jin, Tengyu Xu, Tianhao Wu, Sainbayar Sukhbaatar, Chen Zhu, Yun He, Yun-Nung Chen, Jason Weston, Yuandong Tian, Arash Rahnama, Sinong Wang, Hao Ma, Han Fang
15
3

I grandi modelli linguistici (LLM) hanno recentemente dimostrato un notevole successo nel ragionamento matematico. Nonostante i progressi nei metodi come la generazione di catene di pensiero e il campionamento di auto-coerenza, questi avanzamenti spesso si concentrano sulla correttezza finale senza garantire che il processo di ragionamento sottostante sia coerente e affidabile. Questo articolo introduce Step-KTO, un quadro di formazione che combina feedback binario a livello di processo e a livello di risultato per guidare i LLM verso traiettorie di ragionamento più affidabili. Fornendo valutazioni binarie sia per i passaggi intermedi di ragionamento che per la risposta finale, Step-KTO incoraggia il modello a seguire progressioni logiche anziché fare affidamento su scorciatoie superficiali. I nostri esperimenti su benchmark matematici impegnativi mostrano che Step-KTO migliora significativamente sia l'accuratezza della risposta finale che la qualità dei passaggi intermedi di ragionamento. Ad esempio, sul dataset MATH-500, Step-KTO ottiene un notevole miglioramento nell'accuratezza Pass@1 rispetto a basi solide. Questi risultati evidenziano la promessa dell'integrazione del feedback di processo graduale nella formazione dei LLM, aprendo la strada verso capacità di ragionamento più interpretabili e affidabili.

10

Le allucinazioni possono migliorare i grandi modelli linguistici nella scoperta di farmaci.
Hallucinations Can Improve Large Language Models in Drug Discovery

Jan 23
ByShuzhou Yuan, Michael Färber
10
8

Preoccupazioni riguardanti le allucinazioni nei Large Language Models (LLM) sono state sollevate dai ricercatori, tuttavia il loro potenziale in settori in cui la creatività è vitale, come la scoperta di farmaci, merita esplorazione. In questo articolo, avanziamo l'ipotesi che le allucinazioni possano migliorare i LLM nella scoperta di farmaci. Per verificare questa ipotesi, utilizziamo i LLM per descrivere la stringa SMILES delle molecole in linguaggio naturale e poi incorporiamo tali descrizioni come parte del prompt per affrontare compiti specifici nella scoperta di farmaci. Valutati su sette LLM e cinque compiti di classificazione, i nostri risultati confermano l'ipotesi: i LLM possono ottenere migliori prestazioni con testo contenente allucinazioni. In particolare, Llama-3.1-8B ottiene un aumento del 18,35% nella ROC-AUC rispetto al valore di base senza allucinazioni. Inoltre, le allucinazioni generate da GPT-4o forniscono i miglioramenti più consistenti tra i modelli. Inoltre, conduciamo analisi empiriche e uno studio di caso per indagare i fattori chiave che influenzano le prestazioni e le ragioni sottostanti. La nostra ricerca getta luce sull'uso potenziale delle allucinazioni per i LLM e offre nuove prospettive per futuri studi che sfruttano i LLM nella scoperta di farmaci.

11

One-Prompt-One-Story: Generazione testo-immagine coerente con pranzo gratuito utilizzando un singolo prompt
One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt

Jan 23
ByTao Liu, Kai Wang, Senmao Li, Joost van de Weijer, Fahad Shahbaz Khan, Shiqi Yang, Yaxing Wang, Jian Yang, Ming-Ming Cheng
9
2

I modelli di generazione testo-immagine possono creare immagini di alta qualità da prompt di input. Tuttavia, faticano a supportare la generazione coerente dei requisiti di conservazione dell'identità per la narrazione. Gli approcci esistenti a questo problema richiedono tipicamente un addestramento estensivo su grandi set di dati o modifiche aggiuntive alle architetture dei modelli originali. Ciò limita la loro applicabilità attraverso diversi domini e diverse configurazioni di modelli di diffusione. In questo articolo, osserviamo innanzitutto la capacità intrinseca dei modelli linguistici, denominata coerenza di contesto, nel comprendere l'identità attraverso il contesto con un singolo prompt. Trarre ispirazione dalla coerenza intrinseca del contesto, proponiamo un nuovo metodo di generazione testo-immagine (T2I) coerente senza addestramento, denominato "One-Prompt-One-Story" (1Prompt1Story). Il nostro approccio 1Prompt1Story concatena tutti i prompt in un unico input per i modelli di diffusione T2I, preservando inizialmente le identità dei personaggi. Successivamente, perfezioniamo il processo di generazione utilizzando due nuove tecniche: Ripesatura dei Valori Singolari e Cross-Attention Preservativa dell'Identità, garantendo una migliore allineamento con la descrizione di input per ciascun frame. Nei nostri esperimenti, confrontiamo il nostro metodo con vari approcci esistenti di generazione T2I coerente per dimostrarne l'efficacia attraverso metriche quantitative e valutazioni qualitative. Il codice è disponibile su https://github.com/byliutao/1Prompt1Story.

12

EchoVideo: Generazione di Video Umani Preservanti l'Identità tramite Fusione di Caratteristiche Multimodali
EchoVideo: Identity-Preserving Human Video Generation by Multimodal Feature Fusion

Jan 23
ByJiangchuan Wei, Shiyue Yan, Wenfeng Lin, Boyuan Liu, Renjie Chen, Mingyu Guo
8
2

I recenti progressi nella generazione di video hanno avuto un impatto significativo su varie applicazioni successive, in particolare nella generazione di video che preservano l'identità (IPT2V). Tuttavia, i metodi esistenti faticano con artefatti di "copia e incolla" e problemi di bassa similarità, principalmente a causa della loro dipendenza dalle informazioni a basso livello delle immagini facciali. Questa dipendenza può portare a aspetti facciali rigidi e artefatti che riflettono dettagli non rilevanti. Per affrontare queste sfide, proponiamo EchoVideo, che utilizza due strategie chiave: (1) un Modulo di Fusione Immagine-Testo per l'Identità (IITF) che integra caratteristiche semantiche ad alto livello dal testo, catturando rappresentazioni pulite dell'identità facciale e scartando occlusioni, pose e variazioni di illuminazione per evitare l'introduzione di artefatti; (2) una strategia di addestramento a due fasi, che incorpora un metodo stocastico nella seconda fase per utilizzare casualmente informazioni facciali superficiali. L'obiettivo è bilanciare i miglioramenti nella fedeltà forniti dalle caratteristiche superficiali mitigando al contempo la dipendenza eccessiva da esse. Questa strategia incoraggia il modello a utilizzare caratteristiche ad alto livello durante l'addestramento, favorendo alla fine una rappresentazione più robusta delle identità facciali. EchoVideo preserva efficacemente le identità facciali e mantiene l'integrità del corpo intero. Estesi esperimenti dimostrano che ottiene eccellenti risultati nella generazione di video di alta qualità, controllabilità e fedeltà.

13

EmbodiedEval: Valutare i Modelli Linguistici Multimodali come Agenti Incarnati
EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents

Jan 21
ByZhili Cheng, Yuge Tu, Ran Li, Shiqi Dai, Jinyi Hu, Shengding Hu, Jiahao Li, Yang Shi, Tianyu Yu, Weize Chen, Lei Shi, Maosong Sun
7
2

I Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) hanno mostrato significativi progressi, offrendo un futuro promettente per gli agenti incorporati. I benchmark esistenti per valutare i MLLM utilizzano principalmente immagini statiche o video, limitando le valutazioni a scenari non interattivi. Nel frattempo, i benchmark esistenti sull'IA incorporata sono specifici per compiti e non sufficientemente diversificati, non valutando adeguatamente le capacità incorporate dei MLLM. Per affrontare questo problema, proponiamo EmbodiedEval, un benchmark di valutazione completo e interattivo per i MLLM con compiti incorporati. EmbodiedEval include 328 compiti distinti all'interno di 125 scene 3D varie, ognuna delle quali è selezionata e annotata rigorosamente. Copre un ampio spettro di compiti esistenti sull'IA incorporata con una diversità significativamente migliorata, il tutto all'interno di un framework unificato di simulazione e valutazione adattato per i MLLM. I compiti sono organizzati in cinque categorie: navigazione, interazione con gli oggetti, interazione sociale, risposta a domande sull'attributo e risposta a domande spaziali per valutare diverse capacità degli agenti. Abbiamo valutato i MLLM all'avanguardia su EmbodiedEval e abbiamo scoperto che presentano un significativo deficit rispetto al livello umano nei compiti incorporati. La nostra analisi dimostra i limiti dei MLLM esistenti nelle capacità incorporate, offrendo spunti per il loro futuro sviluppo. Mettiamo a disposizione tutti i dati di valutazione e il framework di simulazione su https://github.com/thunlp/EmbodiedEval.

14

Il dibattito aiuta la generalizzazione da debole a forte.
Debate Helps Weak-to-Strong Generalization

Jan 21
ByHao Lang, Fei Huang, Yongbin Li
7
2

I metodi comuni per allineare modelli già capaci con il comportamento desiderato si basano sulla capacità degli esseri umani di fornire supervisione. Tuttavia, i futuri modelli superumani supereranno le capacità umane. Pertanto, gli esseri umani saranno in grado di supervisionare debolmente solo i modelli superumani. Questa carenza prevista nella valutazione umana indebolirebbe la sicurezza dei futuri sistemi di intelligenza artificiale. La supervisione scalabile e la generalizzazione da debole a forte sono due approcci complementari per affrontare questo problema. In questo articolo, cerchiamo di combinare i punti di forza di questi due approcci per migliorare ulteriormente l'allineamento. In particolare, esaminiamo modi per migliorare la supervisione umana con un modello preaddestrato forte e quindi supervisionare il modello forte con una supervisione umana debole potenziata. Per fare progressi empirici iterativi, consideriamo un'analogia: possiamo utilizzare un modello forte per migliorare la supervisione di un modello debole e poi utilizzarlo per supervisionare il modello forte? Lo testiamo empiricamente affinando un piccolo modello debole su etichette di verità fondamentale con l'ausilio aggiuntivo di un grande modello forte, e poi affinando il modello forte su etichette generate dal modello debole. Scopriamo che il dibattito può aiutare un modello debole a estrarre informazioni affidabili da un modello forte non affidabile, fornendo un vantaggio come contesto su campioni durante l'addestramento di un modello debole. Mostriamo anche che un insieme di modelli deboli aiuta a sfruttare lunghi argomenti generati dai dibattenti del modello forte e ottenere una stima di supervisione più robusta. Esperimenti approfonditi sui benchmark NLP da debole a forte di OpenAI mostrano che l'approccio combinato porta a un miglior allineamento, il che indica che il dibattito ha il potenziale per aiutare la generalizzazione da debole a forte.

15

Controllo LLM: Evoluzione Controllata per il Mantenimento dell'Intelligenza in LLM
Control LLM: Controlled Evolution for Intelligence Retention in LLM

Jan 19
ByHaichao Wei, Yunxiang Ren, Zhoutong Fu, Aman Lunia, Yi-Lin Chen, Alice Leung, Ya Xu
6
2

I Large Language Models (LLM) richiedono significativi risorse computazionali, rendendo essenziale potenziarne le capacità senza doverli riallenare da zero. Una sfida chiave in questo ambito è il dimenticamento catastrofico (CF), che compromette le prestazioni durante il Pre-training Continuo (CPT) e il Fine-Tuning Supervisionato Continuo (CSFT). Proponiamo Control LLM, un approccio innovativo che sfrutta blocchi di trasformatori pre-addestrati ed espansi in parallelo, allineando i loro stati nascosti attraverso strategie di interpolazione. Questo metodo preserva efficacemente le prestazioni su compiti esistenti integrando senza soluzione di continuità nuove conoscenze. Estesi esperimenti dimostrano l'efficacia di Control LLM sia in CPT che in CSFT. Su Llama3.1-8B-Instruct, ottiene significativi miglioramenti nel ragionamento matematico (+14,4% su Math-Hard) e nelle prestazioni di codifica (+10% su MBPP-PLUS). Su Llama3.1-8B, potenzia le capacità multilingue (+10,6% su C-Eval, +6,8% su CMMLU e +30,2% su CMMLU-0shot-CoT). Supera i metodi esistenti e raggiunge lo stato dell'arte tra i modelli open-source ottimizzati dallo stesso modello di base, utilizzando notevolmente meno dati e calcoli. Crucialmente, questi progressi sono realizzati preservando solide capacità originali, con una degradazione minima (<4,3% su MMLU) rispetto a oltre il 35% nei modelli open-source di matematica e codifica. Questo approccio è stato implementato con successo nei prodotti unitari di ricerca di lavoro e annunci di LinkedIn potenziati da GenAI. Per supportare ulteriori ricerche, rilasciamo il codice di addestramento e valutazione (https://github.com/linkedin/ControlLLM) insieme ai modelli addestrati su set di dati pubblici (https://huggingface.co/ControlLLM) alla comunità.

16

Evoluzione e il Punto Cieco Knightiano dell'Apprendimento Automatico
Evolution and The Knightian Blindspot of Machine Learning

Jan 22
ByJoel Lehman, Elliot Meyerson, Tarek El-Gaaly, Kenneth O. Stanley, Tarin Ziyaee
6
2

Questo articolo sostiene che l'apprendimento automatico (ML) trascura ampiamente un importante aspetto dell'intelligenza generale: la robustezza di fronte a un futuro qualitativamente sconosciuto in un mondo aperto. Tale robustezza è correlata all'incertezza di Knight (KU) in economia, cioè l'incertezza che non può essere quantificata, esclusa dalla considerazione nei formalismi chiave dell'ML. Questo articolo si propone di individuare questo punto cieco, argomentarne l'importanza e catalizzare la ricerca per affrontarlo, ritenendo che sia necessario per creare un'AI veramente robusta in un mondo aperto. Per illuminare il punto cieco, confrontiamo un'area dell'ML, l'apprendimento per rinforzo (RL), con il processo di evoluzione biologica. Nonostante i notevoli progressi in corso, l'RL fatica ancora nelle situazioni di mondo aperto, spesso fallendo in situazioni impreviste. Ad esempio, l'idea di trasferire senza addestramento una politica di guida autonoma addestrata solo negli Stati Uniti nel Regno Unito attualmente sembra estremamente ambiziosa. In netto contrasto, l'evoluzione biologica produce regolarmente agenti che prosperano in un mondo aperto, talvolta anche in situazioni notevolmente fuori distribuzione (ad es. specie invasive; o esseri umani, che affrontano tale guida internazionale senza addestramento). Interessante è che l'evoluzione raggiunge tale robustezza senza teoria esplicita, formalismi o gradienti matematici. Esploriamo le ipotesi alla base dei tipici formalismi dell'RL, mostrando come limitino il coinvolgimento dell'RL con gli ignoti ignoti caratteristici di un mondo complesso in continua evoluzione. Inoltre, identifichiamo i meccanismi attraverso i quali i processi evolutivi favoriscono la robustezza di fronte a sfide nuove e imprevedibili, e discutiamo possibili percorsi per incorporarli algoritmamente. La conclusione è che la fragilità rimanente dell'ML potrebbe derivare dai punti ciechi nei suoi formalismi e che significativi progressi potrebbero derivare dal confronto diretto con la sfida dell'KU.

17

GSTAR: Tracciamento e Ricostruzione di Superfici Gaussiane
GSTAR: Gaussian Surface Tracking and Reconstruction

Jan 17
ByChengwei Zheng, Lixin Xue, Juan Zarate, Jie Song
4
2

Le tecniche di Splatting Gaussiano in 3D hanno reso possibile un rendering fotorealistico efficiente di scene statiche. Lavori recenti hanno esteso questi approcci per supportare la ricostruzione e il tracciamento delle superfici. Tuttavia, il tracciamento di superfici dinamiche con Gaussiane in 3D rimane sfidante a causa di complesse variazioni di topologia, come l'apparizione, la scomparsa o la divisione delle superfici. Per affrontare tali sfide, proponiamo GSTAR, un nuovo metodo che raggiunge un rendering fotorealistico, una ricostruzione accurata delle superfici e un affidabile tracciamento in 3D per scene dinamiche generali con topologie variabili. Dato un input di catture multi-vista, GSTAR associa le Gaussiane ai volti della mesh per rappresentare gli oggetti dinamici. Per superfici con topologia coerente, GSTAR mantiene la topologia della mesh e traccia le mesh utilizzando le Gaussiane. Nelle regioni in cui la topologia cambia, GSTAR scollega in modo adattivo le Gaussiane dalla mesh, consentendo una registrazione accurata e la generazione di nuove superfici basate su queste Gaussiane ottimizzate. Inoltre, introduciamo un metodo di flusso di scena basato sulla superficie che fornisce una robusta inizializzazione per il tracciamento tra i frame. Gli esperimenti dimostrano che il nostro metodo traccia e ricostruisce efficacemente le superfici dinamiche, consentendo una serie di applicazioni. La pagina del nostro progetto con il rilascio del codice è disponibile su https://eth-ait.github.io/GSTAR/.

Jan 23
Jan 24
Jan 27