ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrezziAccountSpazio di lavoro

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

1

Rapporto Tecnico Phi-4
Phi-4 Technical Report

Dec 12
ByMarah Abdin, Jyoti Aneja, Harkirat Behl, Sébastien Bubeck, Ronen Eldan, Suriya Gunasekar, Michael Harrison, Russell J. Hewett, Mojan Javaheripi, Piero Kauffmann, James R. Lee, Yin Tat Lee, Yuanzhi Li, Weishung Liu, Caio C. T. Mendes, Anh Nguyen, Eric Price, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Xin Wang, Rachel Ward, Yue Wu, Dingli Yu, Cyril Zhang, Yi Zhang
122
7

Presentiamo phi-4, un modello linguistico di 14 miliardi di parametri sviluppato con una ricetta di addestramento centralmente focalizzata sulla qualità dei dati. A differenza della maggior parte dei modelli linguistici, dove la preformazione si basa principalmente su fonti di dati organici come contenuti web o codice, phi-4 incorpora strategicamente dati sintetici durante l'intero processo di addestramento. Mentre i modelli precedenti della famiglia Phi in gran parte distillano le capacità di un modello insegnante (specificamente GPT-4), phi-4 supera sostanzialmente il suo modello insegnante sulle capacità di domande e risposte focalizzate su STEM, fornendo prove che le nostre tecniche di generazione dei dati e di post-addestramento vanno oltre la distillazione. Nonostante minimi cambiamenti all'architettura di phi-3, phi-4 raggiunge elevate prestazioni relative alla sua dimensione - specialmente su benchmark focalizzati sul ragionamento - grazie al miglioramento dei dati, del curriculum di addestramento e alle innovazioni nello schema di post-addestramento.

2

InternLM-XComposer2.5-OmniLive: Un sistema multimodale completo per interazioni audio e video in streaming a lungo termine
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions

Dec 12
ByPan Zhang, Xiaoyi Dong, Yuhang Cao, Yuhang Zang, Rui Qian, Xilin Wei, Lin Chen, Yifei Li, Junbo Niu, Shuangrui Ding, Qipeng Guo, Haodong Duan, Xin Chen, Han Lv, Zheng Nie, Min Zhang, Bin Wang, Wenwei Zhang, Xinyue Zhang, Jiaye Ge, Wei Li, Jingwen Li, Zhongying Tu, Conghui He, Xingcheng Zhang, Kai Chen, Yu Qiao, Dahua Lin, Jiaqi Wang
98
3

La creazione di sistemi di intelligenza artificiale in grado di interagire con gli ambienti per lunghi periodi, simili alla cognizione umana, è un obiettivo di ricerca di lunga data. I recenti progressi nei modelli di linguaggio multimodali di grandi dimensioni (MLLM) hanno compiuto significativi passi avanti nella comprensione del mondo aperto. Tuttavia, la sfida della percezione, memoria e ragionamento in streaming continuo e simultaneo rimane in gran parte inesplorata. Gli attuali MLLM sono vincolati dalla loro architettura sequenza-su-sequenza, che limita la loro capacità di elaborare input e generare risposte contemporaneamente, simile a non poter pensare mentre si percepisce. Inoltre, fare affidamento su contesti lunghi per memorizzare dati storici risulta impraticabile per interazioni a lungo termine, poiché mantenere tutte le informazioni diventa costoso ed inefficiente. Pertanto, anziché fare affidamento su un singolo modello di base per svolgere tutte le funzioni, questo progetto trae ispirazione dal concetto di Intelligenza Artificiale Generalista Specializzata e introduce meccanismi di percezione, ragionamento e memoria in streaming disaccoppiati, consentendo l'interazione in tempo reale con input video e audio in streaming. Il framework proposto InternLM-XComposer2.5-OmniLive (IXC2.5-OL) è composto da tre moduli chiave: (1) Modulo di Percezione in Streaming: Elabora informazioni multimodali in tempo reale, memorizzando dettagli chiave in memoria e attivando il ragionamento in risposta alle richieste dell'utente. (2) Modulo di Memoria Lunga Multimodale: Integra memoria a breve e lungo termine, comprimendo le memorie a breve termine in quelle a lungo termine per un recupero efficiente e una maggiore precisione. (3) Modulo di Ragionamento: Risponde alle richieste ed esegue compiti di ragionamento, coordinandosi con i moduli di percezione e memoria. Questo progetto simula una cognizione simile a quella umana, consentendo ai modelli di linguaggio multimodali di grandi dimensioni di fornire un servizio continuo e adattivo nel tempo.

3

Euclide: Potenziare i LLM Multimodali con Descrizioni Visive Sintetiche ad Alta Fedeltà
Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions

Dec 11
ByJiarui Zhang, Ollie Liu, Tianyu Yu, Jinyi Hu, Willie Neiswanger
54
2

I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno fatto rapidi progressi negli ultimi anni, ma continuano a lottare con la percezione visiva a basso livello (LLVP) - in particolare con la capacità di descrivere accuratamente i dettagli geometrici di un'immagine. Questa capacità è cruciale per applicazioni in settori come la robotica, l'analisi di immagini mediche e la produzione. In questo articolo, presentiamo per la prima volta Geoperception, un benchmark progettato per valutare la capacità di un MLLM di trascrivere con precisione informazioni geometriche 2D da un'immagine. Utilizzando questo benchmark, dimostriamo i limiti dei principali MLLM e conduciamo uno studio empirico completo per esplorare strategie per migliorare le loro prestazioni su compiti geometrici. Le nostre scoperte evidenziano i benefici di determinate architetture di modelli, tecniche di addestramento e strategie di dati, tra cui l'uso di dati sintetici ad alta fedeltà e l'addestramento multi-stadio con un curriculum di dati. In particolare, scopriamo che un curriculum di dati consente ai modelli di apprendere compiti di comprensione della geometria impegnativi che non riescono ad imparare da zero. Sfruttando queste intuizioni, sviluppiamo Euclide, una famiglia di modelli ottimizzati specificamente per una forte percezione geometrica a basso livello. Anche se addestrato esclusivamente su dati multimodali sintetici, Euclide mostra una forte capacità di generalizzazione a forme geometriche nuove. Ad esempio, Euclide supera il miglior modello closed-source, Gemini-1.5-Pro, fino al 58,56% su determinati compiti del benchmark Geoperception e del 10,65% in media su tutti i compiti.

4

Modellazione del linguaggio latente multimodale con diffusione del token successivo
Multimodal Latent Language Modeling with Next-Token Diffusion

Dec 11
ByYutao Sun, Hangbo Bao, Wenhui Wang, Zhiliang Peng, Li Dong, Shaohan Huang, Jianyong Wang, Furu Wei
48
2

I modelli generativi multimodali richiedono un approccio unificato per gestire sia dati discreti (ad esempio, testo e codice) che dati continui (ad esempio, immagini, audio, video). In questo lavoro, proponiamo il Modellamento del Linguaggio Latente (LatentLM), che integra in modo fluido dati continui e discreti utilizzando Trasformatori causali. In particolare, impieghiamo un autoencoder variazionale (VAE) per rappresentare i dati continui come vettori latenti e introduciamo la diffusione del token successivo per la generazione autoregressiva di questi vettori. Inoltre, sviluppiamo il sigma-VAE per affrontare le sfide del collasso della varianza, che è cruciale per la modellazione autoregressiva. Esperimenti estesi dimostrano l'efficacia di LatentLM attraverso varie modalità. Nella generazione di immagini, LatentLM supera i Trasformatori a Diffusione sia in termini di prestazioni che di scalabilità. Quando integrato nei grandi modelli di linguaggio multimodali, LatentLM fornisce un'interfaccia multiuso che unifica la generazione multimodale e la comprensione. I risultati sperimentali mostrano che LatentLM ottiene prestazioni favorevoli rispetto a Transfusion e modelli quantizzati a vettori nell'ambito dell'incremento dei token di addestramento. Nella sintesi testo-a-parola, LatentLM supera il modello VALL-E 2 all'avanguardia nella similarità e nella robustezza degli speaker, richiedendo al contempo 10 volte meno passaggi di decodifica. I risultati confermano LatentLM come un approccio altamente efficace e scalabile per far progredire i grandi modelli multimodali.

5

Lyra: un framework efficiente e centrato sull'interazione vocale per l'omni-cognizione
Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

Dec 12
ByZhisheng Zhong, Chengyao Wang, Yuqi Liu, Senqiao Yang, Longxiang Tang, Yuechen Zhang, Jingyao Li, Tianyuan Qu, Yanwei Li, Yukang Chen, Shaozuo Yu, Sitong Wu, Eric Lo, Shu Liu, Jiaya Jia
48
3

Con l'evoluzione dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs), è essenziale espandersi oltre le capacità in un singolo dominio per soddisfare le esigenze di un'intelligenza artificiale più versatile ed efficiente. Tuttavia, i precedenti modelli omni-modalità hanno esplorato in modo insufficiente il linguaggio parlato, trascurando la sua integrazione con la multimodalità. Presentiamo Lyra, un MLLM efficiente che potenzia le capacità multimodali, inclusa la comprensione avanzata del linguaggio parlato, la comprensione del suono, l'efficienza della cross-modalità e l'interazione vocale senza soluzione di continuità. Per raggiungere l'efficienza e le capacità incentrate sul linguaggio parlato, Lyra utilizza tre strategie: (1) sfruttando modelli di grandi dimensioni open-source esistenti e un nuovo LoRA multimodalità proposto per ridurre i costi di addestramento e i requisiti di dati; (2) utilizzando un regolarizzatore e un estrattore latenti multimodalità per rafforzare la relazione tra il linguaggio parlato e le altre modalità, migliorando così le prestazioni del modello; e (3) costruendo un dataset di alta qualità e ampio che include 1,5 milioni di campioni di dati multimodali (linguaggio, visione, audio) e 12.000 campioni di linguaggio parlato lungo, consentendo a Lyra di gestire input di linguaggio parlato lungo complessi e raggiungere una cognizione omni più robusta. Rispetto ad altri metodi omni, Lyra raggiunge prestazioni all'avanguardia su vari benchmark di visione-linguaggio, visione-linguaggio parlato e linguaggio parlato, utilizzando anche meno risorse computazionali e minori dati di addestramento.

6

AgentTrek: Sintesi della traiettoria dell'agente tramite Guiding Replay con Tutorial Web
AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials

Dec 12
ByYiheng Xu, Dunjie Lu, Zhennan Shen, Junli Wang, Zekun Wang, Yuchen Mao, Caiming Xiong, Tao Yu
30
2

Gli agenti dell'Interfaccia Utente Grafica (GUI) hanno un grande potenziale per automatizzare compiti complessi in diversi ambienti digitali, dalle applicazioni web ai software desktop. Tuttavia, lo sviluppo di tali agenti è ostacolato dalla mancanza di dati di traiettoria multi-step di alta qualità necessari per un addestramento efficace. Gli approcci esistenti si basano su annotazioni umane costose e laboriose, rendendoli non sostenibili su larga scala. Per affrontare questa sfida, proponiamo AgentTrek, un sistema di sintesi dati scalabile che genera traiettorie di agenti GUI di alta qualità sfruttando tutorial web. Il nostro metodo raccoglie automaticamente testi simili a tutorial da internet, li trasforma in obiettivi di attività con istruzioni passo-passo e utilizza un agente modello di linguaggio visivo per simulare la loro esecuzione in un ambiente digitale reale. Un valutatore basato su VLM garantisce la correttezza delle traiettorie generate. Dimostriamo che addestrare agenti GUI con queste traiettorie sintetizzate migliora significativamente la loro base e le prestazioni di pianificazione rispetto ai modelli attuali. Inoltre, il nostro approccio è più efficiente in termini di costi rispetto ai metodi tradizionali di annotazione umana. Questo lavoro sottolinea il potenziale del replay guidato con tutorial web come strategia valida per l'addestramento su larga scala degli agenti GUI, aprendo la strada a agenti digitali più capaci e autonomi.

7

SnapGen: Domare modelli di testo-immagine ad alta risoluzione per dispositivi mobili con architetture e addestramento efficienti
SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training

Dec 12
ByDongting Hu, Jierun Chen, Xijie Huang, Huseyin Coskun, Arpit Sahni, Aarush Gupta, Anujraaj Goyal, Dishani Lahiri, Rajesh Singh, Yerlan Idelbayev, Junli Cao, Yanyu Li, Kwang-Ting Cheng, S. -H. Gary Chan, Mingming Gong, Sergey Tulyakov, Anil Kag, Yanwu Xu, Jian Ren
28
4

I modelli di diffusione testo-immagine (T2I) esistenti affrontano diverse limitazioni, tra cui dimensioni del modello ingenti, lentezza di esecuzione e generazione di bassa qualità su dispositivi mobili. Questo articolo si propone di affrontare tutte queste sfide sviluppando un modello T2I estremamente piccolo e veloce che genera immagini ad alta risoluzione e di alta qualità su piattaforme mobili. Proponiamo diverse tecniche per raggiungere questo obiettivo. In primo luogo, esaminiamo sistematicamente le scelte progettuali dell'architettura di rete per ridurre i parametri del modello e la latenza, garantendo nel contempo una generazione di alta qualità. In secondo luogo, per migliorare ulteriormente la qualità della generazione, utilizziamo la distillazione della conoscenza tra architetture da un modello molto più grande, utilizzando un approccio multi livello per guidare l'addestramento del nostro modello da zero. In terzo luogo, abilitiamo una generazione a pochi passaggi integrando la guida avversaria con la distillazione della conoscenza. Per la prima volta, il nostro modello SnapGen dimostra la generazione di immagini da 1024x1024 px su un dispositivo mobile in circa 1,4 secondi. Su ImageNet-1K, il nostro modello, con soli 372M parametri, raggiunge un FID di 2,06 per la generazione da 256x256 px. Sui benchmark T2I (ad esempio, GenEval e DPG-Bench), il nostro modello con soli 379M parametri supera modelli su larga scala con miliardi di parametri in dimensioni significativamente minori (ad esempio, 7 volte più piccolo di SDXL, 14 volte più piccolo di IF-XL).

8

EasyRef: Riferimento Immagine di Gruppo Omni-Generalizzato per Modelli di Diffusione tramite LLM Multimodale
EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM

Dec 12
ByZhuofan Zong, Dongzhi Jiang, Bingqi Ma, Guanglu Song, Hao Shao, Dazhong Shen, Yu Liu, Hongsheng Li
21
3

Sono stati osservati significativi progressi nella personalizzazione dei modelli di diffusione. I metodi convenzionali senza sintonizzazione principalmente codificano più immagini di riferimento attraverso la media delle loro incapsulazioni d'immagine come condizione di iniezione, ma tale operazione indipendente dall'immagine non può interagire tra le immagini per catturare elementi visivi coerenti all'interno di più riferimenti. Anche se l'Adattamento a Basso Rango (LoRA) basato sulla sintonizzazione può estrarre efficacemente elementi coerenti all'interno di più immagini durante il processo di addestramento, richiede una sintonizzazione specifica per ciascun gruppo di immagini distinte. Questo articolo introduce EasyRef, un nuovo metodo di adattamento plug-and-play che consente ai modelli di diffusione di essere condizionati su più immagini di riferimento e sul prompt di testo. Per sfruttare efficacemente elementi visivi coerenti all'interno di più immagini, sfruttiamo le capacità di comprensione multi-immagine e di seguire le istruzioni del modello di linguaggio multimodale a grande scala (MLLM), chiedendogli di catturare elementi visivi coerenti in base all'istruzione. Inoltre, iniettare le rappresentazioni del MLLM nel processo di diffusione attraverso adattatori può generalizzare facilmente a domini non visti, estrarre gli elementi visivi coerenti all'interno di dati non visti. Per mitigare i costi computazionali e migliorare la conservazione dei dettagli fini, introduciamo una strategia efficiente di aggregazione di riferimenti e uno schema di addestramento progressivo. Infine, presentiamo MRBench, un nuovo benchmark di generazione di immagini multi-riferimento. I risultati sperimentali dimostrano che EasyRef supera sia i metodi senza sintonizzazione come IP-Adapter sia i metodi basati sulla sintonizzazione come LoRA, raggiungendo una qualità estetica superiore e una generalizzazione zero-shot robusta attraverso domini diversi.

9

JuStRank: Valutazione dei Giudici LLM per la Classificazione dei Sistemi
JuStRank: Benchmarking LLM Judges for System Ranking

Dec 12
ByAriel Gera, Odellia Boni, Yotam Perlitz, Roy Bar-Haim, Lilach Eden, Asaf Yehudai
20
3

Date i rapidi progressi dell'IA generativa, c'è un urgente bisogno di confrontare e scegliere in modo sistematico tra i numerosi modelli e configurazioni disponibili. La portata e la versatilità di tali valutazioni rendono l'uso di giudici basati su LLM una soluzione convincente per questa sfida. In modo cruciale, questo approccio richiede innanzitutto di convalidare la qualità del giudice LLM stesso. Lavori precedenti si sono concentrati sulla valutazione basata sull'istanza dei giudici LLM, in cui un giudice viene valutato su un insieme di risposte, o coppie di risposte, rimanendo agnostico rispetto ai loro sistemi di origine. Sosteniamo che questo contesto trascura fattori critici che influenzano la classifica a livello di sistema, come il bias positivo o negativo di un giudice verso determinati sistemi. Per affrontare questa lacuna, conduciamo il primo studio su larga scala dei giudici LLM come classificatori di sistemi. I punteggi dei sistemi sono generati aggregando i punteggi di giudizio su più output di sistema, e la qualità del giudice è valutata confrontando la classifica del sistema risultante con una classifica basata sull'umanità. Oltre alla valutazione complessiva del giudice, la nostra analisi fornisce una caratterizzazione dettagliata del comportamento del giudice, inclusa la sua decisionalità e il bias.

10

PIG: Gaussiani Informati dalla Fisica come Rappresentazioni a Maglie Parametriche Adattive
PIG: Physics-Informed Gaussians as Adaptive Parametric Mesh Representations

Dec 8
ByNamgyu Kang, Jaemin Oh, Youngjoon Hong, Eunbyung Park
19
2

L'approssimazione delle Equazioni Differenziali Parziali (PDE) utilizzando reti neurali ha visto significativi progressi attraverso le Reti Neurali Informed by Physics (PINNs). Nonostante il loro diretto framework di ottimizzazione e la flessibilità nell'implementare varie PDE, le PINNs spesso soffrono di limitata precisione a causa del bias spettrale dei Multi-Layer Perceptrons (MLPs), che faticano ad apprendere efficacemente componenti ad alta frequenza e non lineari. Recentemente, le rappresentazioni parametriche a maglia in combinazione con reti neurali sono state esaminate come un approccio promettente per eliminare i bias induttivi delle reti neurali. Tuttavia, solitamente richiedono griglie ad alta risoluzione e un gran numero di punti di collocamento per raggiungere elevata precisione evitando problemi di overfitting. Inoltre, le posizioni fisse dei parametri della maglia limitano la loro flessibilità, rendendo difficile l'approssimazione accurata di PDE complesse. Per superare tali limitazioni, proponiamo i Gaussiani Informed by Physics (PIGs), che combinano embedding di caratteristiche utilizzando funzioni gaussiane con una leggera rete neurale. Il nostro approccio utilizza parametri addestrabili per la media e la varianza di ciascun Gaussiano, consentendo un aggiustamento dinamico delle loro posizioni e forme durante l'addestramento. Questa adattabilità permette al nostro modello di approssimare ottimamente le soluzioni delle PDE, a differenza dei modelli con posizioni di parametri fisse. Inoltre, l'approccio proposto mantiene lo stesso framework di ottimizzazione utilizzato nelle PINNs, consentendoci di beneficiare delle loro eccellenti proprietà. I risultati sperimentali mostrano le prestazioni competitive del nostro modello su varie PDE, dimostrandone il potenziale come strumento robusto per risolvere PDE complesse. La pagina del nostro progetto è disponibile su https://namgyukang.github.io/Physics-Informed-Gaussians/

11

Neural LightRig: Sbloccare la stima accurata della normale degli oggetti e dei materiali con la diffusione multi-luce.
Neural LightRig: Unlocking Accurate Object Normal and Material Estimation with Multi-Light Diffusion

Dec 12
ByZexin He, Tengfei Wang, Xin Huang, Xingang Pan, Ziwei Liu
18
4

Recuperare la geometria e i materiali degli oggetti da un'unica immagine è una sfida a causa della sua natura sottodeterminata. In questo articolo, presentiamo Neural LightRig, un nuovo framework che potenzia la stima intrinseca sfruttando condizioni di illuminazione ausiliarie da priors di diffusione 2D. In particolare, 1) sfruttiamo inizialmente i priors di illuminazione da modelli di diffusione su larga scala per costruire il nostro modello di diffusione multi-illuminazione su un dataset di illuminazione sintetica con design dedicati. Questo modello di diffusione genera diverse immagini coerenti, ognuna illuminata da sorgenti di luce puntiformi in direzioni diverse. 2) Utilizzando queste immagini di illuminazione varie per ridurre l'incertezza della stima, addestriamo un ampio modello G-buffer con una struttura a U-Net per prevedere con precisione le normali della superficie e i materiali. Esperimenti estensivi convalidano che il nostro approccio supera significativamente i metodi all'avanguardia, consentendo una stima accurata delle normali della superficie e dei materiali PBR con vividi effetti di illuminazione. Il codice e il dataset sono disponibili sulla nostra pagina del progetto su https://projects.zxhezexin.com/neural-lightrig.

12

Compressione appresa per l'apprendimento compresso
Learned Compression for Compressed Learning

Dec 12
ByDan Jacobellis, Neeraja J. Yadwadkar
13
2

I sensori moderni producono flussi di dati ad alta risoluzione sempre più ricchi. A causa delle limitazioni delle risorse, i sistemi di apprendimento automatico scartano la grande maggioranza di queste informazioni tramite la riduzione della risoluzione. L'apprendimento nel dominio compresso consente ai modelli di operare su rappresentazioni latenti compatte, consentendo una risoluzione effettiva più elevata per lo stesso budget. Tuttavia, i sistemi di compressione esistenti non sono ideali per l'apprendimento compresso. La codifica della trasformata lineare e i sistemi di compressione appresi end-to-end riducono il bitrate, ma non riducono uniformemente la dimensionalità; pertanto, non aumentano in modo significativo l'efficienza. Gli autoencoder generativi riducono la dimensionalità, ma i loro obiettivi avversari o percettivi portano a una significativa perdita di informazioni. Per affrontare queste limitazioni, presentiamo WaLLoC (Wavelet Learned Lossy Compression), un'architettura di codec neurale che combina la codifica della trasformata lineare con gli autoencoder non lineari riduttori di dimensionalità. WaLLoC inserisce un autoencoder asimmetrico superficiale e un collo di bottiglia di entropia tra una trasformata a pacchetto di wavelet invertibile. Su diversi parametri chiave, WaLLoC supera gli autoencoder utilizzati nei modelli di diffusione latente all'avanguardia. WaLLoC non richiede perdite percettive o avversarie per rappresentare dettagli ad alta frequenza, offrendo compatibilità con modalità oltre alle immagini RGB e all'audio stereo. L'encoder di WaLLoC è composto quasi interamente da operazioni lineari, rendendolo eccezionalmente efficiente e adatto per il calcolo mobile, il rilevamento remoto e l'apprendimento diretto dai dati compressi. Dimostriamo la capacità di WaLLoC per l'apprendimento nel dominio compresso su diversi compiti, inclusa la classificazione delle immagini, la colorazione, la comprensione dei documenti e la separazione delle sorgenti musicali. Il nostro codice, gli esperimenti e i codec audio e immagine preaddestrati sono disponibili su https://ut-sysml.org/walloc.

13

VisionArena: 230.000 Conversazioni Utente-Macchina del Mondo Reale con Etichette di Preferenza
VisionArena: 230K Real World User-VLM Conversations with Preference Labels

Dec 11
ByChristopher Chou, Lisa Dunlap, Koki Mashita, Krishna Mandal, Trevor Darrell, Ion Stoica, Joseph E. Gonzalez, Wei-Lin Chiang
13
3

Con l'ampia adozione e le capacità dei modelli visione-linguaggio (VLM) in crescita, sorge la necessità di benchmark che catturino autentiche interazioni utente-VLM. In risposta, abbiamo creato VisionArena, un dataset di 230K conversazioni del mondo reale tra utenti e VLM. Raccolti da Chatbot Arena - una piattaforma open-source in cui gli utenti interagiscono con i VLM e inviano preferenze - VisionArena copre 73K utenti unici, 45 VLM e 138 lingue. Il nostro dataset contiene tre sottoinsiemi: VisionArena-Chat, 200k conversazioni singole e multi-turn tra un utente e un VLM; VisionArena-Battle, 30K conversazioni che confrontano due VLM anonimi con voti di preferenza degli utenti; e VisionArena-Bench, un benchmark automatico di 500 prompt utente diversi che approssimano efficacemente le classifiche dei modelli live di Chatbot Arena. Inoltre, evidenziamo i tipi di domande poste dagli utenti, l'influenza dello stile di risposta sulla preferenza e le aree in cui i modelli falliscono spesso. Troviamo che compiti aperti come la didascalia e l'umorismo dipendono fortemente dallo stile, e i VLM attuali faticano con il ragionamento spaziale e i compiti di pianificazione. Infine, dimostriamo che il fine-tuning dello stesso modello di base su VisionArena-Chat supera Llava-Instruct-158K, con un aumento di 17 punti su MMMU e di 46 punti sul benchmark WildVision. Dataset disponibile su https://huggingface.co/lmarena-ai

14

Super risoluzione di immagini a passi arbitrari tramite inversione della diffusione
Arbitrary-steps Image Super-resolution via Diffusion Inversion

Dec 12
ByZongsheng Yue, Kang Liao, Chen Change Loy
13
2

Questo studio presenta una nuova tecnica di super risoluzione (SR) delle immagini basata sull'inversione della diffusione, mirando a sfruttare i ricchi priori delle immagini racchiusi nei grandi modelli di diffusione pre-addestrati per migliorare le prestazioni della SR. Progettiamo una strategia di Predizione parziale del rumore per costruire uno stato intermedio del modello di diffusione, che funge da punto di campionamento iniziale. Al centro del nostro approccio c'è un predittore profondo del rumore per stimare le mappe ottimali del rumore per il processo di diffusione in avanti. Una volta addestrato, questo predittore del rumore può essere utilizzato per inizializzare parzialmente il processo di campionamento lungo la traiettoria di diffusione, generando il desiderato risultato ad alta risoluzione. Rispetto agli approcci esistenti, il nostro metodo offre un meccanismo di campionamento flessibile ed efficiente che supporta un numero arbitrario di passaggi di campionamento, che vanno da uno a cinque. Anche con un singolo passaggio di campionamento, il nostro metodo dimostra prestazioni superiori o comparabili agli approcci di ultima generazione. Il codice e il modello sono disponibili pubblicamente su https://github.com/zsyOAOA/InvSR.

15

I Flussi Normalizzanti sono Modelli Generativi Capacità.
Normalizing Flows are Capable Generative Models

Dec 9
ByShuangfei Zhai, Ruixiang Zhang, Preetum Nakkiran, David Berthelot, Jiatao Gu, Huangjie Zheng, Tianrong Chen, Miguel Angel Bautista, Navdeep Jaitly, Josh Susskind
11
2

I Flussi Normalizzanti (NF) sono modelli basati sulla verosimiglianza per input continui. Hanno dimostrato risultati promettenti sia nella stima della densità che nei compiti di modellazione generativa, ma hanno ricevuto relativamente poco attenzione negli ultimi anni. In questo lavoro, dimostriamo che i NF sono più potenti di quanto si credesse in precedenza. Presentiamo TarFlow: un'architettura semplice e scalabile che consente modelli NF ad alte prestazioni. TarFlow può essere considerato come una variante basata su Transformer di Flussi Autoregressivi Mascherati (MAF): consiste in una serie di blocchi autoregressivi Transformer su patch di immagini, alternando la direzione dell'autoregressione tra i livelli. TarFlow è semplice da addestrare end-to-end e in grado di modellare e generare direttamente pixel. Proponiamo inoltre tre tecniche chiave per migliorare la qualità del campione: l'aggiunta di rumore gaussiano durante l'addestramento, una procedura di denoising post-addestramento e un efficace metodo di guida sia per impostazioni condizionate alla classe che incondizionate. Mettendo insieme questi elementi, TarFlow stabilisce nuovi risultati di stato dell'arte nella stima della verosimiglianza per le immagini, superando i metodi precedenti di gran lunga, e genera campioni con qualità e diversità paragonabili ai modelli di diffusione, per la prima volta con un modello NF autonomo. Mettiamo a disposizione il nostro codice su https://github.com/apple/ml-tarflow.

16

OLA-VLM: Elevare la Percezione Visiva nei LLM Multimodali con Distillazione di Embedding Ausiliaria
OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation

Dec 12
ByJitesh Jain, Zhengyuan Yang, Humphrey Shi, Jianfeng Gao, Jianwei Yang
11
2

La prassi standard per lo sviluppo dei moderni Modelli di Linguaggio Multimodali è quella di fornire le caratteristiche dall'encoder (o dagli encoder) di visione al Modelli di Linguaggio e addestrarlo con supervisione in linguaggio naturale. In questo lavoro, ipotizziamo un'opportunità trascurata per ottimizzare le rappresentazioni intermedie del Modelli di Linguaggio Multimodale attraverso una prospettiva visiva (obiettivo), ovvero la sola supervisione in linguaggio naturale è sub-ottimale per la capacità di comprensione visiva del Modelli di Linguaggio Multimodale. A tal fine, proponiamo OLA-VLM, il primo approccio che distilla conoscenze nelle rappresentazioni nascoste del Modelli di Linguaggio da un insieme di rappresentazioni visive target. In primo luogo, formuliamo l'obiettivo durante la fase di preaddestramento nei Modelli di Linguaggio Multimodali come un'ottimizzazione accoppiata dell'incorporamento visivo predittivo e della successiva previsione del token di testo. In secondo luogo, indaghiamo sui Modelli di Linguaggio Multimodali addestrati esclusivamente con supervisione in linguaggio naturale e identifichiamo una correlazione positiva tra la qualità delle rappresentazioni visive all'interno di questi modelli e le loro prestazioni downstream. Inoltre, sondando il nostro OLA-VLM, osserviamo un miglioramento della qualità della rappresentazione grazie all'ottimizzazione dell'incorporamento. In terzo luogo, dimostriamo che il nostro OLA-VLM supera i baselines con singolo e multi-encoder, dimostrando la superiorità del nostro approccio rispetto all'alimentazione esplicita delle caratteristiche corrispondenti al Modelli di Linguaggio. In particolare, OLA-VLM aumenta le prestazioni di un margine medio fino al 2.5% su vari benchmark, con un notevole miglioramento dell'8.7% sul compito di Profondità in CV-Bench. Il nostro codice è open-source su https://github.com/SHI-Labs/OLA-VLM.

17

RuleArena: un benchmark per il ragionamento guidato dalle regole con LLM in scenari del mondo reale
RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios

Dec 12
ByRuiwen Zhou, Wenyue Hua, Liangming Pan, Sitao Cheng, Xiaobao Wu, En Yu, William Yang Wang
11
2

Questo articolo introduce RuleArena, un nuovo e impegnativo benchmark progettato per valutare l'abilità dei grandi modelli linguistici (LLM) nel seguire regole complesse del mondo reale nel ragionamento. Coprendo tre domini pratici - tariffe per il bagaglio aereo, transazioni NBA e normative fiscali - RuleArena valuta la competenza dei LLM nel gestire istruzioni intricate in linguaggio naturale che richiedono una comprensione a lungo contesto, ragionamento logico e calcoli matematici accurati. Due attributi chiave distinguono RuleArena dai tradizionali benchmark di ragionamento basati su regole: (1) si estende oltre le rappresentazioni standard della logica del primo ordine e (2) è radicato in scenari autentici e pratici, fornendo approfondimenti sulla idoneità e affidabilità dei LLM per le applicazioni del mondo reale. Le nostre scoperte rivelano diverse limitazioni significative nei LLM: (1) faticano a identificare e applicare le regole appropriate, diventando frequentemente confusi da regolamenti simili ma distinti, (2) non riescono a eseguire in modo coerente calcoli matematici accurati, anche quando identificano correttamente le regole rilevanti e (3) in generale, hanno prestazioni scadenti nel benchmark. Questi risultati evidenziano significativi ostacoli nel migliorare le capacità di ragionamento guidate da regole dei LLM nelle applicazioni della vita reale.

18

Collegamento dei sensi delle parole: Disambiguazione al di fuori del sandbox.
Word Sense Linking: Disambiguating Outside the Sandbox

Dec 12
ByAndrei Stefan Bejgu, Edoardo Barba, Luigi Procopio, Alberte Fernández-Castro, Roberto Navigli
10
2

La Disambiguazione del Senso delle Parole (WSD) è il compito di associare una parola in un dato contesto al suo significato più adatto tra un insieme di possibili candidati. Mentre il compito ha recentemente visto un rinnovato interesse, con sistemi che raggiungono prestazioni superiori alla stima dell'accordo tra annotatori, al momento della stesura continua a faticare nel trovare applicazioni pratiche. Sosteniamo che una delle ragioni di ciò sia la difficoltà nell'applicare il WSD al testo semplice. Infatti, nella formulazione standard, i modelli operano sotto l'assunzione che a) tutti i segmenti da disambiguare siano già stati identificati e b) siano forniti tutti i possibili significati candidati di ciascun segmento, entrambi requisiti tutt'altro che banali. In questo lavoro, presentiamo un nuovo compito chiamato Collegamento dei Sensi delle Parole (WSL) in cui, dato un testo di input e un inventario di sensi di riferimento, i sistemi devono sia identificare quali segmenti disambiguare e poi collegarli al loro significato più adatto. Proponiamo un'architettura basata su trasformatori per il compito e valutiamo approfonditamente sia le sue prestazioni che quelle dei sistemi WSD all'avanguardia adattati a WSL, rilassando iterativamente le assunzioni del WSD. Ci auguriamo che il nostro lavoro favorisca un'integrazione più semplice della semantica lessicale nelle applicazioni pratiche.

19

L'Impatto dei Materiali Protetti da Copyright sui Grandi Modelli Linguistici: Una Prospettiva Norvegese
The Impact of Copyrighted Material on Large Language Models: A Norwegian Perspective

Dec 12
ByJavier de la Rosa, Vladislav Mikhailov, Lemei Zhang, Freddy Wetjen, David Samuel, Peng Liu, Rolv-Arild Braaten, Petter Mæhlum, Magnus Breder Birkenes, Andrey Kutuzov, Tita Enstad, Svein Arne Brygfjeld, Jon Atle Gulla, Stephan Oepen, Erik Velldal, Wilfred Østgulen, Liljia Øvrelid, Aslak Sira Myhre
9
2

L'uso di materiali protetti da copyright nella formazione di modelli di linguaggio generativi solleva questioni legali ed etiche critiche. Questo articolo presenta un quadro e i risultati di un'analisi empirica sull'impatto dei materiali protetti da copyright sulle prestazioni dei grandi modelli di linguaggio (LLM) per il norvegese. Abbiamo scoperto che sia i libri che i giornali contribuiscono positivamente quando i modelli sono valutati su un insieme diversificato di benchmark norvegesi, mentre le opere di narrativa potrebbero portare a una diminuzione delle prestazioni. I nostri esperimenti potrebbero informare la creazione di un piano di compensazione per gli autori i cui lavori contribuiscono allo sviluppo dell'IA.

20

FreeSplatter: Splatting Gaussiano senza posa per la ricostruzione 3D a vista sparso
FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction

Dec 12
ByJiale Xu, Shenghua Gao, Ying Shan
8
3

I modelli esistenti di ricostruzione da viste sparse dipendono pesantemente da pose di telecamere conosciute con precisione. Tuttavia, derivare estrinseci e intrinseci della telecamera da immagini a viste sparse presenta significativi ostacoli. In questo lavoro, presentiamo FreeSplatter, un framework di ricostruzione altamente scalabile e feed-forward in grado di generare Gaussiane 3D di alta qualità da immagini a viste sparse non calibrate e di recuperare i relativi parametri della telecamera in pochi secondi. FreeSplatter si basa su un'architettura di trasformatore ottimizzata, composta da blocchi di autoattenzione sequenziali che facilitano lo scambio di informazioni tra token di immagini multi-vista e li decodificano in primitive Gaussiane 3D a livello di pixel. Le primitive Gaussiane predette sono posizionate in un unico frame di riferimento, consentendo una modellazione 3D ad alta fedeltà e una stima istantanea dei parametri della telecamera utilizzando risolutori già disponibili. Per soddisfare sia la ricostruzione centrata sugli oggetti che a livello di scena, addestriamo due varianti del modello di FreeSplatter su dataset estesi. In entrambi i casi, FreeSplatter supera i baselines all'avanguardia in termini di qualità della ricostruzione e accuratezza della stima della posa. Inoltre, mostriamo il potenziale di FreeSplatter nel migliorare la produttività delle applicazioni derivate, come la creazione di contenuti testo/immagine in 3D.

21

DisPose: Disintrecciare l'orientamento della posa per un'animazione controllabile di immagini umane
DisPose: Disentangling Pose Guidance for Controllable Human Image Animation

Dec 12
ByHongxiang Li, Yaowei Li, Yuhang Yang, Junjie Cao, Zhihong Zhu, Xuxin Cheng, Long Chen
8
2

L'animazione di immagini umane controllabile mira a generare video da immagini di riferimento utilizzando video guida. A causa dei segnali di controllo limitati forniti da una guida scarsa (ad esempio, posa dello scheletro), lavori recenti hanno cercato di introdurre condizioni dense aggiuntive (ad esempio, mappa di profondità) per garantire l'allineamento del movimento. Tuttavia, una guida densa così rigorosa compromette la qualità del video generato quando la forma del corpo del personaggio di riferimento differisce significativamente da quella del video guida. In questo articolo, presentiamo DisPose per estrarre segnali di controllo più generalizzabili ed efficaci senza input denso aggiuntivo, che disaccoppia la posa dello scheletro scarsa nell'animazione di immagini umane in guida del campo di movimento e corrispondenza dei punti chiave. In particolare, generiamo un campo di movimento denso da un campo di movimento sparso e dall'immagine di riferimento, che fornisce una guida densa a livello di regione mantenendo la generalizzazione del controllo di posa sparso. Estraiamo inoltre le caratteristiche di diffusione corrispondenti ai punti chiave della posa dall'immagine di riferimento, e quindi queste caratteristiche puntuali vengono trasferite alla posa di destinazione per fornire informazioni di identità distinte. Per integrarsi senza soluzione di continuità nei modelli esistenti, proponiamo un ControlNet ibrido plug-and-play che migliora la qualità e la coerenza dei video generati mentre congela i parametri del modello esistente. Estesi esperimenti qualitativi e quantitativi dimostrano la superiorità di DisPose rispetto ai metodi attuali. Codice: https://github.com/lihxxx/DisPose.

22

LoRACLR: Adattamento Contrastivo per la Personalizzazione dei Modelli di Diffusione
LoRACLR: Contrastive Adaptation for Customization of Diffusion Models

Dec 12
ByEnis Simsar, Thomas Hofmann, Federico Tombari, Pinar Yanardag
8
2

I recenti progressi nella personalizzazione del testo all'immagine hanno reso possibile la generazione di immagini personalizzate ad alta fedeltà e ricche di contesto, consentendo a concetti specifici di apparire in una varietà di scenari. Tuttavia, i metodi attuali faticano nel combinare più modelli personalizzati, spesso portando all'intreccio degli attributi o richiedendo un addestramento separato per preservare la distinzione dei concetti. Presentiamo LoRACLR, un nuovo approccio per la generazione di immagini multi-concetto che fonde più modelli LoRA, ognuno ottimizzato per un concetto distinto, in un unico modello unificato senza ulteriore ottimizzazione individuale. LoRACLR utilizza un obiettivo contrastivo per allineare e fondere gli spazi dei pesi di questi modelli, garantendo la compatibilità e minimizzando le interferenze. Applicando rappresentazioni distinte ma coerenti per ciascun concetto, LoRACLR consente una composizione efficiente e scalabile dei modelli per la sintesi di immagini multi-concetto di alta qualità. I nostri risultati evidenziano l'efficacia di LoRACLR nel fondere accuratamente più concetti, avanzando le capacità della generazione di immagini personalizzate.

23

STESSO: Apprendimento della navigazione visiva guidata dal linguaggio generico con Mischia di Esperti Adattivi allo Stato
SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts

Dec 7
ByGengze Zhou, Yicong Hong, Zun Wang, Chongyang Zhao, Mohit Bansal, Qi Wu
6
2

Il campo accademico della navigazione visiva guidata dall'istruzione apprendimento può essere generalmente categorizzato in ricerca specifica di categoria ad alto livello e navigazione guidata dal linguaggio a basso livello, a seconda della granularità dell'istruzione linguistica, in cui il primo enfatizza il processo di esplorazione, mentre il secondo si concentra sul seguire comandi testuali dettagliati. Nonostante i diversi focus di questi compiti, i requisiti sottostanti di interpretare le istruzioni, comprendere l'ambiente circostante e dedurre decisioni d'azione rimangono coerenti. Questo articolo unisce diverse attività di navigazione in un quadro unificato e generico -- esaminiamo le difficoltà principali nel condividere conoscenze generali e sfruttare capacità specifiche del compito nell'apprendimento della navigazione e proponiamo un nuovo modello State-Adaptive Mixture of Experts (SAME) che consente efficacemente a un agente di dedurre decisioni basate su istruzioni di diverse granularità e osservazioni dinamiche. Supportato da SAME, presentiamo un agente versatile in grado di affrontare contemporaneamente sette compiti di navigazione che supera o raggiunge prestazioni altamente comparabili agli agenti specifici del compito.

24

ONEBench per testarli tutti: Benchmarking a livello di campione sulle capacità aperte-ended.
ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities

Dec 9
ByAdhiraj Ghosh, Sebastian Dziadzio, Ameya Prabhu, Vishaal Udandarao, Samuel Albanie, Matthias Bethge
6
2

I tradizionali set di test fissi risultano limitati nell'valutare le capacità aperte dei modelli fondamentali. Per affrontare questo problema, proponiamo ONEBench (OpeN-Ended Benchmarking), un nuovo paradigma di test che unisce i singoli set di valutazione in un unico e in continua espansione pool di campioni. ONEBench consente agli utenti di generare benchmark personalizzati e aperti da questo pool, corrispondenti a specifiche capacità di interesse. Aggregando campioni tra i set di test, ONEBench permette la valutazione di capacità diverse oltre a quelle coperte dai set di test originali, mitigando l'overfitting e il bias del dataset. Inoltre, esso concepisce la valutazione del modello come un processo collettivo di selezione e aggregazione di test a livello di campione. Il passaggio dai benchmark specifici per compiti a ONEBench introduce due sfide: (1) l'eterogeneità e (2) l'incompletezza. L'eterogeneità si riferisce all'aggregazione su metriche diverse, mentre l'incompletezza descrive il confronto tra modelli valutati su diversi sottoinsiemi di dati. Per affrontare queste sfide, esploriamo algoritmi per aggregare misurazioni sparse in punteggi affidabili del modello. Il nostro algoritmo di aggregazione garantisce l'identificabilità (recupero asintotico dei punteggi reali) e una rapida convergenza, consentendo una classifica accurata dei modelli con meno dati. Su dataset omogenei, dimostriamo che il nostro algoritmo di aggregazione fornisce classifiche altamente correlate con quelle prodotte dai punteggi medi. Dimostriamo anche la robustezza a circa il 95% delle misurazioni mancanti, riducendo i costi di valutazione fino a 20 volte con poche o nessuna variazione nelle classifiche dei modelli. Presentiamo ONEBench-LLM per i modelli linguistici e ONEBench-LMM per i modelli visione-linguaggio, unificando le valutazioni in questi ambiti. In generale, presentiamo una tecnica per la valutazione aperta, che può aggregare misurazioni eterogenee e incomplete a livello di campione per far crescere continuamente un benchmark insieme ai modelli fondamentali in rapida evoluzione.

25

Gaze-LLE: Stima del Bersaglio dello Sguardo tramite Grandi Codificatori Appresi su Larga Scala
Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders

Dec 12
ByFiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman, James M. Rehg
5
2

Affrontiamo il problema dell'identificazione del bersaglio dello sguardo, che mira a predire dove una persona sta guardando in una scena. Prevedere il bersaglio dello sguardo di una persona richiede il ragionamento sia sull'aspetto della persona sia sui contenuti della scena. Lavori precedenti hanno sviluppato pipeline sempre più complesse e realizzate manualmente per l'identificazione del bersaglio dello sguardo che fondono attentamente le caratteristiche da codificatori di scene separati, codificatori di testa e modelli ausiliari per segnali come profondità e posa. Motivati dal successo degli estrattori di caratteristiche generici su una varietà di compiti visivi, proponiamo Gaze-LLE, un nuovo framework transformer che semplifica l'identificazione del bersaglio dello sguardo sfruttando le caratteristiche da un codificatore DINOv2 congelato. Estraiamo una singola rappresentazione delle caratteristiche per la scena e applichiamo un prompt posizionale specifico della persona per decodificare lo sguardo con un modulo leggero. Dimostriamo prestazioni all'avanguardia su diversi benchmark dello sguardo e forniamo un'ampia analisi per convalidare le nostre scelte progettuali. Il nostro codice è disponibile su: http://github.com/fkryan/gazelle.

26

Shiksha: un dataset e modello di traduzione focalizzato sul dominio tecnico per le lingue indiane.
Shiksha: A Technical Domain focused Translation Dataset and Model for Indian Languages

Dec 12
ByAdvait Joglekar, Srinivasan Umesh
4
2

I modelli di Traduzione Automatica Neurale (NMT) vengono tipicamente addestrati su set di dati con limitata esposizione ai domini Scientifico, Tecnico ed Educativo. Di conseguenza, i modelli di traduzione generalmente faticano con compiti che coinvolgono la comprensione scientifica o gergo tecnico. Si è riscontrato che le loro prestazioni sono ancora peggiori per le lingue indiane a bassa risorsa. Trovare un dataset di traduzione che si occupi in particolare di questi domini rappresenta una sfida difficile. In questo articolo, affrontiamo questo problema creando un corpus parallelo multilingue contenente più di 2,8 milioni di righe di coppie di traduzione di alta qualità da Inglese a Indic e da Indic a Indic attraverso 8 lingue indiane. Raggiungiamo questo obiettivo estraendo testo bilingue dalle trascrizioni umane delle lezioni video di NPTEL. Inoltre, ottimizziamo e valutiamo i modelli NMT utilizzando questo corpus e superiamo tutti gli altri modelli disponibili pubblicamente nei compiti in-domain. Dimostriamo anche il potenziale di generalizzazione ai compiti di traduzione out-of-domain migliorando il punteggio BLEU di oltre 2 in media per queste lingue indiane sul benchmark Flores+. Siamo lieti di rendere disponibili il nostro modello e dataset tramite questo link: https://huggingface.co/SPRINGLab.

Dec 12
Dec 13
Dec 16