Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

OS-ATLAS: Un modello di azione di base per agenti GUI generalisti
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

Oct 30

ByZhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao

Gli sforzi attuali nella costruzione di agenti GUI si basano pesantemente sulla disponibilità di robusti Modelli Visione-Linguaggio commerciali (VLM) come GPT-4o e GeminiProVision. Gli operatori sono spesso riluttanti ad utilizzare VLM open-source a causa del significativo ritardo nelle prestazioni rispetto ai loro corrispettivi closed-source, in particolare nei casi di ancoraggio GUI e scenari Out-Of-Distribution (OOD). Per facilitare futura ricerca in questo ambito, abbiamo sviluppato OS-Atlas - un modello d'azione GUI fondamentale che eccelle in ancoraggio GUI e compiti agentici OOD attraverso innovazioni sia nei dati che nella modellazione. Abbiamo investito un notevole sforzo ingegneristico nello sviluppo di un toolkit open-source per la sintesi di dati di ancoraggio GUI su diverse piattaforme, tra cui Windows, Linux, MacOS, Android e il web. Sfruttando questo toolkit, stiamo rilasciando il più grande corpus di ancoraggio GUI open-source multi-piattaforma ad oggi, che contiene oltre 13 milioni di elementi GUI. Questo dataset, combinato con innovazioni nella formazione del modello, fornisce una solida base per OS-Atlas per comprendere screenshot GUI e generalizzare a interfacce non viste. Attraverso una valutazione estensiva su sei benchmark che coprono tre diverse piattaforme (mobile, desktop e web), OS-Atlas dimostra significativi miglioramenti delle prestazioni rispetto ai modelli state-of-the-art precedenti. La nostra valutazione rivela anche preziose intuizioni per migliorare continuamente e scalare le capacità agentiche dei VLM open-source.

Personalizzazione dei Grandi Modelli Linguistici: Un'Indagine
Personalization of Large Language Models: A Survey

Oct 29

ByZhehao Zhang, Ryan A. Rossi, Branislav Kveton, Yijia Shao, Diyi Yang, Hamed Zamani, Franck Dernoncourt, Joe Barrow, Tong Yu, Sungchul Kim, Ruiyi Zhang, Jiuxiang Gu, Tyler Derr, Hongjie Chen, Junda Wu, Xiang Chen, Zichao Wang, Subrata Mitra, Nedim Lipka, Nesreen Ahmed, Yu Wang

La personalizzazione dei Grandi Modelli Linguistici (LLM) è recentemente diventata sempre più importante con una vasta gamma di applicazioni. Nonostante l'importanza e i recenti progressi, la maggior parte dei lavori esistenti sui LLM personalizzati si sono concentrati esclusivamente sulla (a) generazione di testi personalizzati o (b) sull'utilizzo dei LLM per applicazioni downstream legate alla personalizzazione, come i sistemi di raccomandazione. In questo lavoro, colmiamo il divario tra queste due direzioni principali separate per la prima volta introducendo una tassonomia per l'uso dei LLM personalizzati e riassumendo le principali differenze e sfide. Forniamo una formalizzazione dei fondamenti dei LLM personalizzati che consolida ed espande concetti di personalizzazione dei LLM, definendo e discutendo nuovi aspetti della personalizzazione, dell'uso e dei desiderata dei LLM personalizzati. Successivamente unifichiamo la letteratura in questi campi diversi e scenari di utilizzo proponendo tassonomie sistematiche per la granularità della personalizzazione, le tecniche di personalizzazione, i dataset, i metodi di valutazione e le applicazioni dei LLM personalizzati. Infine, evidenziamo le sfide e i problemi aperti importanti che devono ancora essere affrontati. Unificando e esaminando la recente ricerca utilizzando le tassonomie proposte, miriamo a fornire una guida chiara alla letteratura esistente e ai diversi aspetti della personalizzazione nei LLM, fornendo strumenti sia ai ricercatori che ai professionisti.

Flusso a accelerazione costante
Constant Acceleration Flow

Nov 1

ByDogyun Park, Sojin Lee, Sihyeon Kim, Taehoon Lee, Youngjoon Hong, Hyunwoo J. Kim

Le procedure di flusso rettificato e riflusso hanno notevolmente avanzato la generazione rapida attraverso la progressiva rettificazione dei flussi di equazioni differenziali ordinarie (ODE). Operano partendo dall'assunzione che le coppie di immagini e rumore, note come accoppiamenti, possano essere approssimate da traiettorie rette con velocità costante. Tuttavia, osserviamo che la modellazione con velocità costante e l'utilizzo delle procedure di riflusso presentano limitazioni nell'apprendimento accurato delle traiettorie rette tra le coppie, con conseguente performance non ottimale nella generazione a pochi passi. Per affrontare tali limitazioni, introduciamo il Flusso ad Accelerazione Costante (CAF), un nuovo framework basato su un'equazione di accelerazione costante semplice. Il CAF introduce l'accelerazione come variabile apprendibile aggiuntiva, consentendo una stima più espressiva e accurata del flusso ODE. Inoltre, proponiamo due tecniche per migliorare ulteriormente l'accuratezza della stima: il condizionamento della velocità iniziale per il modello di accelerazione e un processo di riflusso per la velocità iniziale. I nostri approfonditi studi su dataset di esempio, CIFAR-10 e ImageNet 64x64, dimostrano che il CAF supera le baselines all'avanguardia per la generazione a un passo. Mostriamo inoltre che il CAF migliora drasticamente la conservazione degli accoppiamenti a pochi passi e l'inversione rispetto al flusso rettificato. Il codice è disponibile su https://github.com/mlvlab/CAF.

POMODORO: Valutazione delle capacità di ragionamento temporale visivo nei modelli fondamentali multimodali
TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

Oct 30

ByZiyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan

I benchmark esistenti spesso mettono in evidenza le notevoli prestazioni raggiunte dai Modelli Fondamentali Multimodali (MFM) all'avanguardia nel sfruttare il contesto temporale per la comprensione dei video. Tuttavia, quanto bene si comportano realmente i modelli nell'analisi visiva del ragionamento temporale? La nostra analisi dei benchmark esistenti mostra che questa capacità dei MFM è probabilmente sopravvalutata poiché molte domande possono essere risolte utilizzando uno, pochi o frame fuori sequenza. Per esaminare sistematicamente le attuali attività di ragionamento temporale visivo, proponiamo tre principi con metriche corrispondenti: (1) Guadagno Multi-Frame, (2) Sensibilità all'Ordine dei Frame e (3) Disparità delle Informazioni dei Frame. Seguendo questi principi, presentiamo TOMATO, Valutazione Multimodale del Ragionamento Temporale, un nuovo benchmark progettato per valutare rigorosamente le capacità di ragionamento temporale dei MFM nella comprensione dei video. TOMATO comprende 1.484 domande accuratamente selezionate e annotate da umani che coprono sei compiti (ossia, conteggio azioni, direzione, rotazione, forma e tendenza, velocità e frequenza e indizi visivi), applicate a 1.417 video, inclusi 805 video auto-registrati e generati, che comprendono scenari umani, reali e simulati. La nostra valutazione completa rivela un divario di prestazioni tra umano e modello del 57,3% con il modello migliore. Inoltre, la nostra analisi approfondita mette in luce limitazioni più fondamentali oltre a questo divario nei MFM attuali. Mentre riescono a riconoscere accuratamente eventi in frame isolati, falliscono nell'interpretare questi frame come una sequenza continua. Crediamo che TOMATO servirà come banco di prova cruciale per valutare i MFM di prossima generazione e come invito alla comunità per sviluppare sistemi AI capaci di comprendere la dinamica del mondo umano attraverso la modalità video.

Generazione Visiva Autoregressiva Randomizzata
Randomized Autoregressive Visual Generation

Nov 1

ByQihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen

Questo articolo presenta il modello AutoRegressive Randomizzato (RAR) per la generazione visuale, che stabilisce una nuova prestazione all'avanguardia nel compito di generazione di immagini mantenendo piena compatibilità con i framework di modellazione del linguaggio. Il RAR proposto è semplice: durante un processo di addestramento autoregressivo standard con un obiettivo di previsione del token successivo, la sequenza di input - tipicamente ordinata in forma raster - viene permutata casualmente in diverse modalità di fattorizzazione con una probabilità r, dove r parte da 1 e diminuisce linearmente a 0 nel corso dell'addestramento. Questa strategia di addestramento di ricottura consente al modello di imparare a massimizzare la probabilità attesa su tutte le modalità di fattorizzazione e quindi migliorare efficacemente la capacità del modello di modellare contesti bidirezionali. È importante notare che il RAR preserva l'integrità del framework di modellazione autoregressiva, garantendo piena compatibilità con la modellazione del linguaggio migliorando significativamente le prestazioni nella generazione di immagini. Sul benchmark ImageNet-256, il RAR raggiunge un punteggio FID di 1.48, superando non solo i precedenti generatori di immagini autoregressivi all'avanguardia, ma anche i principali metodi basati sulla diffusione e sui trasformatori mascherati. Il codice e i modelli saranno resi disponibili su https://github.com/bytedance/1d-tokenizer

DynaMath: un benchmark visivo dinamico per valutare la robustezza del ragionamento matematico dei modelli di linguaggio visivo
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models

Oct 29

ByChengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang

I rapidi progressi nei Modelli Visione-Linguaggio (VLM) hanno mostrato un grande potenziale nel affrontare compiti di ragionamento matematico che coinvolgono contesti visivi. A differenza degli esseri umani che possono applicare in modo affidabile passaggi di soluzione a problemi simili con modifiche minori, abbiamo scoperto che i VLM di ultima generazione come GPT-4o possono fallire in modo consistente in questi scenari, rivelando limitazioni nelle loro capacità di ragionamento matematico. In questo articolo, investighiamo la robustezza del ragionamento matematico nei VLM e valutiamo quanto bene questi modelli si comportano sotto diverse varianti della stessa domanda, come cambiamenti nei valori numerici visivi o nei grafici di funzioni. Mentre sono stati sviluppati diversi benchmark matematici basati sulla visione per valutare le capacità di risoluzione dei problemi dei VLM, questi benchmark contengono solo insiemi statici di problemi e non possono valutare facilmente la robustezza del ragionamento matematico. Per colmare questa lacuna, presentiamo DynaMath, un benchmark matematico visivo dinamico progettato per una valutazione approfondita dei VLM. DynaMath include 501 domande seed di alta qualità su vari argomenti, ognuna rappresentata come un programma Python. Questi programmi sono attentamente progettati e annotati per consentire la generazione automatica di un insieme molto più ampio di domande concrete, inclusi molti tipi diversi di variazioni visive e testuali. DynaMath ci consente di valutare la capacità di generalizzazione dei VLM, valutando le loro prestazioni in condizioni di input variabili di una domanda seed. Abbiamo valutato 14 VLM di ultima generazione con 5.010 domande concrete generate. I nostri risultati mostrano che l'accuratezza del modello nel caso peggiore, definita come la percentuale di domande seed risposte correttamente in tutte e 10 le varianti, è significativamente più bassa rispetto all'accuratezza nel caso medio. La nostra analisi sottolinea la necessità di studiare la robustezza delle capacità di ragionamento dei VLM, e DynaMath fornisce preziose intuizioni per guidare lo sviluppo di modelli più affidabili per il ragionamento matematico.

Fisica nella Predizione del Prossimo Token
Physics in Next-token Prediction

Nov 1

ByHongjun An, Yiliang Song, Xuelong Li

Abbiamo scoperto la fisica sottostante nella Predizione del Prossimo Token (NTP). Abbiamo identificato la legge della conservazione dell'informazione all'interno di NTP e proposto la Prima Legge della Capacità Informativa (IC-1), dimostrando che l'essenza dell'emergere dell'intelligenza nei modelli auto-regressivi è fondamentalmente un processo di trasferimento di informazioni. Abbiamo inoltre introdotto il Principio di Landauer in NTP, formulando la Seconda Legge della Capacità Informativa (IC-2), che stabilisce la relazione tra l'addestramento del modello auto-regressivo e il consumo di energia. Inoltre, abbiamo presentato diversi corollari, che hanno rilevanza pratica per le pratiche produttive. Infine, abbiamo convalidato la compatibilità e la complementarietà delle nostre scoperte con le teorie esistenti.

GPT o BERT: perché non entrambi?
GPT or BERT: why not both?

Oct 31

ByLucas Georges Gabriel Charpentier, David Samuel

Presentiamo un modo semplice per unire il modello di linguaggio mascherato con il modello di linguaggio causale. Questo obiettivo di addestramento ibrido porta a un modello che combina i punti di forza di entrambi i paradigmi di modellazione all'interno di uno stack di trasformatori singolo: GPT-BERT può essere utilizzato in modo trasparente come qualsiasi modello di linguaggio causale o mascherato standard. Testiamo il processo di preaddestramento che consente questo comportamento flessibile sulla BabyLM Challenge 2024. I risultati mostrano che il preaddestramento ibrido supera i modelli solo mascherati o solo causali. Rilasciamo apertamente i modelli, le corpora di addestramento e il codice.

Indagine sul Design dell'Interfaccia Utente e sulle Tecniche di Interazione nelle Applicazioni AI Generative
Survey of User Interface Design and Interaction Techniques in Generative AI Applications

Oct 28

ByReuben Luera, Ryan A. Rossi, Alexa Siu, Franck Dernoncourt, Tong Yu, Sungchul Kim, Ruiyi Zhang, Xiang Chen, Hanieh Salehy, Jian Zhao, Samyadeep Basu, Puneet Mathur, Nedim Lipka

Le applicazioni dell'IA generativa sono diventate estremamente impressionanti, e l'interazione tra gli utenti e l'IA lo è ancora di più. La letteratura attuale sull'interazione umano-IA ha esaminato ampiamente come gli esseri umani interagiscono con l'IA generativa, ma manca di specificità riguardo ai design e ai modelli di interfaccia utente utilizzati per creare queste applicazioni. Pertanto, presentiamo un sondaggio che presenta in modo esaustivo le tassonomie di come un essere umano interagisce con l'IA e i modelli di interazione utente progettati per soddisfare le esigenze di una varietà di casi d'uso rilevanti. Ci concentriamo principalmente sulle interazioni guidate dall'utente, esaminando interazioni che sono avviate dall'utente e non includono segnali impliciti dati dall'utente. Con questo sondaggio, miriamo a creare un compendio di diversi modelli di interazione utente che possono essere utilizzati come riferimento sia per i progettisti che per gli sviluppatori. In tal modo, ci sforziamo anche di abbassare la soglia di accesso per coloro che cercano di apprendere di più sul design delle applicazioni di IA generativa.

Fashion-VDM: Modello di Diffusione Video per il Virtual Try-On
Fashion-VDM: Video Diffusion Model for Virtual Try-On

Oct 31

ByJohanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman

Presentiamo Fashion-VDM, un modello di diffusione video (VDM) per generare video di prova virtuali. Dato un'immagine di capo d'abbigliamento in input e un video di una persona, il nostro metodo mira a generare un video di prova di alta qualità della persona che indossa il capo d'abbigliamento fornito, preservando al contempo l'identità e il movimento della persona. Il video di prova virtuale basato sull'immagine ha mostrato risultati impressionanti; tuttavia, i metodi esistenti di prova virtuale video (VVT) ancora peccano di dettagli sull'abbigliamento e di coerenza temporale. Per affrontare tali problematiche, proponiamo un'architettura basata sulla diffusione per la prova virtuale video, una guida senza classificatore suddivisa per un maggiore controllo sui dati di condizionamento in ingresso e una strategia di addestramento temporale progressiva per la generazione di video a singolo passaggio di 64 frame, 512px. Dimostriamo inoltre l'efficacia dell'addestramento congiunto immagine-video per la prova video, specialmente quando i dati video sono limitati. I nostri esperimenti qualitativi e quantitativi mostrano che il nostro approccio stabilisce il nuovo stato dell'arte per la prova virtuale video. Per ulteriori risultati, visitate la nostra pagina del progetto: https://johannakarras.github.io/Fashion-VDM.

LoRA in contesto per i trasformatori di diffusione
In-Context LoRA for Diffusion Transformers

Oct 31

ByLianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Huanzhang Dou, Chen Liang, Yutong Feng, Yu Liu, Jingren Zhou

Ricerche recenti arXiv:2410.15027 hanno esplorato l'uso dei trasformatori a diffusione (DiTs) per la generazione di immagini senza vincoli di compito, semplicemente concatenando i token di attenzione tra le immagini. Tuttavia, nonostante consistenti risorse computazionali, la fedeltà delle immagini generate rimane subottimale. In questo studio, rivalutiamo e ottimizziamo questo framework ipotizzando che i DiTs testo-immagine possiedano intrinsecamente capacità di generazione contestuale, richiedendo solo un minimo di regolazioni per attivarle. Attraverso diversi esperimenti di compito, dimostriamo qualitativamente che i DiTs testo-immagine esistenti possono eseguire efficacemente la generazione contestuale senza alcuna regolazione. Sfruttando questa intuizione, proponiamo un pipeline straordinariamente semplice per sfruttare le capacità contestuali dei DiTs: (1) concatenare le immagini invece dei token, (2) eseguire la descrizione congiunta di più immagini, e (3) applicare regolazioni LoRA specifiche del compito utilizzando piccoli set di dati (ad es. 20sim 100 campioni) anziché regolazioni a parametri completi con ampi set di dati. Diamo il nome ai nostri modelli In-Context LoRA (IC-LoRA). Questo approccio non richiede modifiche ai modelli DiT originali, solo cambiamenti ai dati di addestramento. Sorprendentemente, la nostra pipeline genera set di immagini ad alta fedeltà che rispettano meglio i suggerimenti. Pur essendo specifico del compito in termini di dati di regolazione, il nostro framework rimane senza vincoli di compito in architettura e pipeline, offrendo uno strumento potente per la comunità e fornendo preziose intuizioni per ulteriori ricerche su sistemi di generazione senza vincoli di compito a livello di prodotto. Rilasciamo il nostro codice, dati e modelli su https://github.com/ali-vilab/In-Context-LoRA

Anonimizzazione del volto resa semplice
Face Anonymization Made Simple

Nov 1

ByHan-Wei Kung, Tuomas Varanka, Sanjay Saha, Terence Sim, Nicu Sebe

Le attuali tecniche di anonimizzazione del volto dipendono spesso dalla perdita di identità calcolata da modelli di riconoscimento facciale, che possono essere inaccurati e non affidabili. Inoltre, molti metodi richiedono dati supplementari come landmark facciali e maschere per guidare il processo di sintesi. In contrasto, il nostro approccio utilizza modelli di diffusione con solo una perdita di ricostruzione, eliminando la necessità di landmark facciali o maschere pur producendo immagini con dettagli intricati e dettagliati. Abbiamo convalidato i nostri risultati su due benchmark pubblici attraverso valutazioni quantitative e qualitative. Il nostro modello raggiunge prestazioni all'avanguardia in tre aree chiave: anonimizzazione dell'identità, preservazione degli attributi facciali e qualità dell'immagine. Oltre alla sua funzione principale di anonimizzazione, il nostro modello può anche eseguire compiti di scambio facciale incorporando un'immagine facciale aggiuntiva come input, dimostrando la sua versatilità e il suo potenziale per applicazioni diverse. Il nostro codice e i modelli sono disponibili su https://github.com/hanweikung/face_anon_simple.

CityGaussianV2: Ricostruzione Efficientemente Accurata dal Punto di Vista Geometrico per Scene su Larga Scala
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes

Nov 1

ByYang Liu, Chuanchen Luo, Zhongkai Mao, Junran Peng, Zhaoxiang Zhang

Di recente, lo Splatting Gaussiano 3D (3DGS) ha rivoluzionato la ricostruzione del campo di radianza, manifestando una sintesi di nuove visuali efficiente e ad alta fedeltà. Tuttavia, rappresentare accuratamente le superfici, specialmente in scenari grandi e complessi, rimane una sfida significativa a causa della natura non strutturata del 3DGS. In questo articolo, presentiamo CityGaussianV2, un nuovo approccio per la ricostruzione di scene su larga scala che affronta sfide critiche legate all'accuratezza geometrica e all'efficienza. Sfruttando le capacità di generalizzazione favorevoli dello Splatting Gaussiano 2D (2DGS), affrontiamo i suoi problemi di convergenza e scalabilità. In particolare, implementiamo una tecnica di densificazione basata su gradienti decomposti e regressione della profondità per eliminare artefatti sfocati e accelerare la convergenza. Per scalare, introduciamo un filtro di allungamento che mitiga l'esplosione del conteggio gaussiano causata dalla degenerazione del 2DGS. Inoltre, ottimizziamo il pipeline di CityGaussian per l'addestramento parallelo, ottenendo una compressione fino a 10 volte, almeno il 25% di risparmio nel tempo di addestramento e una diminuzione del 50% nell'uso della memoria. Abbiamo anche stabilito benchmark geometrici standard in scenari su larga scala. I risultati sperimentali dimostrano che il nostro metodo trova un equilibrio promettente tra qualità visiva, accuratezza geometrica, così come costi di archiviazione e addestramento. La pagina del progetto è disponibile su https://dekuliutesla.github.io/CityGaussianV2/.

Adattamento durante l'apprendimento: Fondazione di LLM per problemi scientifici con adattamento intelligente dell'uso degli strumenti.
Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

Nov 1

ByBohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu

I Large Language Models (LLM) dimostrano capacità promettenti nella risoluzione di problemi scientifici semplici, ma spesso producono allucinazioni per quelli complessi. Integrare LLM con strumenti può aumentare l'affidabilità, ma questo approccio porta tipicamente a una eccessiva dipendenza dagli strumenti, riducendo la capacità del modello di risolvere problemi semplici attraverso un ragionamento di base. Al contrario, gli esperti umani valutano prima la complessità del problema utilizzando la conoscenza del dominio prima di scegliere un approccio di soluzione appropriato. Ispirati da questo processo umano di risoluzione dei problemi, proponiamo un nuovo metodo di raffinamento a due componenti. Nella prima componente, Distillazione della Conoscenza del Mondo (WKD), i LLM imparano direttamente dalle soluzioni generate utilizzando le informazioni degli strumenti per interiorizzare la conoscenza del dominio. Nella seconda componente, Adattamento all'Uso degli Strumenti (TUA), suddividiamo i problemi in categorie facili e difficili in base all'accuratezza delle risposte dirette del modello. Mantenendo lo stesso obiettivo di allineamento per i problemi facili come in WKD, addestriamo il modello a passare intelligentemente all'uso degli strumenti per problemi più impegnativi. Validiamo il nostro metodo su sei set di dati di riferimento scientifici, che spaziano dalla matematica, alle scienze climatiche e all'epidemiologia. In media, i nostri modelli mostrano un miglioramento del 28,18% nell'accuratezza delle risposte e un aumento del 13,89% nella precisione dell'uso degli strumenti su tutti i set di dati, superando i modelli all'avanguardia, inclusi GPT-4o e Claude-3.5.

Sbiancamento Zipfiano
Zipfian Whitening

Nov 1

BySho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira

Lo spazio di incorporamento delle parole nei modelli neurali è distorto, e correggere questo aspetto può migliorare le prestazioni delle attività. Sottolineiamo che la maggior parte degli approcci per modellare, correggere e misurare la simmetria di uno spazio di incorporamento assume implicitamente che le frequenze delle parole siano uniformi; in realtà, le frequenze delle parole seguono una distribuzione altamente non uniforme, nota come legge di Zipf. Sorprendentemente, semplicemente eseguendo lo sbiancamento PCA ponderato dalla frequenza empirica delle parole che segue la legge di Zipf migliora significativamente le prestazioni delle attività, superando i baselines consolidati. Da un punto di vista teorico, sia il nostro approccio che i metodi esistenti possono essere chiaramente categorizzati: le rappresentazioni delle parole sono distribuite secondo una famiglia esponenziale con misure di base uniformi o zipfiane. Adottando quest'ultimo approccio, possiamo naturalmente enfatizzare le parole informative a bassa frequenza in termini di norma del vettore, il che diventa evidente dal punto di vista geometrico dell'informazione e in termini di funzioni di perdita per la classificazione sbilanciata. Inoltre, la nostra teoria conferma che i popolari metodi di elaborazione del linguaggio naturale, come il campionamento negativo skip-gram, WhiteningBERT e modelli di linguaggio senza testa, funzionano bene proprio perché i loro incorporamenti delle parole codificano la frequenza empirica delle parole nel modello probabilistico sottostante.

HelloMeme: Integrare le attenzioni spaziali di maglia per incorporare condizioni di alto livello e ricche di fedeltà nei modelli di diffusione
HelloMeme: Integrating Spatial Knitting Attentions to Embed High-Level and Fidelity-Rich Conditions in Diffusion Models

Oct 30

ByShengkai Zhang, Nianhong Jiao, Tian Li, Chaojie Yang, Chenhui Xue, Boya Niu, Jun Gao

Proponiamo un metodo efficace per l'inserimento di adattatori nei modelli di base testo-immagine, che consente l'esecuzione di compiti complessi a valle preservando la capacità di generalizzazione del modello di base. L'idea principale di questo metodo è ottimizzare il meccanismo di attenzione relativo alle mappe di caratteristiche 2D, il che migliora le prestazioni dell'adattatore. Questo approccio è stato convalidato sul compito della generazione di video meme e ha ottenuto risultati significativi. Ci auguriamo che questo lavoro possa fornire spunti per i compiti post-addestramento dei grandi modelli testo-immagine. Inoltre, poiché questo metodo dimostra una buona compatibilità con i modelli derivati SD1.5, ha un certo valore per la comunità open-source. Pertanto, rilasceremo il codice correlato (https://songkey.github.io/hellomeme).

LIBMoE: Una libreria per il benchmarking completo di Mixture of Experts in Grandi Modelli Linguistici
LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

Nov 1

ByNam V. Nguyen, Thong T. Doan, Luong Tran, Van Nguyen, Quang Pham

Il Mixture of Experts (MoE) gioca un ruolo importante nello sviluppo di modelli linguistici di grandi dimensioni (LLM) più efficienti ed efficaci. A causa dei considerevoli requisiti di risorse, lo studio degli algoritmi MoE su larga scala rimane inaccessibile a molti ricercatori. Questo lavoro sviluppa LibMoE, un framework completo e modulare per ottimizzare la ricerca, l'addestramento e la valutazione degli algoritmi MoE. Basato su tre principi fondamentali: (i) design modulare, (ii) addestramento efficiente; (iii) valutazione esaustiva, LibMoE rende i MoE nei LLM più accessibili a un'ampia gamma di ricercatori standardizzando i percorsi di addestramento e valutazione. Utilizzando LibMoE, abbiamo ampiamente testato cinque algoritmi MoE all'avanguardia su tre diversi LLM e 11 set di dati nell'impostazione zero-shot. I risultati mostrano che nonostante le caratteristiche uniche, tutti gli algoritmi MoE si comportano approssimativamente allo stesso modo quando mediati su una vasta gamma di compiti. Con il design modulare e la valutazione approfondita, riteniamo che LibMoE sarà prezioso per i ricercatori per compiere progressi significativi verso la prossima generazione di MoE e LLM. Pagina del progetto: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.

SambaMixer: Predizione dello stato di salute delle batterie al litio-ion utilizzando Mamba Modelli dello Spazio di Stato.
SambaMixer: State of Health Prediction of Li-ion Batteries using Mamba State Space Models

Oct 31

ByJosé Ignacio Olalde-Verano, Sascha Kirch, Clara Pérez-Molina, Sergio Martin

Lo stato di salute (SOH) di una batteria al litio-ion (Li-ion) è un parametro critico che determina la capacità residua e la durata residua della batteria. In questo articolo, proponiamo SambaMixer, un nuovo modello strutturato dello spazio di stato (SSM) per prevedere lo stato di salute delle batterie Li-ion. Il SSM proposto si basa sull'architettura MambaMixer, progettata per gestire segnali temporali multivariati. Valutiamo il nostro modello sul dataset di scarica della batteria NASA e mostriamo che il nostro modello supera lo stato dell'arte su questo dataset. Introduciamo inoltre un nuovo metodo di campionamento basato su ancoraggi che garantisce che i segnali temporali abbiano la lunghezza attesa, fungendo anche da tecnica di aumento. Infine, condizioniamo la previsione sul tempo campione e sulla differenza di tempo di ciclo utilizzando codifiche posizionali per migliorare le prestazioni del nostro modello e apprendere gli effetti di recupero. I nostri risultati dimostrano che il nostro modello è in grado di prevedere lo stato di salute delle batterie Li-ion con elevata precisione e robustezza.

GRS-QA - Dataset di domande e risposte strutturate basate sulla ragionamento grafico.
GRS-QA -- Graph Reasoning-Structured Question Answering Dataset

Nov 1

ByAnish Pahilajani, Devasha Trivedi, Jincen Shuai, Khin S. Yone, Samyak Rajesh Jain, Namyong Park, Ryan A. Rossi, Nesreen K. Ahmed, Franck Dernoncourt, Yu Wang

I Large Language Models (LLM) hanno eccelso nel question-answering multi-hop (M-QA) grazie alle loro avanzate capacità di ragionamento. Tuttavia, l'impatto delle strutture di ragionamento intrinseche sulle prestazioni di M-QA dei LLM rimane poco chiaro, principalmente a causa dell'assenza di set di dati QA che forniscono strutture di ragionamento dettagliate. Per affrontare questa lacuna, introduciamo il Dataset di Question Answering Strutturato con Ragionamento Grafico (GRS-QA), che include contesti semantici e strutture di ragionamento per coppie di domande e risposte. A differenza dei dataset M-QA esistenti, dove diverse strutture di ragionamento sono intrecciate insieme, GRS-QA cattura esplicitamente intricati percorsi di ragionamento costruendo grafi di ragionamento, dove i nodi rappresentano contesti testuali e gli archi indicano flussi logici. Questi grafi di ragionamento di diverse strutture consentono una valutazione dettagliata delle capacità di ragionamento dei LLM attraverso varie strutture di ragionamento. La nostra analisi empirica rivela che i LLM si comportano in modo diverso quando affrontano domande con diverse strutture di ragionamento. Questa scoperta facilita l'esplorazione delle strutture testuali rispetto alla semantica.

M2rc-Eval: Valutazione del completamento automatico del codice a livello di repository massivamente multilingue
M2rc-Eval: Massively Multilingual Repository-level Code Completion Evaluation

Oct 28

ByJiaheng Liu, Ken Deng, Congnan Liu, Jian Yang, Shukai Liu, He Zhu, Peng Zhao, Linzheng Chai, Yanan Wu, Ke Jin, Ge Zhang, Zekun Wang, Guoan Zhang, Bangyu Xiang, Wenbo Su, Bo Zheng

Il completamento del codice a livello di repository ha attirato grande attenzione nell'ingegneria del software, e diversi set di dati di benchmark sono stati introdotti. Tuttavia, i benchmark esistenti per il completamento del codice a livello di repository di solito si concentrano su un numero limitato di lingue (<5), il che non consente di valutare le capacità generali di intelligenza del codice attraverso diverse lingue per i Modelli Linguistici di Grandi Dimensioni (LLM) esistenti. Inoltre, i benchmark esistenti di solito riportano punteggi medi complessivi delle diverse lingue, ignorando le capacità dettagliate in diversi scenari di completamento. Pertanto, per agevolare la ricerca dei LLM di codice in scenari multilingue, proponiamo un ampio benchmark di completamento del codice a livello di repository multilingue che copre 18 linguaggi di programmazione (chiamato M2RC-EVAL), e due tipi di annotazioni dettagliate (cioè, a livello di bucket e a livello semantico) su diversi scenari di completamento sono forniti, dove otteniamo tali annotazioni basate sull'albero di sintassi astratta analizzato. Inoltre, curiamo anche un vasto corpus di istruzioni multilingue, il dataset M2RC-INSTRUCT, per migliorare le capacità di completamento del codice a livello di repository dei LLM di codice esistenti. I risultati sperimentali completi dimostrano l'efficacia del nostro M2RC-EVAL e M2RC-INSTRUCT.

WikiNER-fr-gold: un corpus NER de référence
WikiNER-fr-gold: A Gold-Standard NER Corpus

Oct 29

ByDanrun Cao, Nicolas Béchet, Pierre-François Marteau

In questo articolo affrontiamo la qualità del corpus WikiNER, un corpus multilingue per il riconoscimento delle entità nominate, e ne forniamo una versione consolidata. L'annotazione di WikiNER è stata prodotta in modo semi-supervisionato, cioè nessuna verifica manuale è stata effettuata a posteriori. Tale corpus è definito silver-standard. In questo articolo proponiamo WikiNER-fr-gold, che è una versione rivista della porzione francese di WikiNER. Il nostro corpus è composto dal 20% campionato casualmente del sotto-corpus francese originale (26.818 frasi con 700k token). Iniziamo con un riassunto dei tipi di entità inclusi in ciascuna categoria al fine di definire una linea guida per l'annotazione, e poi procediamo con la revisione del corpus. Infine presentiamo un'analisi degli errori e delle inconsistenze osservate nel corpus WikiNER-fr, e discutiamo potenziali direzioni per futuri lavori.

Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

OS-ATLAS: Un modello di azione di base per agenti GUI generalisti
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

Oct 30

ByZhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao

Personalizzazione dei Grandi Modelli Linguistici: Un'Indagine
Personalization of Large Language Models: A Survey

Oct 29

Flusso a accelerazione costante
Constant Acceleration Flow

Nov 1

ByDogyun Park, Sojin Lee, Sihyeon Kim, Taehoon Lee, Youngjoon Hong, Hyunwoo J. Kim

POMODORO: Valutazione delle capacità di ragionamento temporale visivo nei modelli fondamentali multimodali
TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

Oct 30

ByZiyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan

Generazione Visiva Autoregressiva Randomizzata
Randomized Autoregressive Visual Generation

Nov 1

ByQihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen

DynaMath: un benchmark visivo dinamico per valutare la robustezza del ragionamento matematico dei modelli di linguaggio visivo
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models

Oct 29

ByChengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang

Fisica nella Predizione del Prossimo Token
Physics in Next-token Prediction

Nov 1

ByHongjun An, Yiliang Song, Xuelong Li

GPT o BERT: perché non entrambi?
GPT or BERT: why not both?

Oct 31

ByLucas Georges Gabriel Charpentier, David Samuel

Indagine sul Design dell'Interfaccia Utente e sulle Tecniche di Interazione nelle Applicazioni AI Generative
Survey of User Interface Design and Interaction Techniques in Generative AI Applications

Oct 28

ByReuben Luera, Ryan A. Rossi, Alexa Siu, Franck Dernoncourt, Tong Yu, Sungchul Kim, Ruiyi Zhang, Xiang Chen, Hanieh Salehy, Jian Zhao, Samyadeep Basu, Puneet Mathur, Nedim Lipka

Fashion-VDM: Modello di Diffusione Video per il Virtual Try-On
Fashion-VDM: Video Diffusion Model for Virtual Try-On

Oct 31

ByJohanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman

LoRA in contesto per i trasformatori di diffusione
In-Context LoRA for Diffusion Transformers

Oct 31

ByLianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Huanzhang Dou, Chen Liang, Yutong Feng, Yu Liu, Jingren Zhou

Anonimizzazione del volto resa semplice
Face Anonymization Made Simple

Nov 1

ByHan-Wei Kung, Tuomas Varanka, Sanjay Saha, Terence Sim, Nicu Sebe

CityGaussianV2: Ricostruzione Efficientemente Accurata dal Punto di Vista Geometrico per Scene su Larga Scala
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes

Nov 1

ByYang Liu, Chuanchen Luo, Zhongkai Mao, Junran Peng, Zhaoxiang Zhang

Adattamento durante l'apprendimento: Fondazione di LLM per problemi scientifici con adattamento intelligente dell'uso degli strumenti.
Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

Nov 1

ByBohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu

Sbiancamento Zipfiano
Zipfian Whitening

Nov 1

BySho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira

HelloMeme: Integrare le attenzioni spaziali di maglia per incorporare condizioni di alto livello e ricche di fedeltà nei modelli di diffusione
HelloMeme: Integrating Spatial Knitting Attentions to Embed High-Level and Fidelity-Rich Conditions in Diffusion Models

Oct 30

ByShengkai Zhang, Nianhong Jiao, Tian Li, Chaojie Yang, Chenhui Xue, Boya Niu, Jun Gao

LIBMoE: Una libreria per il benchmarking completo di Mixture of Experts in Grandi Modelli Linguistici
LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

Nov 1

ByNam V. Nguyen, Thong T. Doan, Luong Tran, Van Nguyen, Quang Pham

SambaMixer: Predizione dello stato di salute delle batterie al litio-ion utilizzando Mamba Modelli dello Spazio di Stato.
SambaMixer: State of Health Prediction of Li-ion Batteries using Mamba State Space Models

Oct 31

ByJosé Ignacio Olalde-Verano, Sascha Kirch, Clara Pérez-Molina, Sergio Martin

GRS-QA - Dataset di domande e risposte strutturate basate sulla ragionamento grafico.
GRS-QA -- Graph Reasoning-Structured Question Answering Dataset

Nov 1

ByAnish Pahilajani, Devasha Trivedi, Jincen Shuai, Khin S. Yone, Samyak Rajesh Jain, Namyong Park, Ryan A. Rossi, Nesreen K. Ahmed, Franck Dernoncourt, Yu Wang

M2rc-Eval: Valutazione del completamento automatico del codice a livello di repository massivamente multilingue
M2rc-Eval: Massively Multilingual Repository-level Code Completion Evaluation

Oct 28

ByJiaheng Liu, Ken Deng, Congnan Liu, Jian Yang, Shukai Liu, He Zhu, Peng Zhao, Linzheng Chai, Yanan Wu, Ke Jin, Ge Zhang, Zekun Wang, Guoan Zhang, Bangyu Xiang, Wenbo Su, Bo Zheng

WikiNER-fr-gold: un corpus NER de référence
WikiNER-fr-gold: A Gold-Standard NER Corpus

Oct 29

ByDanrun Cao, Nicolas Béchet, Pierre-François Marteau