HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

12 papers found

Verso una Visione Unificata dell'Apprendimento delle Preferenze per Grandi Modelli Linguistici: Un'Indagine
Towards a Unified View of Preference Learning for Large Language Models: A Survey

Sep 4

ByBofei Gao, Feifan Song, Yibo Miao, Zefan Cai, Zhe Yang, Liang Chen, Helan Hu, Runxin Xu, Qingxiu Dong, Ce Zheng, Wen Xiao, Ge Zhang, Daoguang Zan, Keming Lu, Bowen Yu, Dayiheng Liu, Zeyu Cui, Jian Yang, Lei Sha, Houfeng Wang, Zhifang Sui, Peiyi Wang, Tianyu Liu, Baobao Chang

I Large Language Models (LLM) mostrano capacità straordinariamente potenti. Uno dei fattori cruciali per raggiungere il successo è allineare l'output del LLM con le preferenze umane. Questo processo di allineamento spesso richiede solo una piccola quantità di dati per migliorare efficacemente le prestazioni del LLM. Sebbene efficace, la ricerca in questo ambito spazia su molteplici domini e i metodi coinvolti sono relativamente complessi da comprendere. Le relazioni tra i diversi metodi sono state poco esplorate, limitando lo sviluppo dell'allineamento delle preferenze. Pertanto, suddividiamo le strategie di allineamento popolari esistenti in diversi componenti e forniamo un quadro unificato per studiare le strategie di allineamento attuali, stabilendo così connessioni tra di esse. In questa panoramica, suddividiamo tutte le strategie di apprendimento delle preferenze in quattro componenti: modello, dati, feedback e algoritmo. Questa visione unificata offre una comprensione approfondita degli algoritmi di allineamento esistenti e apre anche possibilità per sinergizzare i punti di forza delle diverse strategie. Inoltre, presentiamo esempi dettagliati di lavoro degli algoritmi esistenti più diffusi per facilitare una comprensione completa ai lettori. Infine, basandoci sulla nostra prospettiva unificata, esploriamo le sfide e le future direzioni di ricerca per allineare i grandi modelli linguistici con le preferenze umane.

MMEvol: Potenziare i Grandi Modelli Linguistici Multimodali con Evol-Instruct
MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

Sep 9

ByRun Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin Li

Lo sviluppo dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) ha registrato significativi progressi. Tuttavia, la quantità e la qualità dei dati di istruzioni multimodali sono emersi come significativi ostacoli al loro progresso. Creare manualmente dati di istruzioni multimodali è sia dispendioso in termini di tempo che inefficiente, ponendo sfide nella produzione di istruzioni ad alta complessità. Inoltre, estrarre dati di istruzioni da modelli commerciali black-box (ad es. GPT-4o, GPT-4V) spesso porta a dati di istruzioni semplicistici, limitando le prestazioni a quelle di tali modelli. La sfida di curare dati di istruzioni diversi e complessi rimane considerevole. Proponiamo MMEvol, un nuovo framework di evoluzione dei dati di istruzioni multimodali che combina evoluzione della percezione dettagliata, evoluzione del ragionamento cognitivo e evoluzione dell'interazione. Questo approccio iterativo supera gli ostacoli legati alla qualità dei dati per generare un insieme complesso e diversificato di istruzioni immagine-testo, potenziando così le capacità dei MLLMs. Partendo da un insieme iniziale di istruzioni, SEED-163K, utilizziamo MMEvol per ampliare sistematicamente la diversità dei tipi di istruzioni, integrare passaggi di ragionamento per potenziare le capacità cognitive ed estrarre informazioni dettagliate dalle immagini per migliorare la comprensione visiva e la robustezza. Per valutare in modo esaustivo l'efficacia dei nostri dati, addestriamo LLaVA-NeXT utilizzando i dati evoluti e conduciamo esperimenti su 13 compiti visione-linguaggio. Rispetto al modello di base addestrato con i dati iniziali, il nostro approccio raggiunge un miglioramento medio dell'accuratezza del 3.1 punti e ottiene prestazioni all'avanguardia (SOTA) in 9 di questi compiti.

OneGen: Generazione Unificata ed Efficient per Modelli Linguistici di Grande Dimensione in un Singolo Passaggio
OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs

Sep 8

ByJintian Zhang, Cheng Peng, Mengshu Sun, Xiang Chen, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen, Ningyu Zhang

Nonostante i recenti progressi nei Grandi Modelli Linguistici (LLM), che hanno notevolmente potenziato le capacità generative per varie attività di NLP, i LLM affrontano ancora limitazioni nel gestire direttamente compiti di recupero. Tuttavia, molte applicazioni pratiche richiedono l'integrazione fluida sia del recupero che della generazione. Questo articolo introduce un nuovo ed efficiente framework di Generazione e Recupero in un passaggio (OneGen), progettato per migliorare le prestazioni dei LLM in compiti che richiedono sia generazione che recupero. Il framework proposto collega gli approcci di addestramento tradizionalmente separati per generazione e recupero incorporando token di recupero generati in modo autoregressivo. Ciò consente a un singolo LLM di gestire entrambi i compiti contemporaneamente in un passaggio unificato in avanti. Conduciamo esperimenti su due tipi distinti di compiti compositi, RAG e Collegamento di Entità, per convalidare la plug-inabilità, l'efficacia e l'efficienza di OneGen nell'addestramento e nell'inferenza. Inoltre, i nostri risultati mostrano che integrare generazione e recupero nello stesso contesto preserva le capacità generative dei LLM migliorando le prestazioni di recupero. Per quanto ne sappiamo, OneGen è il primo a consentire ai LLM di effettuare il recupero vettoriale durante la generazione.

MemoRAG: Procedendo verso il RAG di prossima generazione tramite la scoperta della conoscenza ispirata alla memoria
MemoRAG: Moving towards Next-Gen RAG Via Memory-Inspired Knowledge Discovery

Sep 9

ByHongjin Qian, Peitian Zhang, Zheng Liu, Kelong Mao, Zhicheng Dou

Il Generatore potenziato da Recupero (RAG) sfrutta strumenti di recupero per accedere a basi di dati esterne, migliorando così la qualità della generazione dei modelli di linguaggio di grandi dimensioni (LLM) attraverso un contesto ottimizzato. Tuttavia, i metodi di recupero esistenti sono intrinsecamente limitati, poiché possono solo eseguire il matching di rilevanza tra query esplicitamente indicate e conoscenze ben strutturate, ma non sono in grado di gestire compiti che coinvolgono esigenze di informazioni ambigue o conoscenze non strutturate. Di conseguenza, i sistemi RAG esistenti sono principalmente efficaci per compiti di domande e risposte dirette. In questo lavoro, proponiamo MemoRAG, un nuovo paradigma di generazione potenziato da recupero potenziato dalla memoria a lungo termine. MemoRAG adotta un'architettura a doppio sistema. Da un lato, impiega un LLM leggero ma a lungo raggio per formare la memoria globale del database. Una volta presentato un compito, genera bozze di risposte, guidando gli strumenti di recupero per individuare informazioni utili all'interno del database. Dall'altro lato, sfrutta un LLM costoso ma espressivo, che genera la risposta finale basandosi sulle informazioni recuperate. Basandoci su questo quadro generale, ottimizziamo ulteriormente le prestazioni di MemoRAG potenziando il suo meccanismo di guida e la capacità di memorizzazione. Nei nostri esperimenti, MemoRAG ottiene prestazioni superiori in una varietà di compiti di valutazione, inclusi quelli complessi in cui falliscono i RAG convenzionali e quelli diretti in cui RAG è comunemente impiegato.

Paper Copilot: Un sistema LLM auto-evolutivo ed efficiente per l'assistenza accademica personalizzata.
Paper Copilot: A Self-Evolving and Efficient LLM System for Personalized Academic Assistance

Sep 6

ByGuanyu Lin, Tao Feng, Pengrui Han, Ge Liu, Jiaxuan You

Con la proliferazione della ricerca scientifica, i ricercatori si trovano di fronte all'arduo compito di navigare e leggere vaste quantità di letteratura. Le soluzioni esistenti, come i sistemi di domande e risposte sui documenti, non riescono a fornire in modo efficiente informazioni personalizzate e aggiornate. Presentiamo Paper Copilot, un sistema LLM auto-evolutivo ed efficiente progettato per assistere i ricercatori, basato sul recupero del pensiero, sul profilo dell'utente e sull'ottimizzazione ad alte prestazioni. In particolare, Paper Copilot può offrire servizi di ricerca personalizzati, mantenendo un database aggiornato in tempo reale. L'evaluazione quantitativa dimostra che Paper Copilot risparmia il 69,92\% del tempo dopo un efficiente dispiegamento. Questo articolo dettaglia il design e l'implementazione di Paper Copilot, mettendo in evidenza i suoi contributi al supporto accademico personalizzato e il suo potenziale nel razionalizzare il processo di ricerca.

PUNTI: Migliorare il Tuo Modello di Visione-linguaggio con Strategie Accessibili
POINTS: Improving Your Vision-language Model with Affordable Strategies

Sep 7

ByYuan Liu, Zhongyin Zhao, Ziyuan Zhuang, Le Tian, Xiao Zhou, Jie Zhou

Negli ultimi anni, i modelli visione-linguaggio hanno compiuto progressi significativi, eccellendo in compiti come il riconoscimento ottico dei caratteri e la risoluzione dei problemi geometrici. Tuttavia, rimangono diverse questioni critiche: 1) I modelli proprietari spesso mancano di trasparenza riguardo alle loro architetture, mentre i modelli open-source necessitano di ablati più dettagliati delle loro strategie di addestramento. 2) I dati di pre-addestramento nei lavori open-source sono poco esplorati, con set di dati aggiunti in modo empirico, rendendo il processo laborioso. 3) Il fine-tuning si concentra spesso sull'aggiunta di set di dati, portando a rendimenti decrescenti. Per affrontare queste questioni, proponiamo i seguenti contributi: 1) Abbiamo addestrato un modello basico robusto utilizzando gli ultimi avanzamenti nei modelli visione-linguaggio, introducendo miglioramenti efficaci e conducendo ablati e validazioni approfonditi per ciascuna tecnica. 2) Ispirandoci al recente lavoro sui grandi modelli linguistici, abbiamo filtrato i dati di pre-addestramento utilizzando la perplessità, selezionando i dati con la perplessità più bassa per l'addestramento. Questo approccio ci ha permesso di addestrare su un set di dati curato di 1M, ottenendo prestazioni competitive. 3) Durante il tuning dell'istruzione visiva, abbiamo utilizzato un "model soup" su diversi set di dati quando l'aggiunta di ulteriori set di dati ha portato a miglioramenti marginali. Queste innovazioni hanno portato a un modello con 9 miliardi di parametri che si comporta in modo competitivo rispetto ai modelli all'avanguardia. Le nostre strategie sono efficienti e leggere, rendendole facilmente adottabili dalla comunità.

Modelli di Utilità dei Robot: Linee Guida Generali per il Rilascio a Zero Shot in Nuovi Ambienti
Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments

Sep 9

ByHaritheja Etukuru, Norihito Naka, Zijin Hu, Seungjae Lee, Julian Mehu, Aaron Edsinger, Chris Paxton, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah

I modelli di robot, in particolare quelli addestrati con grandi quantità di dati, hanno recentemente mostrato una moltitudine di capacità di manipolazione e navigazione nel mondo reale. Diversi sforzi indipendenti hanno dimostrato che, data una quantità sufficiente di dati di addestramento in un ambiente, le politiche dei robot possono generalizzare alle variazioni dimostrate in quell'ambiente. Tuttavia, la necessità di ottimizzare i modelli dei robot per ogni nuovo ambiente è in netto contrasto con i modelli nel linguaggio o nella visione che possono essere implementati senza addestramento per problemi di mondo aperto. In questo lavoro, presentiamo i Modelli di Utilità del Robot (RUMs), un framework per addestrare e implementare politiche di robot senza addestramento che possono generalizzare direttamente a nuovi ambienti senza alcuna ottimizzazione. Per creare efficientemente i RUMs, sviluppiamo nuovi strumenti per raccogliere rapidamente dati per compiti di manipolazione mobile, integrare tali dati in una politica con apprendimento per imitazione multimodale e implementare politiche su dispositivo su Hello Robot Stretch, un robot di mercato economico, con un verificatore mLLM esterno per i tentativi ripetuti. Addestriamo cinque modelli di utilità per aprire ante di armadi, aprire cassetti, raccogliere tovaglioli, raccogliere sacchetti di carta e riorientare oggetti caduti. Il nostro sistema, in media, raggiunge un tasso di successo del 90% in ambienti non visti, interagendo con oggetti non visti. Inoltre, i modelli di utilità possono avere successo anche in diverse configurazioni di robot e telecamere senza ulteriori dati, addestramento o ottimizzazione. Tra le nostre principali lezioni ci sono l'importanza dei dati di addestramento rispetto all'algoritmo di addestramento e alla classe di politica, linee guida sulla scalabilità dei dati, la necessità di dimostrazioni diverse ma di alta qualità e una ricetta per l'ispezione del robot e i tentativi ripetuti per migliorare le prestazioni su singoli ambienti. Il nostro codice, dati, modelli, progetti hardware, nonché i video sperimentali e di implementazione sono open source e possono essere trovati sul nostro sito web del progetto: https://robotutilitymodels.com

Valutazione della rettifica della conoscenza cinese nei modelli linguistici di grandi dimensioni
Benchmarking Chinese Knowledge Rectification in Large Language Models

Sep 9

ByTianhe Lu, Jizhan Fang, Yunzhi Yao, Xin Xu, Ningyu Zhang, Huajun Chen

Mentre i Grandi Modelli Linguistici (LLM) mostrano notevoli capacità generative, non sono privi di difetti, in particolare sotto forma di allucinazioni. Questo problema è ancora più evidente quando i LLM vengono applicati a lingue e domini specifici. Ad esempio, i LLM possono generare informazioni prive di senso quando si occupano di antiche poesie cinesi, proverbi o modi di dire, a causa della mancanza di conoscenze specifiche. A tal fine, questo articolo introduce un benchmark per correggere le conoscenze cinesi nei LLM tramite la modifica delle conoscenze. In particolare, presentiamo un nuovo dataset cinese, CKnowEdit, raccogliendo sette tipi di conoscenze da varie fonti, tra cui testi classici, modi di dire e contenuti da Baidu Tieba Ruozhiba, tenendo conto della polifonia, antitesi e costrutti logici unici della lingua cinese. Attraverso l'analisi di questo dataset, scopriamo le sfide affrontate dai LLM attuali nel padroneggiare il cinese. Inoltre, la nostra valutazione delle tecniche di modifica delle conoscenze all'avanguardia su questo dataset rivela un ampio margine di miglioramento nella correzione delle conoscenze cinesi. Codice e dataset sono disponibili su https://github.com/zjunlp/EasyEdit.

Valutazione della Coerenza degli Oggetti Multiview negli Esseri Umani e nei Modelli di Immagini
Evaluating Multiview Object Consistency in Humans and Image Models

Sep 9

ByTyler Bonnen, Stephanie Fu, Yutong Bai, Thomas O'Connell, Yoni Friedman, Nancy Kanwisher, Joshua B. Tenenbaum, Alexei A. Efros

Introduciamo un benchmark per valutare direttamente l'allineamento tra osservatori umani e modelli di visione su un compito di inferenza sulla forma in 3D. Sfruttiamo un design sperimentale delle scienze cognitive che richiede inferenze visive senza training riguardo alla forma degli oggetti: dato un insieme di immagini, i partecipanti identificano quali contengono gli stessi/oggetti diversi, nonostante una considerevole variazione dei punti di vista. Ci basiamo su una vasta gamma di immagini che includono oggetti comuni (ad esempio, sedie) così come forme astratte (ossia, oggetti 'senza senso' generati proceduralmente). Dopo aver costruito oltre 2000 insiemi di immagini unici, sottoponiamo questi compiti ai partecipanti umani, raccogliendo 35K prove di dati comportamentali da oltre 500 partecipanti. Questo include comportamenti di scelta espliciti così come misure intermedie, come il tempo di reazione e i dati di sguardo. Valutiamo quindi le prestazioni dei modelli di visione comuni (ad esempio, DINOv2, MAE, CLIP). Troviamo che gli esseri umani superano tutti i modelli di gran lunga. Utilizzando un approccio di valutazione multi-scala, identifichiamo somiglianze e differenze sottostanti tra modelli e esseri umani: mentre le prestazioni umano-modello sono correlate, gli esseri umani allocano più tempo/elaborazione nelle prove difficili. Tutte le immagini, i dati e il codice sono accessibili tramite la nostra pagina del progetto.

Iniziativa per i Dati Linguistici Aperti: Promuovere la Traduzione Automatica a Basso Risorsa per il Karakalpak
Open Language Data Initiative: Advancing Low-Resource Machine Translation for Karakalpak

Sep 6

ByMukhammadsaid Mamasaidov, Abror Shopulatov

Questo studio presenta diverse contributi per la lingua Karakalpak: un dataset di test di sviluppo FLORES+ tradotto in Karakalpak, corpora paralleli per Uzbeko-Karakalpak, Russo-Karakalpak e Inglese-Karakalpak di 100.000 coppie ciascuno e modelli neurali sintonizzati e resi open-source per la traduzione tra queste lingue. I nostri esperimenti confrontano diverse varianti di modelli e approcci di addestramento, dimostrando miglioramenti rispetto ai baselines esistenti. Questo lavoro, condotto come parte dell'iniziativa Open Language Data Initiative (OLDI) shared task, mira a far progredire le capacità di traduzione automatica per il Karakalpak e contribuire all'espansione della diversità linguistica nelle tecnologie di PNL.

UniDet3D: Rilevamento di oggetti 3D indoor multi-dataset
UniDet3D: Multi-dataset Indoor 3D Object Detection

Sep 6

ByMaksim Kolodiazhnyi, Anna Vorontsova, Matvey Skripkin, Danila Rukhovich, Anton Konushin

La crescente domanda dei clienti per soluzioni intelligenti in robotica e realtà aumentata ha attirato notevole attenzione alla rilevazione di oggetti in 3D da nuvole di punti. Tuttavia, i dataset interni esistenti presi singolarmente sono troppo piccoli e insufficientemente diversificati per addestrare un modello di rilevamento di oggetti in 3D potente e generale. Nel frattempo, gli approcci più generali che utilizzano modelli di base sono ancora di qualità inferiore rispetto a quelli basati sull'addestramento supervisionato per un compito specifico. In questo lavoro, proponiamo , un modello di rilevamento di oggetti in 3D semplice ma efficace, che viene addestrato su una miscela di dataset interni ed è in grado di funzionare in vari ambienti interni. Unificando spazi di etichette diversi, consente di apprendere una rappresentazione forte attraverso più dataset tramite un regime di addestramento congiunto supervisionato. L'architettura di rete proposta si basa su un codificatore transformer vaniglia, rendendola facile da eseguire, personalizzare ed estendere il pipeline di previsione per un uso pratico. Esperimenti estesi dimostrano che ottiene guadagni significativi rispetto ai metodi esistenti di rilevamento di oggetti in 3D in 6 benchmark interni: ScanNet (+1.1 mAP50), ARKitScenes (+19.4 mAP25), S3DIS (+9.1 mAP50), MultiScan (+9.3 mAP50), 3RScan (+3.2 mAP50) e ScanNet++ (+2.7 mAP50). Il codice è disponibile su https://github.com/filapro/unidet3d.

Approfondimenti dal Benchmarking dei Modelli Linguistici di Frontiera sulla Generazione di Codice per App Web
Insights from Benchmarking Frontier Language Models on Web App Code Generation

Sep 8

ByYi Cui

Questo articolo presenta approfondimenti derivanti dall'valutazione di 16 modelli di linguaggio di grandi dimensioni (LLM) all'avanguardia sul benchmark WebApp1K, un insieme di test progettato per valutare la capacità dei LLM di generare codice per applicazioni web. I risultati rivelano che, sebbene tutti i modelli possiedano conoscenze sottostanti simili, le loro prestazioni sono differenziate dalla frequenza degli errori che commettono. Analizzando le linee di codice (LOC) e le distribuzioni degli errori, scopriamo che scrivere codice corretto è più complesso che generare codice errato. Inoltre, l'ingegneria della prompt mostra un'efficacia limitata nel ridurre gli errori al di là di casi specifici. Queste scoperte suggeriscono che ulteriori progressi nello sviluppo di LLM per la codifica dovrebbero mettere l'accento sulla affidabilità del modello e sulla minimizzazione degli errori.

Modelli di Utilità dei Robot: Linee Guida Generali per il Rilascio a Zero Shot in Nuovi Ambienti
Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments

Sep 9

ByHaritheja Etukuru, Norihito Naka, Zijin Hu, Seungjae Lee, Julian Mehu, Aaron Edsinger, Chris Paxton, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah