Articoli di ricerca IA selezionati quotidianamente con traduzioni
I Large Language Models (LLM) mostrano capacità straordinariamente potenti. Uno dei fattori cruciali per raggiungere il successo è allineare l'output del LLM con le preferenze umane. Questo processo di allineamento spesso richiede solo una piccola quantità di dati per migliorare efficacemente le prestazioni del LLM. Sebbene efficace, la ricerca in questo ambito spazia su molteplici domini e i metodi coinvolti sono relativamente complessi da comprendere. Le relazioni tra i diversi metodi sono state poco esplorate, limitando lo sviluppo dell'allineamento delle preferenze. Pertanto, suddividiamo le strategie di allineamento popolari esistenti in diversi componenti e forniamo un quadro unificato per studiare le strategie di allineamento attuali, stabilendo così connessioni tra di esse. In questa panoramica, suddividiamo tutte le strategie di apprendimento delle preferenze in quattro componenti: modello, dati, feedback e algoritmo. Questa visione unificata offre una comprensione approfondita degli algoritmi di allineamento esistenti e apre anche possibilità per sinergizzare i punti di forza delle diverse strategie. Inoltre, presentiamo esempi dettagliati di lavoro degli algoritmi esistenti più diffusi per facilitare una comprensione completa ai lettori. Infine, basandoci sulla nostra prospettiva unificata, esploriamo le sfide e le future direzioni di ricerca per allineare i grandi modelli linguistici con le preferenze umane.
Lo sviluppo dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) ha registrato significativi progressi. Tuttavia, la quantità e la qualità dei dati di istruzioni multimodali sono emersi come significativi ostacoli al loro progresso. Creare manualmente dati di istruzioni multimodali è sia dispendioso in termini di tempo che inefficiente, ponendo sfide nella produzione di istruzioni ad alta complessità. Inoltre, estrarre dati di istruzioni da modelli commerciali black-box (ad es. GPT-4o, GPT-4V) spesso porta a dati di istruzioni semplicistici, limitando le prestazioni a quelle di tali modelli. La sfida di curare dati di istruzioni diversi e complessi rimane considerevole. Proponiamo MMEvol, un nuovo framework di evoluzione dei dati di istruzioni multimodali che combina evoluzione della percezione dettagliata, evoluzione del ragionamento cognitivo e evoluzione dell'interazione. Questo approccio iterativo supera gli ostacoli legati alla qualità dei dati per generare un insieme complesso e diversificato di istruzioni immagine-testo, potenziando così le capacità dei MLLMs. Partendo da un insieme iniziale di istruzioni, SEED-163K, utilizziamo MMEvol per ampliare sistematicamente la diversità dei tipi di istruzioni, integrare passaggi di ragionamento per potenziare le capacità cognitive ed estrarre informazioni dettagliate dalle immagini per migliorare la comprensione visiva e la robustezza. Per valutare in modo esaustivo l'efficacia dei nostri dati, addestriamo LLaVA-NeXT utilizzando i dati evoluti e conduciamo esperimenti su 13 compiti visione-linguaggio. Rispetto al modello di base addestrato con i dati iniziali, il nostro approccio raggiunge un miglioramento medio dell'accuratezza del 3.1 punti e ottiene prestazioni all'avanguardia (SOTA) in 9 di questi compiti.
Nonostante i recenti progressi nei Grandi Modelli Linguistici (LLM), che hanno notevolmente potenziato le capacità generative per varie attività di NLP, i LLM affrontano ancora limitazioni nel gestire direttamente compiti di recupero. Tuttavia, molte applicazioni pratiche richiedono l'integrazione fluida sia del recupero che della generazione. Questo articolo introduce un nuovo ed efficiente framework di Generazione e Recupero in un passaggio (OneGen), progettato per migliorare le prestazioni dei LLM in compiti che richiedono sia generazione che recupero. Il framework proposto collega gli approcci di addestramento tradizionalmente separati per generazione e recupero incorporando token di recupero generati in modo autoregressivo. Ciò consente a un singolo LLM di gestire entrambi i compiti contemporaneamente in un passaggio unificato in avanti. Conduciamo esperimenti su due tipi distinti di compiti compositi, RAG e Collegamento di Entità, per convalidare la plug-inabilità, l'efficacia e l'efficienza di OneGen nell'addestramento e nell'inferenza. Inoltre, i nostri risultati mostrano che integrare generazione e recupero nello stesso contesto preserva le capacità generative dei LLM migliorando le prestazioni di recupero. Per quanto ne sappiamo, OneGen è il primo a consentire ai LLM di effettuare il recupero vettoriale durante la generazione.
Il Generatore potenziato da Recupero (RAG) sfrutta strumenti di recupero per accedere a basi di dati esterne, migliorando così la qualità della generazione dei modelli di linguaggio di grandi dimensioni (LLM) attraverso un contesto ottimizzato. Tuttavia, i metodi di recupero esistenti sono intrinsecamente limitati, poiché possono solo eseguire il matching di rilevanza tra query esplicitamente indicate e conoscenze ben strutturate, ma non sono in grado di gestire compiti che coinvolgono esigenze di informazioni ambigue o conoscenze non strutturate. Di conseguenza, i sistemi RAG esistenti sono principalmente efficaci per compiti di domande e risposte dirette. In questo lavoro, proponiamo MemoRAG, un nuovo paradigma di generazione potenziato da recupero potenziato dalla memoria a lungo termine. MemoRAG adotta un'architettura a doppio sistema. Da un lato, impiega un LLM leggero ma a lungo raggio per formare la memoria globale del database. Una volta presentato un compito, genera bozze di risposte, guidando gli strumenti di recupero per individuare informazioni utili all'interno del database. Dall'altro lato, sfrutta un LLM costoso ma espressivo, che genera la risposta finale basandosi sulle informazioni recuperate. Basandoci su questo quadro generale, ottimizziamo ulteriormente le prestazioni di MemoRAG potenziando il suo meccanismo di guida e la capacità di memorizzazione. Nei nostri esperimenti, MemoRAG ottiene prestazioni superiori in una varietà di compiti di valutazione, inclusi quelli complessi in cui falliscono i RAG convenzionali e quelli diretti in cui RAG è comunemente impiegato.
Con la proliferazione della ricerca scientifica, i ricercatori si trovano di fronte all'arduo compito di navigare e leggere vaste quantità di letteratura. Le soluzioni esistenti, come i sistemi di domande e risposte sui documenti, non riescono a fornire in modo efficiente informazioni personalizzate e aggiornate. Presentiamo Paper Copilot, un sistema LLM auto-evolutivo ed efficiente progettato per assistere i ricercatori, basato sul recupero del pensiero, sul profilo dell'utente e sull'ottimizzazione ad alte prestazioni. In particolare, Paper Copilot può offrire servizi di ricerca personalizzati, mantenendo un database aggiornato in tempo reale. L'evaluazione quantitativa dimostra che Paper Copilot risparmia il 69,92\% del tempo dopo un efficiente dispiegamento. Questo articolo dettaglia il design e l'implementazione di Paper Copilot, mettendo in evidenza i suoi contributi al supporto accademico personalizzato e il suo potenziale nel razionalizzare il processo di ricerca.
Negli ultimi anni, i modelli visione-linguaggio hanno compiuto progressi significativi, eccellendo in compiti come il riconoscimento ottico dei caratteri e la risoluzione dei problemi geometrici. Tuttavia, rimangono diverse questioni critiche: 1) I modelli proprietari spesso mancano di trasparenza riguardo alle loro architetture, mentre i modelli open-source necessitano di ablati più dettagliati delle loro strategie di addestramento. 2) I dati di pre-addestramento nei lavori open-source sono poco esplorati, con set di dati aggiunti in modo empirico, rendendo il processo laborioso. 3) Il fine-tuning si concentra spesso sull'aggiunta di set di dati, portando a rendimenti decrescenti. Per affrontare queste questioni, proponiamo i seguenti contributi: 1) Abbiamo addestrato un modello basico robusto utilizzando gli ultimi avanzamenti nei modelli visione-linguaggio, introducendo miglioramenti efficaci e conducendo ablati e validazioni approfonditi per ciascuna tecnica. 2) Ispirandoci al recente lavoro sui grandi modelli linguistici, abbiamo filtrato i dati di pre-addestramento utilizzando la perplessità, selezionando i dati con la perplessità più bassa per l'addestramento. Questo approccio ci ha permesso di addestrare su un set di dati curato di 1M, ottenendo prestazioni competitive. 3) Durante il tuning dell'istruzione visiva, abbiamo utilizzato un "model soup" su diversi set di dati quando l'aggiunta di ulteriori set di dati ha portato a miglioramenti marginali. Queste innovazioni hanno portato a un modello con 9 miliardi di parametri che si comporta in modo competitivo rispetto ai modelli all'avanguardia. Le nostre strategie sono efficienti e leggere, rendendole facilmente adottabili dalla comunità.
I modelli di robot, in particolare quelli addestrati con grandi quantità di dati, hanno recentemente mostrato una moltitudine di capacità di manipolazione e navigazione nel mondo reale. Diversi sforzi indipendenti hanno dimostrato che, data una quantità sufficiente di dati di addestramento in un ambiente, le politiche dei robot possono generalizzare alle variazioni dimostrate in quell'ambiente. Tuttavia, la necessità di ottimizzare i modelli dei robot per ogni nuovo ambiente è in netto contrasto con i modelli nel linguaggio o nella visione che possono essere implementati senza addestramento per problemi di mondo aperto. In questo lavoro, presentiamo i Modelli di Utilità del Robot (RUMs), un framework per addestrare e implementare politiche di robot senza addestramento che possono generalizzare direttamente a nuovi ambienti senza alcuna ottimizzazione. Per creare efficientemente i RUMs, sviluppiamo nuovi strumenti per raccogliere rapidamente dati per compiti di manipolazione mobile, integrare tali dati in una politica con apprendimento per imitazione multimodale e implementare politiche su dispositivo su Hello Robot Stretch, un robot di mercato economico, con un verificatore mLLM esterno per i tentativi ripetuti. Addestriamo cinque modelli di utilità per aprire ante di armadi, aprire cassetti, raccogliere tovaglioli, raccogliere sacchetti di carta e riorientare oggetti caduti. Il nostro sistema, in media, raggiunge un tasso di successo del 90% in ambienti non visti, interagendo con oggetti non visti. Inoltre, i modelli di utilità possono avere successo anche in diverse configurazioni di robot e telecamere senza ulteriori dati, addestramento o ottimizzazione. Tra le nostre principali lezioni ci sono l'importanza dei dati di addestramento rispetto all'algoritmo di addestramento e alla classe di politica, linee guida sulla scalabilità dei dati, la necessità di dimostrazioni diverse ma di alta qualità e una ricetta per l'ispezione del robot e i tentativi ripetuti per migliorare le prestazioni su singoli ambienti. Il nostro codice, dati, modelli, progetti hardware, nonché i video sperimentali e di implementazione sono open source e possono essere trovati sul nostro sito web del progetto: https://robotutilitymodels.com
Mentre i Grandi Modelli Linguistici (LLM) mostrano notevoli capacità generative, non sono privi di difetti, in particolare sotto forma di allucinazioni. Questo problema è ancora più evidente quando i LLM vengono applicati a lingue e domini specifici. Ad esempio, i LLM possono generare informazioni prive di senso quando si occupano di antiche poesie cinesi, proverbi o modi di dire, a causa della mancanza di conoscenze specifiche. A tal fine, questo articolo introduce un benchmark per correggere le conoscenze cinesi nei LLM tramite la modifica delle conoscenze. In particolare, presentiamo un nuovo dataset cinese, CKnowEdit, raccogliendo sette tipi di conoscenze da varie fonti, tra cui testi classici, modi di dire e contenuti da Baidu Tieba Ruozhiba, tenendo conto della polifonia, antitesi e costrutti logici unici della lingua cinese. Attraverso l'analisi di questo dataset, scopriamo le sfide affrontate dai LLM attuali nel padroneggiare il cinese. Inoltre, la nostra valutazione delle tecniche di modifica delle conoscenze all'avanguardia su questo dataset rivela un ampio margine di miglioramento nella correzione delle conoscenze cinesi. Codice e dataset sono disponibili su https://github.com/zjunlp/EasyEdit.
Introduciamo un benchmark per valutare direttamente l'allineamento tra osservatori umani e modelli di visione su un compito di inferenza sulla forma in 3D. Sfruttiamo un design sperimentale delle scienze cognitive che richiede inferenze visive senza training riguardo alla forma degli oggetti: dato un insieme di immagini, i partecipanti identificano quali contengono gli stessi/oggetti diversi, nonostante una considerevole variazione dei punti di vista. Ci basiamo su una vasta gamma di immagini che includono oggetti comuni (ad esempio, sedie) così come forme astratte (ossia, oggetti 'senza senso' generati proceduralmente). Dopo aver costruito oltre 2000 insiemi di immagini unici, sottoponiamo questi compiti ai partecipanti umani, raccogliendo 35K prove di dati comportamentali da oltre 500 partecipanti. Questo include comportamenti di scelta espliciti così come misure intermedie, come il tempo di reazione e i dati di sguardo. Valutiamo quindi le prestazioni dei modelli di visione comuni (ad esempio, DINOv2, MAE, CLIP). Troviamo che gli esseri umani superano tutti i modelli di gran lunga. Utilizzando un approccio di valutazione multi-scala, identifichiamo somiglianze e differenze sottostanti tra modelli e esseri umani: mentre le prestazioni umano-modello sono correlate, gli esseri umani allocano più tempo/elaborazione nelle prove difficili. Tutte le immagini, i dati e il codice sono accessibili tramite la nostra pagina del progetto.
Questo studio presenta diverse contributi per la lingua Karakalpak: un dataset di test di sviluppo FLORES+ tradotto in Karakalpak, corpora paralleli per Uzbeko-Karakalpak, Russo-Karakalpak e Inglese-Karakalpak di 100.000 coppie ciascuno e modelli neurali sintonizzati e resi open-source per la traduzione tra queste lingue. I nostri esperimenti confrontano diverse varianti di modelli e approcci di addestramento, dimostrando miglioramenti rispetto ai baselines esistenti. Questo lavoro, condotto come parte dell'iniziativa Open Language Data Initiative (OLDI) shared task, mira a far progredire le capacità di traduzione automatica per il Karakalpak e contribuire all'espansione della diversità linguistica nelle tecnologie di PNL.
La crescente domanda dei clienti per soluzioni intelligenti in robotica e realtà aumentata ha attirato notevole attenzione alla rilevazione di oggetti in 3D da nuvole di punti. Tuttavia, i dataset interni esistenti presi singolarmente sono troppo piccoli e insufficientemente diversificati per addestrare un modello di rilevamento di oggetti in 3D potente e generale. Nel frattempo, gli approcci più generali che utilizzano modelli di base sono ancora di qualità inferiore rispetto a quelli basati sull'addestramento supervisionato per un compito specifico. In questo lavoro, proponiamo , un modello di rilevamento di oggetti in 3D semplice ma efficace, che viene addestrato su una miscela di dataset interni ed è in grado di funzionare in vari ambienti interni. Unificando spazi di etichette diversi, consente di apprendere una rappresentazione forte attraverso più dataset tramite un regime di addestramento congiunto supervisionato. L'architettura di rete proposta si basa su un codificatore transformer vaniglia, rendendola facile da eseguire, personalizzare ed estendere il pipeline di previsione per un uso pratico. Esperimenti estesi dimostrano che ottiene guadagni significativi rispetto ai metodi esistenti di rilevamento di oggetti in 3D in 6 benchmark interni: ScanNet (+1.1 mAP50), ARKitScenes (+19.4 mAP25), S3DIS (+9.1 mAP50), MultiScan (+9.3 mAP50), 3RScan (+3.2 mAP50) e ScanNet++ (+2.7 mAP50). Il codice è disponibile su https://github.com/filapro/unidet3d.
Questo articolo presenta approfondimenti derivanti dall'valutazione di 16 modelli di linguaggio di grandi dimensioni (LLM) all'avanguardia sul benchmark WebApp1K, un insieme di test progettato per valutare la capacità dei LLM di generare codice per applicazioni web. I risultati rivelano che, sebbene tutti i modelli possiedano conoscenze sottostanti simili, le loro prestazioni sono differenziate dalla frequenza degli errori che commettono. Analizzando le linee di codice (LOC) e le distribuzioni degli errori, scopriamo che scrivere codice corretto è più complesso che generare codice errato. Inoltre, l'ingegneria della prompt mostra un'efficacia limitata nel ridurre gli errori al di là di casi specifici. Queste scoperte suggeriscono che ulteriori progressi nello sviluppo di LLM per la codifica dovrebbero mettere l'accento sulla affidabilità del modello e sulla minimizzazione degli errori.