Articoli di ricerca IA selezionati quotidianamente con traduzioni
Recenti lavori dimostrano che, dopo essere stato sottoposto a fine-tuning su un dataset di istruzioni di alta qualità, il modello risultante può acquisire capacità impressionanti per affrontare un'ampia gamma di compiti. Tuttavia, i metodi esistenti per la generazione di dati di istruzione spesso producono dati duplicati e non sono sufficientemente controllabili in termini di qualità dei dati. In questo articolo, estendiamo la generalizzazione del fine-tuning delle istruzioni classificando i dati di istruzione in 4 compiti relativi al codice e proponiamo un framework di processo dati basato su Generator-Discriminator LLM per generare dati di istruzione diversificati e di alta qualità a partire da codice open source. Introduciamo quindi CodeOcean, un dataset composto da 20.000 istanze di istruzioni relative a 4 compiti universali legati al codice, con l'obiettivo di aumentare l'efficacia del fine-tuning delle istruzioni e migliorare la capacità di generalizzazione del modello sottoposto a fine-tuning. Successivamente, presentiamo WaveCoder, un Code LLM sottoposto a fine-tuning con un approccio Widespread And Versatile Enhanced instruction tuning. Questo modello è specificamente progettato per migliorare il fine-tuning delle istruzioni dei Code Language Models (LLMs). I nostri esperimenti dimostrano che i modelli Wavecoder superano altri modelli open-source in termini di capacità di generalizzazione su diversi compiti legati al codice, a parità di scala di fine-tuning. Inoltre, Wavecoder mostra un'elevata efficienza nei precedenti compiti di generazione di codice. Questo articolo offre quindi un contributo significativo al campo della generazione di dati di istruzione e dei modelli sottoposti a fine-tuning, fornendo nuove intuizioni e strumenti per migliorare le prestazioni nei compiti legati al codice.
La crescita esponenziale dei grandi modelli linguistici (LLM) ha aperto numerose possibilità per i sistemi AGI multi-modali. Tuttavia, i progressi nei modelli di base per la visione e la visione-linguaggio, che sono anch'essi elementi cruciali degli AGI multi-modali, non hanno tenuto il passo con i LLM. In questo lavoro, progettiamo un modello di base visione-linguaggio su larga scala (InternVL), che scala il modello di base per la visione fino a 6 miliardi di parametri e lo allinea progressivamente con il grande modello linguistico, utilizzando dati immagine-testo su scala web provenienti da varie fonti. Questo modello può essere ampiamente applicato e raggiungere prestazioni all'avanguardia in compiti di percezione visiva come il riconoscimento a livello di immagine o di pixel, compiti visione-linguaggio come la classificazione zero-shot di immagini/video, il recupero zero-shot di immagini/video-testo, e il collegamento con i LLM per creare sistemi di dialogo multi-modali. Speriamo che la nostra ricerca possa contribuire allo sviluppo di grandi modelli multi-modali. Codice e modelli sono disponibili su https://github.com/OpenGVLab/InternVL.
Noi esseri umani interagiamo costantemente con i nostri simili e riceviamo feedback sotto forma di linguaggio naturale. Questo feedback linguistico ci permette di riflettere sulle nostre azioni, mantenere un comportamento appropriato e correggere i nostri errori. Sorge quindi spontanea la domanda: possiamo utilizzare il feedback linguistico per allineare i grandi modelli linguistici (LLM)? A differenza delle ricerche precedenti che allineano gli LLM con dati di ricompensa o preferenza, presentiamo la prima esplorazione sistematica dell'allineamento attraverso la lente del feedback linguistico (cioè, il giudizio). Iniziamo con un'indagine approfondita dei potenziali metodi che possono essere adattati per allineare gli LLM con i giudizi, rivelando che questi metodi non sono in grado di sfruttare appieno i giudizi. Per facilitare un utilizzo più efficace dei giudizi, proponiamo un nuovo framework, Contrastive Unlikelihood Training (CUT), che consente il rilevamento e la correzione granulare di contenuti inappropriati basati sui giudizi. I nostri risultati di allineamento offline mostrano che, con soli 1317 dati di giudizio preesistenti, CUT (LLaMA2-13b) può superare il 175B DaVinci003 e superare il miglior baseline di 52,34 punti su AlpacaEval. I risultati di allineamento online dimostrano che CUT può allineare gli LLM (LLaMA2-chat-13b) in modo iterativo utilizzando dati di giudizio specifici per il modello, con un miglioramento costante delle prestazioni da 81,09 a 91,36 punti su AlpacaEval. La nostra analisi suggerisce inoltre che i giudizi mostrano un potenziale maggiore rispetto alle ricompense per l'allineamento degli LLM e meritano ulteriori ricerche future.
Gli esseri umani possiedono la straordinaria abilità della Percezione Visiva, la capacità di vedere e comprendere ciò che viene osservato, aiutandoli a interpretare il mondo visivo e, di conseguenza, a ragionare. I Modelli Linguistici Multimodali di Grande Scala (MLLM) hanno recentemente ottenuto prestazioni impressionanti in compiti che coinvolgono visione e linguaggio, che vanno dal rispondere a domande visive e generare didascalie per immagini al ragionamento visivo e alla generazione di immagini. Tuttavia, quando viene chiesto loro di identificare o contare (percepire) le entità in una determinata immagine, i sistemi MLLM esistenti falliscono. Con l'obiettivo di sviluppare un sistema MLLM accurato per la percezione e il ragionamento, proponiamo l'uso di Codificatori Visivi Versatili (VCoder) come "occhi percettivi" per i Modelli Linguistici Multimodali. Alimentiamo il VCoder con modalità percettive come mappe di segmentazione o di profondità, migliorando le capacità percettive dell'MLLM. In secondo luogo, sfruttiamo le immagini di COCO e gli output di modelli di percezione visiva preesistenti per creare il nostro dataset COCO Segmentation Text (COST), utilizzato per addestrare e valutare gli MLLM sul compito di percezione degli oggetti. In terzo luogo, introduciamo metriche per valutare le capacità di percezione degli oggetti negli MLLM sul nostro dataset COST. Infine, forniamo ampie prove sperimentali che dimostrano i migliorati livelli di percezione a livello di oggetto del VCoder rispetto agli MLLM esistenti, incluso GPT-4V. Rendiamo disponibili in open source il nostro dataset, codice e modelli per promuovere la ricerca. Il nostro codice è disponibile all'indirizzo https://github.com/SHI-Labs/VCoder.
Un metodo chiave per creare agenti di Intelligenza Artificiale (AI) è l'Apprendimento per Rinforzo (Reinforcement Learning, RL). Tuttavia, la costruzione di una politica RL autonoma che mappa direttamente la percezione all'azione incontra gravi problemi, tra cui principalmente la mancanza di generalità su più compiti e la necessità di una grande quantità di dati di addestramento. La causa principale è l'incapacità di integrare efficacemente informazioni pregresse nel ciclo percezione-azione durante la progettazione della politica. I modelli linguistici di grandi dimensioni (Large Language Models, LLMs) sono emersi come un modo fondamentale per incorporare conoscenze trasversali negli agenti AI, ma mancano di capacità cruciali di apprendimento e adattamento verso specifici problemi decisionali. Questo articolo presenta un modello di framework generale per integrare e apprendere ragionamenti strutturati nelle politiche degli agenti AI. La nostra metodologia è motivata dalla modularità presente nel cervello umano. Il framework utilizza la costruzione di funzioni intrinseche ed estrinseche per aggiungere comprensioni pregresse delle strutture di ragionamento. Fornisce inoltre la capacità adattativa di apprendere modelli all'interno di ogni modulo o funzione, in linea con la struttura modulare dei processi cognitivi. Descriviamo il framework in dettaglio e lo confrontiamo con altre pipeline AI e framework esistenti. L'articolo esplora applicazioni pratiche, includendo esperimenti che dimostrano l'efficacia del nostro metodo. I nostri risultati indicano che gli agenti AI performano e si adattano molto meglio quando il ragionamento organizzato e le conoscenze pregresse sono incorporati. Questo apre la strada a sistemi di agenti AI più resilienti e generali.
Con i più recenti progressi nell'elaborazione del linguaggio naturale, i grandi modelli linguistici (LLM) hanno raggiunto capacità di comprensione e generazione del linguaggio a livello umano in molti compiti del mondo reale, e sono persino stati considerati come un potenziale percorso verso l'intelligenza artificiale generale. Per favorire ulteriormente la ricerca sugli LLM, molti modelli open-source, come Llama 2 e Falcon, sono stati recentemente proposti e hanno ottenuto prestazioni comparabili a quelle dei modelli proprietari. Tuttavia, questi modelli sono principalmente progettati per scenari in lingua inglese e mostrano scarse prestazioni in contesti cinesi. In questo rapporto tecnico, proponiamo YAYI 2, che include sia modelli base che modelli chat, con 30 miliardi di parametri. YAYI 2 è pre-addestrato da zero su un corpus multilingue che contiene 2,65 trilioni di token filtrati attraverso la nostra pipeline di elaborazione dei dati per il pre-training. Il modello base è allineato ai valori umani attraverso la messa a punto supervisionata con milioni di istruzioni e l'apprendimento per rinforzo basato sul feedback umano. Esperimenti estensivi su molteplici benchmark, come MMLU e CMMLU, dimostrano costantemente che il proposto YAYI 2 supera altri modelli open-source di dimensioni simili.
Gli attacchi ai modelli linguistici assumono tipicamente uno dei due modelli di minaccia estremi: accesso completo in modalità white-box ai pesi del modello, o accesso in modalità black-box limitato a un'API di generazione di testo. Tuttavia, le API del mondo reale sono spesso più flessibili della semplice generazione di testo: queste API espongono un accesso "gray-box" che porta a nuovi vettori di minaccia. Per esplorare questo aspetto, abbiamo testato in modalità red-team tre nuove funzionalità esposte nelle API di GPT-4: fine-tuning, chiamata di funzioni e recupero di conoscenza. Abbiamo scoperto che il fine-tuning di un modello su appena 15 esempi dannosi o 100 esempi benigni può rimuovere le principali protezioni di GPT-4, consentendo una gamma di output dannosi. Inoltre, abbiamo osservato che gli assistenti GPT-4 rivelano prontamente lo schema delle chiamate di funzione e possono essere indotti a eseguire chiamate di funzione arbitrarie. Infine, abbiamo riscontrato che il recupero di conoscenza può essere dirottato iniettando istruzioni nei documenti di recupero. Queste vulnerabilità evidenziano che qualsiasi aggiunta alla funzionalità esposta da un'API può creare nuove vulnerabilità.
La diffusione dei modelli Text-to-Image (T2I) ha reso possibile la generazione di immagini di alta qualità a partire da descrizioni testuali. Tuttavia, generare immagini personalizzate e diversificate con attributi visivi di riferimento rimane una sfida. Questo lavoro si concentra sulla personalizzazione dei modelli T2I a un livello più astratto, adattando le caratteristiche comuni di un insieme di immagini di riferimento mentre si creano nuove istanze con variazioni sufficienti. Introduciamo una soluzione che consente a un modello T2I preaddestrato di apprendere un insieme di prompt soft, permettendo la generazione di nuove immagini campionando i prompt dalla distribuzione appresa. Questi prompt offrono capacità di modifica guidata dal testo e una maggiore flessibilità nel controllare la variazione e la miscelazione tra più distribuzioni. Mostriamo inoltre l'adattabilità della distribuzione dei prompt appresi ad altre attività, come il text-to-3D. Infine, dimostriamo l'efficacia del nostro approccio attraverso analisi quantitative, inclusa valutazione automatica e valutazione umana. Sito del progetto: https://briannlongzhao.github.io/DreamDistribution
La ricostruzione 3D da una singola vista è impegnativa a causa dell'ambiguità derivante dai segnali monoculari e della mancanza di informazioni sulle regioni occluse. I campi di radianza neurale (NeRF), sebbene popolari per la sintesi di viste e la ricostruzione 3D, si basano tipicamente su immagini multi-vista. I metodi esistenti per la ricostruzione 3D da singola vista con NeRF si affidano a priori di dati per immaginare viste delle regioni occluse, che potrebbero non essere fisicamente accurate, o alle ombre osservate dalle telecamere RGB, che sono difficili da rilevare in condizioni di luce ambientale e su sfondi a bassa albedo. Proponiamo di utilizzare dati di tempo di volo catturati da un diodo a valanga a singolo fotone per superare queste limitazioni. Il nostro metodo modella percorsi ottici a due rimbalzi con NeRF, utilizzando dati transitori lidar per la supervisione. Sfruttando i vantaggi sia di NeRF che della luce a due rimbalzi misurata dal lidar, dimostriamo di poter ricostruire la geometria visibile e occlusa senza ricorrere a priori di dati o alla dipendenza da condizioni controllate di illuminazione ambientale o albedo della scena. Inoltre, dimostriamo un miglioramento nella generalizzazione sotto vincoli pratici sulla risoluzione spaziale e temporale del sensore. Riteniamo che il nostro metodo rappresenti una direzione promettente man mano che i lidar a singolo fotone diventano ubiqui sui dispositivi consumer, come telefoni, tablet e visori.
Nonostante CLIP sia il modello di base in numerose applicazioni di visione e linguaggio, CLIP soffre di un grave bias nel riconoscimento del testo. Tale bias induce i modelli CLIP a "ripetere a pappagallo" il testo visivo incorporato nelle immagini, trascurando l'autentica semantica visiva. Scopriamo che nel dataset immagine-testo più popolare, LAION-2B, anche le didascalie ripetono densamente (ortograficamente) il testo incorporato nelle immagini. La nostra analisi mostra che circa il 50\% delle immagini contiene contenuti testuali visivi e che il 90\% delle loro didascalie ripete più o meno il testo visivo. Sulla base di tale osservazione, esaminiamo approfonditamente le diverse versioni rilasciate dei modelli CLIP e verifichiamo che il testo visivo è il fattore dominante nella misurazione della similarità immagine-testo in stile LAION per questi modelli. Per esaminare se queste didascalie ripetute a pappagallo influenzino il bias nel riconoscimento del testo, addestriamo una serie di modelli CLIP con sottoinsiemi di LAION curati secondo diversi criteri orientati alle didascalie ripetute. Dimostriamo che l'addestramento con didascalie ripetute facilmente forma tale bias, ma danneggia l'apprendimento della rappresentazione visivo-linguistica atteso nei modelli CLIP. Ciò suggerisce che è urgente rivedere sia la progettazione di modelli simili a CLIP che la pipeline esistente di curatela dei dataset immagine-testo basata sul filtraggio del punteggio CLIP.
Studiamo il problema della ricostruzione 3D zero-shot da singola immagine. I lavori recenti apprendono la ricostruzione zero-shot delle forme attraverso la modellazione generativa di asset 3D, ma questi modelli sono computazionalmente costosi sia durante l'addestramento che l'inferenza. Al contrario, l'approccio tradizionale a questo problema è basato sulla regressione, dove modelli deterministici vengono addestrati per regredire direttamente la forma dell'oggetto. Tali metodi di regressione possiedono un'efficienza computazionale molto maggiore rispetto ai metodi generativi. Ciò solleva una domanda naturale: la modellazione generativa è necessaria per ottenere alte prestazioni, o, al contrario, gli approcci basati sulla regressione sono ancora competitivi? Per rispondere a questo, progettiamo un modello robusto basato sulla regressione, chiamato ZeroShape, basandoci sui risultati convergenti in questo campo e su una nuova intuizione. Curiamo inoltre un ampio benchmark di valutazione del mondo reale, con oggetti provenienti da tre diversi dataset 3D reali. Questo benchmark di valutazione è più diversificato e di un ordine di grandezza più grande rispetto a quello utilizzato dai lavori precedenti per valutare quantitativamente i loro modelli, con l'obiettivo di ridurre la varianza di valutazione nel nostro campo. Mostriamo che ZeroShape non solo raggiunge prestazioni superiori rispetto ai metodi all'avanguardia, ma dimostra anche un'efficienza computazionale e dei dati significativamente maggiore.
L'espansione delle abbreviazioni è una strategia utilizzata per accelerare la comunicazione limitando la quantità di digitazione e impiegando un modello linguistico per suggerire le espansioni. Qui esaminiamo la personalizzazione dei suggerimenti di un Large Language Model (LLM) basandoci su conversazioni precedenti per migliorare la rilevanza delle previsioni, specialmente quando i dati dell'utente sono limitati (~1000 campioni). Nello specifico, confrontiamo il fine-tuning, il prompt-tuning e la generazione aumentata con recupero di informazioni per i suggerimenti di testo espanso relativi a input abbreviati. Il nostro caso di studio con un LLM da 8 miliardi di parametri implementato su un utente reale affetto da SLA, e gli esperimenti sulla personalizzazione dei personaggi cinematografici, indicano che (1) la personalizzazione può essere necessaria in alcuni scenari e il prompt-tuning si adatta bene a questi, (2) il fine-tuning su dati di dominio specifico (con appena 600 campioni) mostra ancora alcuni miglioramenti, tuttavia (3) la selezione few-shot aumentata con recupero supera anche il fine-tuning. (4) Il tuning efficiente dei parametri consente una personalizzazione efficiente e scalabile. Per il prompt-tuning, abbiamo anche riscontrato che inizializzare i "soft-prompt" appresi con token concettuali rilevanti per l'utente porta a una maggiore accuratezza rispetto all'inizializzazione casuale.
Mentre lo sviluppo di modelli di Generative AI su larga scala evolve oltre la generazione di testo (1D) per includere la generazione di immagini (2D) e video (3D), l'elaborazione di informazioni spaziali e temporali presenta sfide uniche in termini di qualità, prestazioni ed efficienza. Presentiamo il primo lavoro volto a comprendere questo nuovo spazio di progettazione di sistemi per modelli multi-modali di generazione da testo a immagine (TTI) e da testo a video (TTV). Gli attuali design delle architetture dei modelli si dividono in due categorie: modelli basati su Diffusion e modelli basati su Transformer. La nostra caratterizzazione sistematica delle prestazioni su una suite di otto modelli rappresentativi TTI/TTV mostra che, dopo l'applicazione di tecniche di ottimizzazione all'avanguardia come Flash Attention, la Convoluzione rappresenta fino al 44% del tempo di esecuzione per i modelli TTI basati su Diffusion, mentre i livelli Lineari consumano fino al 49% del tempo di esecuzione per i modelli basati su Transformer. Inoltre, osserviamo che i modelli TTI basati su Diffusion assomigliano alla fase di Prefill dell'inferenza di LLM e beneficiano di un aumento di velocità da 1,1 a 2,5 volte maggiore grazie a Flash Attention rispetto ai modelli TTI basati su Transformer che assomigliano alla fase di Decode. Poiché le ottimizzazioni progettate per gli LLM non si applicano direttamente ai modelli TTI/TTV, è necessario condurre una caratterizzazione approfondita di questi carichi di lavoro per ottenere intuizioni su nuove opportunità di ottimizzazione. In questo contesto, definiamo la lunghezza della sequenza nel contesto dei modelli TTI/TTV e osserviamo che la lunghezza della sequenza può variare fino a 4 volte nell'inferenza dei modelli Diffusion. Inoltre, osserviamo che gli aspetti temporali dei carichi di lavoro TTV presentano colli di bottiglia unici del sistema, con l'Attention Temporale che rappresenta oltre il 60% del tempo totale di Attention. Nel complesso, la nostra caratterizzazione approfondita delle prestazioni del sistema rappresenta un primo passo cruciale verso la progettazione di sistemi efficienti e distribuibili per i nuovi carichi di lavoro TTI/TTV.
Le proprietà fisiche di un oggetto, come la massa, influenzano significativamente il modo in cui lo manipoliamo con le mani. Sorprendentemente, questo aspetto è stato finora trascurato nei lavori precedenti sulla sintesi del movimento 3D. Per migliorare il realismo dei movimenti sintetizzati di mani e oggetti in 3D, questo lavoro propone MACS, il primo approccio di sintesi del movimento 3D di mani e oggetti condizionato alla Massa (MAss Conditioned Synthesis). Il nostro approccio si basa su modelli di diffusione a cascata e genera interazioni che si adattano plausibilmente in base alla massa dell'oggetto e al tipo di interazione. MACS accetta anche una traiettoria 3D disegnata manualmente come input e sintetizza i movimenti naturali della mano in 3D condizionati dalla massa dell'oggetto. Questa flessibilità consente a MACS di essere utilizzato per varie applicazioni a valle, come la generazione di dati sintetici per il training di modelli di machine learning, l'animazione rapida delle mani nei flussi di lavoro grafici e la generazione di interazioni di personaggi per i videogiochi. Sperimentalmente, dimostriamo che un dataset di piccole dimensioni è sufficiente affinché MACS generalizzi ragionevolmente su masse di oggetti interpolate ed estrapolate non viste durante l'addestramento. Inoltre, MACS mostra una moderata generalizzazione a oggetti non visti, grazie alle etichette di contatto condizionate alla massa generate dal nostro modello di sintesi del contatto superficiale ConNet. Il nostro studio utente completo conferma che le interazioni sintetizzate mano-oggetto in 3D sono altamente plausibili e realistiche.
Questo articolo presenta "Shai", un modello linguistico di grandi dimensioni da 10 miliardi di parametri, specificamente progettato per il settore della gestione patrimoniale e costruito su un modello fondazionale open-source. Grazie a un pre-addestramento continuo e a un fine-tuning utilizzando un corpus mirato, Shai dimostra prestazioni migliorate nelle attività rilevanti per il suo dominio, superando i modelli di riferimento. La nostra ricerca include lo sviluppo di un framework di valutazione innovativo, che integra esami di qualifica professionale, task personalizzati, risposte a domande aperte e valutazioni di sicurezza, per analizzare in modo completo le capacità di Shai. Inoltre, discutiamo le sfide e le implicazioni dell'utilizzo di modelli linguistici di grandi dimensioni come GPT-4 per la valutazione delle prestazioni nella gestione patrimoniale, suggerendo una combinazione di valutazione automatizzata e giudizio umano. Lo sviluppo di Shai, che evidenzia il potenziale e la versatilità dei modelli linguistici di grandi dimensioni da 10 miliardi di parametri nel settore finanziario con prestazioni significative e requisiti computazionali modesti, spera di fornire intuizioni pratiche e metodologie per assistere i colleghi del settore nei loro sforzi simili.
Recentemente, i ricercatori hanno tentato di indagare la capacità dei modelli linguistici di grandi dimensioni (LLM) nel gestire i video e hanno proposto diversi modelli di LLM per video. Tuttavia, la capacità degli LLM di gestire il video grounding (VG), un importante compito video legato al tempo che richiede al modello di individuare con precisione i timestamp di inizio e fine dei momenti temporali nei video che corrispondono alle query testuali fornite, rimane ancora poco chiara e inesplorata nella letteratura. Per colmare questa lacuna, in questo articolo proponiamo il benchmark LLM4VG, che valuta sistematicamente le prestazioni di diversi LLM nei compiti di video grounding. Basandoci sul nostro LLM4VG, progettiamo esperimenti estesi per esaminare due gruppi di modelli LLM per video nel contesto del video grounding: (i) gli LLM per video addestrati su coppie testo-video (denominati VidLLM), e (ii) gli LLM combinati con modelli pre-addestrati di descrizione visiva, come i modelli di captioning video/immagini. Proponiamo metodi di prompt per integrare l'istruzione del VG e la descrizione proveniente da diversi tipi di generatori, inclusi generatori basati su caption per la descrizione visiva diretta e generatori basati su VQA per il potenziamento delle informazioni. Forniamo anche confronti completi tra vari VidLLM ed esploriamo l'influenza di diverse scelte di modelli visivi, LLM, design dei prompt, ecc. Le nostre valutazioni sperimentali portano a due conclusioni: (i) gli attuali VidLLM sono ancora lontani dal raggiungere prestazioni soddisfacenti nel video grounding, e più compiti video legati al tempo dovrebbero essere inclusi per affinare ulteriormente questi modelli, e (ii) la combinazione di LLM e modelli visivi mostra capacità preliminari per il video grounding con un potenziale considerevole di miglioramento ricorrendo a modelli più affidabili e a un'ulteriore guida delle istruzioni dei prompt.