Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli linguistici (LLM) sono attesi per rispondere in modo accurato, ma spesso mostrano ragionamenti carenti o generano contenuti allucinatori. Per affrontare questi problemi, sono stati avviati studi prefissati con "Self-", come Self-Consistency, Self-Improve e Self-Refine. Questi condividono una caratteristica comune: coinvolgono i LLM nel valutare e aggiornare se stessi per mitigare le problematiche. Tuttavia, questi sforzi mancano di una prospettiva unificata sulla sintesi, poiché le revisioni esistenti si concentrano principalmente sulla categorizzazione senza esaminare le motivazioni alla base di questi lavori. In questo articolo, sintetizziamo un quadro teorico, denominato Internal Consistency, che offre spiegazioni unificate per fenomeni come la mancanza di ragionamento e la presenza di allucinazioni. L'Internal Consistency valuta la coerenza tra lo strato latente, lo strato di decodifica e lo strato di risposta dei LLM basandosi su metodologie di campionamento. Espandendo il quadro dell'Internal Consistency, introduciamo un quadro teorico semplificato ma efficace, in grado di estrarre l'Internal Consistency, denominato Self-Feedback. Il quadro Self-Feedback è composto da due moduli: Self-Evaluation e Self-Update. Questo quadro è stato impiegato in numerosi studi. Classifichiamo sistematicamente questi studi per compiti e linee di lavoro; sintetizziamo i metodi di valutazione e i benchmark rilevanti; e approfondiamo la questione, "Il Self-Feedback funziona davvero?" Proponiamo diversi punti di vista critici, tra cui l'"Evoluzione a clessidra dell'Internal Consistency", l'ipotesi "La Coerenza è (quasi) Correttezza" e "Il Paradosso del Ragionamento Latente ed Esplicito". Inoltre, delineiamo promettenti direzioni per la ricerca futura. Abbiamo reso open-source il codice sperimentale, la lista di riferimento e i dati statistici, disponibili su https://github.com/IAAR-Shanghai/ICSFSurvey.
L'inferenza dei modelli linguistici di grandi dimensioni basati su trasformatori consiste in due fasi sequenziali: 1) una fase di prefilling per calcolare la cache KV dei prompt e generare il primo token, e 2) una fase di decodifica per generare i token successivi. Per prompt lunghi, la cache KV deve essere calcolata per tutti i token durante la fase di prefilling, il che può aumentare significativamente il tempo necessario per generare il primo token. Di conseguenza, la fase di prefilling può diventare un collo di bottiglia nel processo di generazione. Rimane una questione aperta se tutti i token del prompt siano essenziali per generare il primo token. Per rispondere a questo, introduciamo un metodo innovativo, LazyLLM, che calcola selettivamente la KV per i token importanti per la previsione del token successivo sia nella fase di prefilling che in quella di decodifica. Contrariamente agli approcci di pruning statico che potano il prompt in una sola volta, LazyLLM consente ai modelli linguistici di selezionare dinamicamente diversi sottoinsiemi di token dal contesto in diversi passaggi di generazione, anche se potrebbero essere stati potati in passaggi precedenti. Esperimenti estesi su dataset standard in vari compiti dimostrano che LazyLLM è un metodo generico che può essere integrato senza soluzione di continuità con i modelli linguistici esistenti per accelerare significativamente la generazione senza bisogno di fine-tuning. Ad esempio, nel compito di risposta a domande su più documenti, LazyLLM accelera la fase di prefilling del modello LLama 2 7B di 2,34x mantenendo l'accuratezza.
Nel campo dei modelli linguistici multimodali, la maggior parte dei metodi si basa su un'architettura simile a LLaVA. Questi modelli utilizzano una feature ViT a singolo strato come prompt visivo, alimentandola direttamente nei modelli linguistici insieme ai token testuali. Tuttavia, quando si tratta di sequenze lunghe di segnali visivi o input come i video, il meccanismo di self-attention dei modelli linguistici può portare a un significativo sovraccarico computazionale. Inoltre, l'uso di feature ViT a singolo strato rende difficile per i grandi modelli linguistici percepire pienamente i segnali visivi. Questo articolo propone un modello linguistico multimodale efficiente per minimizzare i costi computazionali consentendo al modello di percepire i segnali visivi nel modo più completo possibile. Il nostro metodo include principalmente: (1) l'impiego di cross-attention per l'interazione immagine-testo simile a Flamingo. (2) l'utilizzo di feature ViT gerarchiche. (3) l'introduzione del meccanismo Mixture of Experts (MoE) per migliorare l'efficacia del modello. Il nostro modello ottiene punteggi competitivi su benchmark multimodali pubblici e si comporta bene in compiti come la descrizione di immagini e la descrizione di video.
In questo lavoro, presentiamo ChatQA 2, un modello basato su Llama3 progettato per colmare il divario tra i modelli LLM open-access e i principali modelli proprietari (ad esempio, GPT-4-Turbo) nelle capacità di comprensione del contesto lungo e di generazione aumentata dal recupero (RAG). Queste due capacità sono essenziali affinché i LLM possano elaborare grandi volumi di informazioni che non possono essere contenuti in un singolo prompt e sono complementari tra loro, a seconda dei task downstream e dei budget computazionali. Presentiamo una ricetta dettagliata per il training continuo per estendere la finestra contestuale di Llama3-70B-base da 8K a 128K token, insieme a un processo di tuning delle istruzioni in tre fasi per migliorare le capacità del modello nel seguire le istruzioni, nelle prestazioni RAG e nella comprensione del contesto lungo. I nostri risultati dimostrano che il modello Llama3-ChatQA-2-70B raggiunge un'accuratezza comparabile a GPT-4-Turbo-2024-0409 in molti task di comprensione del contesto lungo e lo supera nel benchmark RAG. È interessante notare che il miglior retriever per contesti lunghi attualmente disponibile può alleviare il problema della frammentazione del contesto top-k in RAG, migliorando ulteriormente i risultati basati su RAG per i task di comprensione del contesto lungo. Forniamo inoltre ampie comparazioni tra le soluzioni RAG e quelle per contesti lunghi utilizzando i migliori LLM per contesti lunghi attualmente disponibili.
I modelli generativi aperti sono di vitale importanza per la comunità, poiché consentono di effettuare fine-tuning e fungono da baseline quando si presentano nuovi modelli. Tuttavia, la maggior parte degli attuali modelli di testo-audio sono privati e non accessibili ad artisti e ricercatori che desiderano costruirvi sopra. Qui descriviamo l'architettura e il processo di addestramento di un nuovo modello testo-audio a pesi aperti, addestrato con dati Creative Commons. La nostra valutazione mostra che le prestazioni del modello sono competitive con lo stato dell'arte su varie metriche. In particolare, i risultati riportati per FDopenl3 (che misura il realismo delle generazioni) dimostrano il suo potenziale per la sintesi di suoni stereo di alta qualità a 44.1kHz.
Negli ultimi anni, sono stati compiuti notevoli progressi nel campo della comprensione visiva dei documenti, con l'architettura prevalente che comprende una cascata di modelli visivi e linguistici. Il componente testuale può essere estratto esplicitamente utilizzando modelli OCR esterni negli approcci basati su OCR, oppure, in alternativa, il modello visivo può essere dotato di capacità di lettura negli approcci senza OCR. Tipicamente, le query al modello vengono inserite esclusivamente nel componente linguistico, rendendo necessario che le caratteristiche visive coprano l'intero documento. In questo articolo, presentiamo VisFocus, un metodo senza OCR progettato per sfruttare meglio la capacità dell'encoder visivo accoppiandolo direttamente con il prompt linguistico. Per fare ciò, sostituiamo i livelli di down-sampling con livelli che ricevono il prompt di input e consentono di evidenziare le parti rilevanti del documento, ignorando le altre. Abbiamo abbinato i miglioramenti dell'architettura a un nuovo compito di pre-training, utilizzando il mascheramento linguistico su un frammento del testo del documento fornito all'encoder visivo al posto del prompt, per dotare il modello di capacità di focalizzazione. Di conseguenza, VisFocus impara a destinare la sua attenzione alle porzioni di testo pertinenti al prompt fornito. I nostri esperimenti dimostrano che questo approccio di codifica visiva guidata dal prompt migliora significativamente le prestazioni, raggiungendo risultati all'avanguardia su vari benchmark.
Il riconoscimento ottico dei caratteri (OCR) e il riconoscimento della scrittura a mano (HWR) per l'arabo presentano sfide uniche a causa della natura corsiva e sensibile al contesto della scrittura araba. Questo studio introduce Qalam, un innovativo modello di base progettato per l'OCR e l'HWR dell'arabo, costruito su un'architettura con encoder SwinV2 e decoder RoBERTa. Il nostro modello supera significativamente i metodi esistenti, raggiungendo un tasso di errore sulle parole (WER) di appena lo 0,80% nelle attività di HWR e dell'1,18% nelle attività di OCR. Addestriamo Qalam su un dataset diversificato, che include oltre 4,5 milioni di immagini provenienti da manoscritti arabi e un dataset sintetico composto da 60k coppie immagine-testo. In particolare, Qalam dimostra una gestione eccezionale dei diacritici arabi, una caratteristica cruciale nella scrittura araba. Inoltre, mostra una notevole capacità di elaborare input ad alta risoluzione, affrontando una limitazione comune nei sistemi OCR attuali. Questi progressi sottolineano il potenziale di Qalam come soluzione leader per il riconoscimento della scrittura araba, offrendo un significativo salto in avanti in termini di precisione ed efficienza.
La Visione del Calcolo Autonomo (ACV), proposta oltre due decenni fa, immagina sistemi informatici che si autogestiscono in modo simile agli organismi biologici, adattandosi senza soluzione di continuità a ambienti in cambiamento. Nonostante decenni di ricerca, il raggiungimento dell'ACV rimane una sfida a causa della natura dinamica e complessa dei moderni sistemi informatici. I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) offrono soluzioni promettenti a queste sfide sfruttando la loro vasta conoscenza, comprensione del linguaggio e capacità di automazione delle attività. Questo articolo esplora la fattibilità di realizzare l'ACV attraverso un framework multi-agente basato su LLM per la gestione dei microservizi. Introduciamo una tassonomia a cinque livelli per la manutenzione autonoma dei servizi e presentiamo un benchmark di valutazione online basato sul progetto dimostrativo di microservizi Sock Shop per valutare le prestazioni del nostro framework. I nostri risultati dimostrano un progresso significativo verso il raggiungimento dell'autonomia di Livello 3, evidenziando l'efficacia degli LLM nel rilevare e risolvere problemi all'interno delle architetture di microservizi. Questo studio contribuisce a far avanzare il calcolo autonomo aprendo la strada all'integrazione degli LLM nei framework di gestione dei microservizi, gettando le basi per sistemi informatici più adattivi e autogestiti. Il codice sarà reso disponibile all'indirizzo https://aka.ms/ACV-LLM.
Poiché i modelli linguistici (LM) superano ormai gli esseri umani medi in molti compiti impegnativi, è diventato sempre più difficile sviluppare valutazioni stimolanti, di alta qualità e realistiche. Affrontiamo questo problema esaminando le capacità dei LM di generare codice per risolvere problemi reali di ricerca scientifica. Incorporando input da scienziati e ricercatori di IA in 16 sottocampi diversi delle scienze naturali, tra cui matematica, fisica, chimica, biologia e scienza dei materiali, abbiamo creato un benchmark di codifica curato da scienziati, denominato SciCode. I problemi in SciCode si scompongono naturalmente in più sottoproblemi, ciascuno dei quali coinvolge il richiamo di conoscenze, il ragionamento e la sintesi del codice. In totale, SciCode contiene 338 sottoproblemi decomposti da 80 problemi principali impegnativi. Offre descrizioni opzionali che specificano utili informazioni di background scientifico e soluzioni gold-standard annotate dagli scienziati, nonché casi di test per la valutazione. Claude3.5-Sonnet, il modello con le migliori prestazioni tra quelli testati, riesce a risolvere solo il 4,6% dei problemi nell'impostazione più realistica. Crediamo che SciCode dimostri sia i progressi dei LM contemporanei verso il diventare utili assistenti scientifici, sia getti luce sullo sviluppo e la valutazione dell'IA scientifica in futuro.
L'implementazione di modelli linguistici di grandi dimensioni (LLM) è spesso limitata dalla larghezza di banda della memoria, dove il collo di bottiglia principale è il costo del trasferimento dei parametri del modello dalla memoria globale della GPU ai suoi registri. Quando combinati con kernel personalizzati che fondono le operazioni di dequantizzazione e moltiplicazione matriciale (matmul), la quantizzazione solo dei pesi può quindi consentire un'inferenza più rapida riducendo la quantità di movimento di memoria. Tuttavia, lo sviluppo di kernel ad alte prestazioni per LLM con pesi quantizzati presenta sfide significative, specialmente quando i pesi sono compressi in larghezze di bit non uniformemente divisibili (ad esempio, 3 bit) con quantizzazione non uniforme basata su tabelle di ricerca (LUT). Questo articolo descrive FLUTE, un motore flessibile per tabelle di ricerca per LLM quantizzati con LUT, che utilizza una ristrutturazione offline della matrice dei pesi quantizzati per minimizzare le manipolazioni di bit associate all'estrazione, e la vettorizzazione e duplicazione della tabella di ricerca per mitigare i vincoli della larghezza di banda della memoria condivisa. Per dimensioni del batch < 32 e dimensioni del gruppo di quantizzazione di 128 (tipiche nell'inferenza di LLM), il kernel FLUTE può essere da 2 a 4 volte più veloce rispetto ai kernel GEMM esistenti. Come applicazione di FLUTE, esploriamo una semplice estensione alla quantizzazione NormalFloat basata su tabelle di ricerca e la applichiamo per quantizzare LLaMA3 in varie configurazioni, ottenendo prestazioni di quantizzazione competitive rispetto a baseline robuste e un aumento del throughput end-to-end da 1,5 a 2 volte.
Le recenti innovazioni nell'addestramento dei modelli linguistici hanno dimostrato che è possibile creare modelli altamente performanti e sufficientemente piccoli da poter essere eseguiti su uno smartphone. Man mano che questi modelli vengono implementati in un numero crescente di domini, è fondamentale garantire che siano allineati con le preferenze umane e le considerazioni di sicurezza. In questo rapporto, presentiamo la nostra metodologia per l'allineamento alla sicurezza della serie di modelli linguistici Phi-3. Abbiamo utilizzato un ciclo "rompi-ripara", eseguendo più iterazioni di curatela dei dataset, post-addestramento per la sicurezza, benchmarking, red teaming e identificazione delle vulnerabilità per coprire una varietà di aree di danno in scenari sia a turno singolo che multi-turno. I nostri risultati indicano che questo approccio ha migliorato in modo iterativo le prestazioni dei modelli Phi-3 su un'ampia gamma di benchmark di intelligenza artificiale responsabile.
Recentemente, con i rapidi progressi dei modelli generativi, il campo della generazione visiva di testo ha registrato significativi avanzamenti. Tuttavia, è ancora impegnativo produrre immagini di testo di alta qualità in scenari reali, poiché devono essere soddisfatti tre criteri fondamentali: (1) Fedeltà: le immagini di testo generate dovrebbero essere fotorealistiche e i contenuti dovrebbero corrispondere a quanto specificato nelle condizioni date; (2) Ragionevolezza: le regioni e i contenuti del testo generato dovrebbero essere coerenti con la scena; (3) Utilità: le immagini di testo generate dovrebbero facilitare compiti correlati (ad esempio, rilevamento e riconoscimento del testo). Dall'analisi emerge che i metodi esistenti, sia quelli basati sul rendering che quelli basati sulla diffusione, difficilmente soddisfano contemporaneamente tutti questi aspetti, limitando il loro campo di applicazione. Pertanto, in questo articolo proponiamo un generatore visivo di testo (denominato SceneVTG), in grado di produrre immagini di testo di alta qualità in contesti reali. Seguendo un paradigma a due fasi, SceneVTG sfrutta un Modello Linguistico Multimodale di Grande Scala per raccomandare regioni e contenuti di testo ragionevoli su più scale e livelli, che vengono utilizzati da un modello di diffusione condizionata come condizioni per generare immagini di testo. Esperimenti estensivi dimostrano che il proposto SceneVTG supera significativamente i metodi tradizionali basati sul rendering e i recenti metodi basati sulla diffusione in termini di fedeltà e ragionevolezza. Inoltre, le immagini generate offrono una superiore utilità per compiti di rilevamento e riconoscimento del testo. Codice e dataset sono disponibili su AdvancedLiterateMachinery.
Gli autoencoder sparsi (SAE) rappresentano un approccio promettente e non supervisionato per identificare caratteristiche lineari causalmente rilevanti e interpretabili nelle attivazioni di un modello linguistico (LM). Per essere utili nei task downstream, gli SAE devono scomporre fedelmente le attivazioni del LM; tuttavia, per essere interpretabili, la scomposizione deve essere sparsa — due obiettivi che sono in tensione. In questo articolo, introduciamo gli JumpReLU SAE, che raggiungono una fedeltà di ricostruzione allo stato dell'arte a un determinato livello di sparsità sulle attivazioni di Gemma 2 9B, rispetto ad altri progressi recenti come gli SAE Gated e TopK. Mostriamo inoltre che questo miglioramento non avviene a scapito dell'interpretabilità, attraverso studi di interpretabilità manuali e automatizzati. Gli JumpReLU SAE sono una semplice modifica degli SAE vanilla (ReLU) — in cui sostituiamo la funzione di attivazione ReLU con una funzione JumpReLU discontinua — e sono altrettanto efficienti da addestrare e far funzionare. Utilizzando in modo rigoroso gli stimatori straight-through (STEs), dimostriamo come sia possibile addestrare efficacemente gli JumpReLU SAE nonostante la funzione JumpReLU discontinua introdotta nel passaggio in avanti dell'SAE. Allo stesso modo, utilizziamo gli STEs per addestrare direttamente L0 a essere sparsa, invece di addestrare su proxy come L1, evitando problemi come il restringimento.
È stato ottenuto un miglioramento significativo nel campo della generazione automatica di didascalie audio (AAC) con i modelli recenti. Tuttavia, questi modelli sono diventati sempre più grandi man mano che le loro prestazioni sono state potenziate. In questo lavoro, proponiamo un framework di distillazione della conoscenza (KD) per l'AAC. La nostra analisi mostra che nei modelli AAC basati su encoder-decoder, è più efficace distillare la conoscenza nell'encoder rispetto al decoder. A tal fine, integriamo una perdita KD a livello di encoder durante l'addestramento, oltre alla perdita supervisionata standard e alla perdita KD a livello di sequenza. Esaminiamo due metodi KD a livello di encoder, basati rispettivamente sulla perdita dell'errore quadratico medio (MSE) e sulla perdita contrastiva. I risultati sperimentali dimostrano che la KD contrastiva è più robusta rispetto alla KD MSE, mostrando prestazioni superiori in situazioni con dati limitati. Sfruttando dati esclusivamente audio durante l'addestramento nel framework KD, il nostro modello studente raggiunge prestazioni competitive, con una velocità di inferenza 19 volte più veloce. Una demo online è disponibile all'indirizzo \url{https://huggingface.co/spaces/wsntxxn/efficient_audio_captioning}.
Presentiamo un approccio innovativo per il recupero della forma 3D e dell'aspetto dipendente dalla vista da poche immagini colorate, consentendo una ricostruzione 3D efficiente e la sintesi di nuove viste. Il nostro metodo apprende una rappresentazione neurale implicita sotto forma di una Funzione di Distanza con Segno (SDF) e di un campo di radianza. Il modello viene addestrato progressivamente attraverso il rendering volumetrico abilitato dal ray marching e regolarizzato con segnali di stereo multi-vista (MVS) privi di apprendimento. Elemento chiave del nostro contributo è una strategia innovativa di apprendimento di una funzione neurale implicita della forma che incoraggia il nostro campo SDF a essere il più lineare possibile vicino al livello impostato, rendendo così l'addestramento più robusto contro il rumore derivante dai segnali di supervisione e regolarizzazione. Senza utilizzare alcun priore pre-addestrato, il nostro metodo, denominato SparseCraft, raggiunge prestazioni all'avanguardia sia nella sintesi di nuove viste che nella ricostruzione da viste sparse nei benchmark standard, richiedendo meno di 10 minuti per l'addestramento.
Recentemente, la generazione di testo in 3D ha attirato una significativa attenzione, portando a notevoli miglioramenti delle prestazioni. I metodi precedenti utilizzano modelli di generazione 3D end-to-end per inizializzare Gaussiane 3D, modelli di diffusione multi-vista per imporre la coerenza tra più viste e modelli di diffusione da testo a immagine per affinare i dettagli con algoritmi di distillazione del punteggio. Tuttavia, questi metodi presentano due limitazioni. In primo luogo, incontrano conflitti nelle direzioni di generazione poiché diversi modelli mirano a produrre risorse 3D diverse. In secondo luogo, il problema della sovrasaturazione nella distillazione del punteggio non è stato approfonditamente investigato e risolto. Per affrontare queste limitazioni, proponiamo PlacidDreamer, un framework da testo a 3D che armonizza l'inizializzazione, la generazione multi-vista e la generazione condizionata dal testo con un singolo modello di diffusione multi-vista, impiegando contemporaneamente un nuovo algoritmo di distillazione del punteggio per ottenere una saturazione bilanciata. Per unificare la direzione di generazione, introduciamo il modulo Latent-Plane, un'estensione plug-in adatta all'addestramento che consente ai modelli di diffusione multi-vista di fornire una ricostruzione geometrica rapida per l'inizializzazione e immagini multi-vista migliorate per personalizzare il modello di diffusione da testo a immagine. Per affrontare il problema della sovrasaturazione, proponiamo di considerare la distillazione del punteggio come un problema di ottimizzazione multi-obiettivo e introduciamo l'algoritmo Balanced Score Distillation, che offre una soluzione Pareto Ottimale che raggiunge sia dettagli ricchi che una saturazione bilanciata. Esperimenti estensivi convalidano le eccezionali capacità del nostro PlacidDreamer. Il codice è disponibile all'indirizzo https://github.com/HansenHuang0823/PlacidDreamer.