Articoli di ricerca IA selezionati quotidianamente con traduzioni
Gli autoencoder sparsi (SAE) sono diventati un ingrediente fondamentale nel reverse engineering dei grandi modelli di linguaggio (LLM). Per i LLM, è stato dimostrato che decompongono rappresentazioni intermedie spesso non direttamente interpretabili in somme sparse di caratteristiche interpretabili, facilitando un migliore controllo e successiva analisi. Tuttavia, analisi e approcci simili sono mancati per i modelli testo-immagine. Abbiamo investigato la possibilità di utilizzare SAE per apprendere caratteristiche interpretabili per modelli di diffusione testo-immagine a pochi passaggi, come SDXL Turbo. A questo scopo, addestriamo SAE sugli aggiornamenti eseguiti dai blocchi trasformatore all'interno del denoising U-net di SDXL Turbo. Scopriamo che le caratteristiche apprese sono interpretabili, influenzano causalmente il processo di generazione e rivelano specializzazioni tra i blocchi. In particolare, troviamo un blocco che si occupa principalmente della composizione dell'immagine, uno responsabile principalmente dell'aggiunta di dettagli locali e uno per colore, illuminazione e stile. Pertanto, il nostro lavoro è un importante primo passo verso una migliore comprensione degli interni dei modelli generativi testo-immagine come SDXL Turbo e mostra il potenziale delle caratteristiche apprese da SAE per il dominio visivo. Il codice è disponibile su https://github.com/surkovv/sdxl-unbox
Cosa fa la differenza nel post-training dei LLM? Indaghiamo i modelli di addestramento dei diversi strati nei grandi modelli linguistici (LLM), attraverso il prisma del gradiente, durante l'addestramento con diverse risposte e modelli iniziali. Siamo particolarmente interessati a come il pensiero veloce rispetto a quello lento influisce sui gradienti a livello di strato, data la recente popolarità dell'addestramento dei LLM su percorsi di ragionamento come catene di pensiero (CoT) e ricompense di processo. Nel nostro studio, il pensiero veloce senza CoT porta a gradienti più ampi e differenze di gradienti più grandi tra gli strati rispetto al pensiero lento (CoT dettagliato), indicando la stabilità nell'apprendimento portata da quest'ultimo. Inoltre, i LLM pre-addestrati sono meno influenzati dall'instabilità del pensiero veloce rispetto ai LLM sintonizzati sull'istruzione. Inoltre, studiamo se i modelli di gradiente possano riflettere la correttezza delle risposte durante l'addestramento di diversi LLM utilizzando percorsi di pensiero lento vs veloce. I risultati mostrano che i gradienti del pensiero lento possono distinguere i percorsi di ragionamento corretti e non pertinenti. A titolo di confronto, conduciamo analisi simili sui gradienti su compiti di apprendimento di conoscenze non di ragionamento, su cui, tuttavia, aumentare banalmente la lunghezza delle risposte non porta a comportamenti simili a quelli del pensiero lento. Il nostro studio rafforza le comprensioni fondamentali dell'addestramento dei LLM e fornisce nuove intuizioni sulla sua efficienza e stabilità, aprendo la strada alla costruzione di un agente System-2 generalizzabile. Il nostro codice, i dati e le statistiche sui gradienti possono essere trovati su: https://github.com/MingLiiii/Layer_Gradient.
Nei sistemi di dialogo orientati al compito, la rilevazione dell'intento è cruciale per interpretare le richieste degli utenti e fornire risposte adeguate. La ricerca esistente si occupa principalmente di semplici richieste con un singolo intento, mancando di sistemi efficaci per gestire richieste complesse con molteplici intenti ed estrarre diversi span di intenti. Inoltre, c'è una notevole assenza di dataset multilingue e multi-intento. Questo studio affronta tre compiti critici: estrarre molteplici span di intenti dalle richieste, rilevare molteplici intenti e sviluppare un dataset di intenti multilingue e multi-etichetta. Introduciamo un nuovo dataset di rilevazione di intenti multietichetta e multicategoria (MLMCID-dataset) curato da dataset di riferimento esistenti. Proponiamo inoltre un'architettura basata su reti puntatore (MLMCID) per estrarre span di intenti e rilevare molteplici intenti con etichette grossolane e raffinate sotto forma di sestuplette. Un'analisi esaustiva dimostra la superiorità del nostro sistema basato su reti puntatore rispetto agli approcci di base in termini di accuratezza e punteggio F1 su vari dataset.
Il tuning delle istruzioni è un approccio di fine-tuning supervisionato che migliora significativamente la capacità dei grandi modelli linguistici (LLM) di seguire le istruzioni umane. Proponiamo SelfCodeAlign, il primo pipeline completamente trasparente e permessivo per l'allineamento automatico dei codici LLM senza estese annotazioni umane o distillazione. SelfCodeAlign utilizza lo stesso modello di base per l'inferenza durante l'intero processo di generazione dei dati. Estrae innanzitutto concetti di codifica diversi da frammenti seme di alta qualità per generare nuovi compiti. Successivamente campiona più risposte per ogni compito, le abbina a casi di test e le convalida in un ambiente sandbox. Infine, vengono selezionati esempi superati per il tuning delle istruzioni. Nei nostri esperimenti principali, utilizziamo SelfCodeAlign con CodeQwen1.5-7B per generare un dataset di 74k coppie istruzione-risposta. Il fine-tuning su questo dataset porta a un modello che raggiunge un 67.1 pass@1 su HumanEval+, superando CodeLlama-70B-Instruct nonostante sia dieci volte più piccolo. In tutti i benchmark, questo modello sottoposto a fine-tuning supera costantemente la versione originale addestrata con OctoPack, il metodo di riferimento precedente per il tuning delle istruzioni senza annotazioni umane o distillazione. Inoltre, dimostriamo che SelfCodeAlign è efficace su LLM di varie dimensioni, da 3B a 33B, e che i modelli di base possono beneficiare maggiormente dall'allineamento con la propria distribuzione dei dati. Validiamo ulteriormente l'efficacia di ciascun componente nel nostro pipeline, dimostrando che SelfCodeAlign supera sia la distillazione diretta da GPT-4o che i metodi di distillazione basati su GPT-3.5, come OSS-Instruct ed Evol-Instruct. SelfCodeAlign ha inoltre portato alla creazione di StarCoder2-Instruct, il primo codice LLM completamente trasparente, con licenza permissiva e auto-allineato che raggiunge prestazioni di codifica all'avanguardia.
I modelli linguistici di grandi dimensioni (LLM) hanno rivoluzionato numerose applicazioni, tuttavia la loro implementazione rimane sfidata dai vincoli di memoria sui dispositivi locali. Mentre le leggi di scala hanno potenziato le capacità dei LLM, il principale collo di bottiglia si è spostato dalla capacità alla disponibilità, sottolineando la necessità di un efficiente gestione della memoria. I metodi tradizionali di compressione, come la quantizzazione, spesso richiedono rapporti di compressione predefiniti e processi di compressione separati per ciascuna configurazione, complicando l'implementazione in ambienti di memoria variabile. In questo articolo, presentiamo BitStack, un nuovo approccio di compressione dei pesi senza addestramento che consente scambi di livello di megabyte tra l'uso della memoria e le prestazioni del modello. Sfruttando la decomposizione dei pesi, BitStack può regolare dinamicamente le dimensioni del modello con trasmissioni minime tra la memoria in esecuzione e i dispositivi di archiviazione. Il nostro approccio decompone iterativamente le matrici dei pesi considerando la significatività di ciascun parametro, risultando in circa 1 bit per blocco residuo per parametro in ciascuna iterazione di decomposizione. Questi blocchi vengono ordinati e impilati nell'archiviazione come unità di trasmissione di base, con diverse quantità caricate in base alla disponibilità attuale della memoria. Estesi esperimenti su una vasta gamma di compiti dimostrano che, nonostante offra un controllo delle dimensioni dettagliato, BitStack corrisponde costantemente o supera i solidi punti di riferimento della quantizzazione, in particolare a estremi rapporti di compressione. Per quanto ne sappiamo, questo è il primo metodo basato sulla decomposizione che collega efficacemente il divario alle tecniche di compressione pratiche come la quantizzazione. Il codice è disponibile su https://github.com/xinghaow99/BitStack.
I grandi modelli linguistici (LLM) faticano a seguire istruzioni con vincoli complessi riguardanti formato, lunghezza, ecc. Seguendo la pratica convenzionale di ottimizzazione delle istruzioni, lavori precedenti conducono un post-training su coppie istruzione-risposta complesse generate alimentando istruzioni complesse a LLM avanzati. Tuttavia, anche i LLM avanzati non riescono a seguire bene istruzioni complesse, limitando così la qualità dei dati generati. In questo lavoro, scopriamo che i dataset esistenti contengono implicitamente vincoli complessi e proponiamo una nuova tecnica di generazione dati, la retrotraduzione dei vincoli. In particolare, prendiamo le coppie istruzione-risposta di alta qualità nei dataset esistenti e adottiamo solo LLM avanzati per aggiungere vincoli complessi già soddisfatti dalle risposte alle istruzioni, riducendo naturalmente costi e rumore nei dati. Negli esperimenti, adottiamo Llama3-70B-Instruct per retrotradurre i vincoli e creare un dataset di istruzioni-risposte complesse di alta qualità, chiamato CRAB. Dimostriamo che il post-training su CRAB migliora la capacità di seguire istruzioni complesse di vari LLM di base, valutati su ampi benchmark di seguire istruzioni. Troviamo inoltre che la retrotraduzione dei vincoli funge anche da utile obiettivo di allenamento ausiliario nel post-training. Il nostro codice, dati e modelli saranno rilasciati per facilitare la ricerca futura.
I recenti progressi nei Large Language Models (LLM) hanno notevolmente migliorato la loro capacità di elaborare contesti lunghi, tuttavia rimane una significativa lacuna nella generazione di output lunghi e allineati. Questa limitazione deriva da una disparità nella fase di addestramento, in cui la pre-formazione non fornisce istruzioni efficaci per la generazione di testi lunghi, e i dati post-formazione consistono principalmente in brevi coppie domanda-risposta. Approcci attuali, come la retrotraduzione delle istruzioni e l'imitazione del comportamento, affrontano sfide che includono la qualità dei dati, questioni di copyright e vincoli sull'uso di modelli proprietari. In questo articolo, presentiamo un innovativo framework di addestramento iterativo chiamato Self-Lengthen che sfrutta solo la conoscenza intrinseca e le capacità dei LLM senza la necessità di dati ausiliari o modelli proprietari. Il framework è composto da due ruoli: il Generatore e l'Estensore. Il Generatore produce la risposta iniziale, che viene poi divisa ed espansa dall'Estensore. Questo processo porta a una nuova risposta più lunga, che viene utilizzata per addestrare sia il Generatore che l'Estensore in modo iterativo. Attraverso questo processo, i modelli vengono progressivamente addestrati per gestire risposte sempre più lunghe. Gli esperimenti su benchmark e le valutazioni umane mostrano che Self-Lengthen supera i metodi esistenti nella generazione di testi lunghi, quando applicato ai migliori LLM open-source come Qwen2 e LLaMA3. Il nostro codice è disponibile pubblicamente su https://github.com/QwenLM/Self-Lengthen.
Le prestazioni delle reti neurali migliorano quando vengono utilizzati più parametri. Tuttavia, le dimensioni dei modelli sono limitate dalla memoria disponibile sul dispositivo durante l'addestramento e l'inferenza. Anche se l'applicazione di tecniche come la quantizzazione può alleviare il vincolo, queste soffrono di degrado delle prestazioni. In questo lavoro, presentiamo NeuZip, un nuovo schema di compressione dei pesi basato sull'entropia dei numeri in virgola mobile nelle reti neurali. Con NeuZip, siamo in grado di ottenere un addestramento e un'inferenza efficienti in termini di memoria senza sacrificare le prestazioni. In particolare, riduciamo significativamente l'impronta di memoria per l'addestramento di un modello Llama-3 8B da 31GB a meno di 16GB, mantenendo completamente invariata la dinamica di addestramento. Nell'inferenza, il nostro metodo può ridurre l'utilizzo della memoria di più della metà mantenendo prestazioni quasi prive di perdite. Il nostro codice è disponibile pubblicamente.
In questo articolo, dimostriamo che è possibile apprendere rappresentazioni video utili da video sintetici e immagini naturali, senza incorporare video naturali nell'addestramento. Proponiamo una progressione di set di dati video sintetizzati da semplici processi generativi, che modellano un crescente insieme di proprietà video naturali (ad esempio, movimento, accelerazione e trasformazioni della forma). Le prestazioni successive dei modelli video pre-addestrati su questi set di dati generati aumentano gradualmente con la progressione del set di dati. Un modello VideoMAE pre-addestrato sui nostri video sintetici riduce del 97,2% il divario di prestazioni nella classificazione delle azioni UCF101 tra l'addestramento da zero e il pre-addestramento auto-supervisionato da video naturali, e supera il modello pre-addestrato su HMDB51. Introdurre ritagli di immagini statiche nella fase di pre-addestramento porta a prestazioni simili al pre-addestramento UCF101 e supera il modello pre-addestrato su UCF101 in 11 dei 14 set di dati fuori distribuzione di UCF101-P. Analizzando le proprietà a basso livello dei set di dati, identifichiamo correlazioni tra diversità dei frame, similarità dei frame ai dati naturali e prestazioni successive. Il nostro approccio fornisce un'alternativa più controllabile e trasparente ai processi di cura dei dati video per il pre-addestramento.
Numerosi studi hanno valutato l'efficienza dei sistemi di intelligenza artificiale, in particolare dei grandi modelli linguistici (LLM), nel facilitare compiti quotidiani come la scrittura di email, la risposta a domande e la generazione di contenuti creativi. Tuttavia, i ricercatori si trovano di fronte a sfide e opportunità uniche nell'utilizzo dei LLM per il proprio lavoro, come ad esempio lo sviluppo di idee di ricerca, la progettazione di esperimenti e la scrittura o revisione di articoli. In questo studio, presentiamo AAAR-1.0, un dataset di benchmark progettato per valutare le prestazioni dei LLM in tre compiti di ricerca fondamentali e ad alta specializzazione: (i) Inferenza di Equazioni, valutando la correttezza delle equazioni basata sul contesto informativo nei documenti di ricerca; (ii) Progettazione di Esperimenti, progettando esperimenti per convalidare idee e soluzioni di ricerca; (iii) Debolezze dell'Articolo, identificando le debolezze nei documenti di ricerca; e (iv) CRITICA DELLA RECENSIONE, identificando se ciascun segmento nelle recensioni umane è carente o meno. AAAR-1.0 si differenzia dai benchmark precedenti per due motivi fondamentali: innanzitutto, è esplicitamente orientato alla ricerca, con compiti che richiedono una profonda competenza nel settore; in secondo luogo, è orientato al ricercatore, riflettendo le attività principali in cui i ricercatori sono coinvolti quotidianamente. Una valutazione sia dei LLM open-source che proprietari mette in luce il loro potenziale e le limitazioni nel svolgere compiti di ricerca sofisticati. Continueremo a iterare AAAR-1.0 verso nuove versioni.
L'avvento dei grandi modelli linguistici (LLM) ha rivoluzionato le interazioni degli utenti con i sistemi basati sulla conoscenza, consentendo ai chatbot di sintetizzare vaste quantità di informazioni e assistere in compiti complessi ed esplorativi. Tuttavia, i chatbot basati su LLM spesso faticano a fornire supporto personalizzato, specialmente quando gli utenti iniziano con query vaghe o mancano di informazioni contestuali sufficienti. Questo articolo introduce il Collaborative Assistant for Personalized Exploration (CARE), un sistema progettato per potenziare la personalizzazione nei compiti esplorativi combinando un framework LLM multi-agente con un'interfaccia utente strutturata. L'interfaccia di CARE è composta da un Pannello Chat, un Pannello Soluzioni e un Pannello Bisogni, consentendo il raffinamento iterativo delle query e la generazione dinamica delle soluzioni. Il framework multi-agente collabora per identificare i bisogni dell'utente sia espliciti che impliciti, fornendo soluzioni personalizzate e fattibili. In uno studio utente con 22 partecipanti, CARE è stato costantemente preferito rispetto a un chatbot LLM di base, con gli utenti che hanno elogiato la sua capacità di ridurre il carico cognitivo, ispirare la creatività e fornire soluzioni più personalizzate. I nostri risultati evidenziano il potenziale di CARE nel trasformare i sistemi basati su LLM da semplici recuperatori di informazioni passivi a partner proattivi nella risoluzione personalizzata dei problemi e nell'esplorazione.
Il Preallenamento Medico Visione-Linguaggio (MedVLP) mostra promesse nell'apprendimento di rappresentazioni visive generalizzabili e trasferibili da immagini e relazioni mediche accoppiate e non accoppiate. MedVLP può fornire funzionalità utili per compiti successivi e facilitare l'adattamento di modelli specifici del compito a nuove configurazioni utilizzando meno esempi. Tuttavia, i metodi MedVLP esistenti spesso differiscono in termini di set di dati, preelaborazione e implementazioni di raffinamento. Ciò pone grandi sfide nell'valutare quanto bene un metodo MedVLP generalizzi a vari compiti clinicamente rilevanti a causa della mancanza di un benchmark unificato, standardizzato e completo. Per colmare questa lacuna, proponiamo BenchX, un framework di benchmark unificato che consente il confronto diretto e l'analisi sistematica tra i metodi MedVLP utilizzando set di dati pubblici di raggi X del torace. In particolare, BenchX è composto da tre componenti: 1) Set di dati completi che coprono nove set di dati e quattro compiti medici; 2) Suite di benchmark per standardizzare la preelaborazione dei dati, le divisioni di addestramento-test e la selezione dei parametri; 3) Protocolli di raffinamento unificati che permettono l'accomodamento di metodi MedVLP eterogenei per un adattamento coerente del compito nella classificazione, segmentazione e generazione di relazioni, rispettivamente. Utilizzando BenchX, stabiliamo baselines per nove metodi MedVLP all'avanguardia e abbiamo scoperto che le prestazioni di alcuni primi metodi MedVLP possono essere migliorate per superare quelli più recenti, spingendo a rivedere gli sviluppi e le conclusioni dei lavori precedenti in MedVLP. Il nostro codice è disponibile su https://github.com/yangzhou12/BenchX.
Il tracciamento del movimento 3D denso da video monoculari rimane una sfida, specialmente quando si mira alla precisione a livello di pixel su lunghe sequenze. Presentiamo \Approach, un nuovo metodo che traccia efficientemente ogni pixel nello spazio 3D, consentendo una stima accurata del movimento lungo l'intero video. Il nostro approccio sfrutta un meccanismo di attenzione globale-locale congiunto per il tracciamento a risoluzione ridotta, seguito da un upsampler basato su trasformatore per ottenere previsioni ad alta risoluzione. A differenza dei metodi esistenti, limitati dall'inefficienza computazionale o dal tracciamento sparso, \Approach offre un tracciamento 3D denso su larga scala, eseguendo oltre 8 volte più velocemente rispetto ai metodi precedenti pur raggiungendo un'accuratezza all'avanguardia. Inoltre, esploriamo l'impatto della rappresentazione della profondità sulle prestazioni di tracciamento e identifichiamo la log-profondità come scelta ottimale. Estesi esperimenti dimostrano la superiorità di \Approach su più benchmark, ottenendo nuovi risultati all'avanguardia sia nei compiti di tracciamento denso 2D che 3D. Il nostro metodo fornisce una soluzione robusta per applicazioni che richiedono un tracciamento del movimento dettagliato e a lungo termine nello spazio 3D.
Nei contesti reali, è auspicabile che gli agenti incorporati abbiano la capacità di sfruttare il linguaggio umano per acquisire conoscenze esplicite o implicite per compiti di apprendimento. Nonostante i recenti progressi, la maggior parte degli approcci precedenti adotta istruzioni di basso livello come input linguistici, che potrebbero non riflettere la comunicazione umana naturale. Non è chiaro come incorporare un uso ricco del linguaggio per agevolare l'apprendimento dei compiti. Per affrontare questa questione, questo articolo studia diversi tipi di input linguistici nel facilitare gli agenti incorporati di apprendimento per rinforzo (RL). Più specificamente, esaminiamo come diversi livelli di informatività del linguaggio (ovvero, feedback sui comportamenti passati e guida futura) e diversità (ovvero, variazione delle espressioni linguistiche) influenzino l'apprendimento e l'inferenza dell'agente. I nostri risultati empirici basati su quattro benchmark di RL dimostrano che gli agenti addestrati con feedback linguistici diversificati e informativi possono raggiungere una generalizzazione migliorata e un'adattamento rapido a nuovi compiti. Queste scoperte mettono in evidenza il ruolo fondamentale dell'uso del linguaggio nell'insegnare agli agenti incorporati nuovi compiti in un mondo aperto. Sito web del progetto: https://github.com/sled-group/Teachable_RL
Questo articolo investiga un nuovo framework di compressione lossy che opera con una perdita logaritmica, progettato per gestire situazioni in cui la distribuzione di ricostruzione si discosta dalla distribuzione di origine. Questo framework è particolarmente rilevante per applicazioni che richiedono una compressione e un recupero congiunti e in scenari che coinvolgono spostamenti distribuzionali dovuti al processo. Dimostriamo che la formulazione proposta estende il classico framework di accoppiamento di entropia minima integrando un bottleneck, consentendo un grado controllato di stocasticità nell'accoppiamento. Esploriamo la decomposizione del Minimum Entropy Coupling with Bottleneck (MEC-B) in due distinti problemi di ottimizzazione: Entropy-Bounded Information Maximization (EBIM) per l'encoder e Minimum Entropy Coupling (MEC) per il decoder. Attraverso un'ampia analisi, forniamo un algoritmo greedy per EBIM con prestazioni garantite e caratterizziamo la soluzione ottimale vicino a mapping funzionali, offrendo significativi approfondimenti teorici sulla complessità strutturale di questo problema. Inoltre, illustreremo l'applicazione pratica di MEC-B attraverso esperimenti nei Markov Coding Games (MCGs) con limiti di tasso. Questi giochi simulano uno scenario di comunicazione all'interno di un Processo Decisionale di Markov, in cui un agente deve trasmettere un messaggio compresso da un mittente a un destinatario attraverso le proprie azioni. I nostri esperimenti mettono in evidenza i compromessi tra i premi MDP e l'accuratezza del destinatario attraverso vari tassi di compressione, mostrando l'efficacia del nostro metodo rispetto al baseline di compressione convenzionale.
La necessità di grandi corpora testuali è aumentata con l'avvento dei modelli linguistici preaddestrati e, in particolare, la scoperta delle leggi di scala per questi modelli. La maggior parte dei corpora disponibili ha dati sufficienti solo per lingue con grandi comunità dominanti. Tuttavia, non esiste un corpus disponibile che (i) copra una vasta gamma di lingue minoritarie; (ii) sia generato da un pipeline riproducibile open-source; e (iii) sia rigorosamente pulito dal rumore, rendendolo affidabile per l'uso. Presentiamo GlotCC, un corpus generale di 2TB a livello di documento, pulito, derivato da CommonCrawl, che copre più di 1000 lingue. Mettiamo a disposizione della comunità di ricerca GlotCC e il sistema utilizzato per generarlo - inclusi il pipeline, il modello di identificazione della lingua e i filtri. Corpus v. 1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1, Pipeline v. 3.0 https://github.com/cisnlp/GlotCC.