Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Cambrian-1, una famiglia di modelli linguistici multimodali (MLLM) progettati con un approccio centrato sulla visione. Sebbene modelli linguistici più potenti possano potenziare le capacità multimodali, le scelte progettuali per i componenti visivi sono spesso insufficientemente esplorate e disconnesse dalla ricerca sull'apprendimento delle rappresentazioni visive. Questa lacuna ostacola un ancoraggio sensoriale accurato negli scenari del mondo reale. Il nostro studio utilizza MLLM e la messa a punto tramite istruzioni visive come interfaccia per valutare varie rappresentazioni visive, offrendo nuove intuizioni su diversi modelli e architetture — auto-supervisionati, fortemente supervisionati o combinazioni di essi — basandosi su esperimenti con oltre 20 encoder visivi. Esaminiamo criticamente i benchmark MLLM esistenti, affrontando le difficoltà legate alla consolidazione e all'interpretazione dei risultati provenienti da vari compiti, e introduciamo un nuovo benchmark centrato sulla visione, CV-Bench. Per migliorare ulteriormente l'ancoraggio visivo, proponiamo lo Spatial Vision Aggregator (SVA), un connettore dinamico e spazialmente consapevole che integra caratteristiche visive ad alta risoluzione con MLLM riducendo il numero di token. Inoltre, discutiamo la cura di dati di alta qualità per la messa a punto tramite istruzioni visive provenienti da fonti pubbliche, enfatizzando l'importanza del bilanciamento delle fonti di dati e del rapporto di distribuzione. Collettivamente, Cambrian-1 non solo raggiunge prestazioni all'avanguardia, ma funge anche da ricettario completo e aperto per MLLM messi a punto tramite istruzioni. Forniamo pesi del modello, codice, strumenti di supporto, dataset e ricette dettagliate per la messa a punto tramite istruzioni e la valutazione. Speriamo che la nostra pubblicazione possa ispirare e accelerare i progressi nei sistemi multimodali e nell'apprendimento delle rappresentazioni visive.
La generazione personalizzata di immagini offre grandi potenzialità nell'assistere gli esseri umani nel lavoro e nella vita quotidiana grazie alla sua impressionante capacità di creare contenuti personalizzati in modo creativo. Tuttavia, le valutazioni attuali sono o automatizzate ma non allineate con le percezioni umane, o richiedono valutazioni umane che sono dispendiose in termini di tempo e costose. In questo lavoro, presentiamo DreamBench++, un benchmark allineato con le percezioni umane e automatizzato grazie a modelli GPT multimodali avanzati. Nello specifico, progettiamo sistematicamente i prompt per consentire a GPT di essere sia allineato con le percezioni umane che auto-allineato, potenziato con il rinforzo del compito. Inoltre, costruiamo un dataset completo che comprende immagini e prompt diversificati. Valutando 7 modelli generativi moderni, dimostriamo che DreamBench++ produce valutazioni significativamente più allineate con le percezioni umane, contribuendo a stimolare la comunità con risultati innovativi.
L'ingegneria del software automatizzata è stata notevolmente potenziata dai recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) per la programmazione. Sebbene gli attuali benchmark abbiano dimostrato che gli LLM possono eseguire varie attività di ingegneria del software come sviluppatori umani, la maggior parte delle loro valutazioni è limitata a compiti algoritmici brevi e autoconclusivi. Risolvere problemi di programmazione complessi e pratici richiede la capacità di utilizzare diverse chiamate di funzione come strumenti per implementare in modo efficiente funzionalità come l'analisi dei dati e lo sviluppo web. Inoltre, l'uso di più strumenti per risolvere un compito richiede un ragionamento composizionale, comprendendo accuratamente istruzioni complesse. Soddisfare entrambe queste caratteristiche può rappresentare una grande sfida per gli LLM. Per valutare quanto bene gli LLM possano risolvere problemi di programmazione complessi e pratici, introduciamo Bench, un benchmark che mette alla prova gli LLM nell'invocare più chiamate di funzione come strumenti da 139 librerie e 7 domini per 1.140 compiti di programmazione granulari. Per valutare rigorosamente gli LLM, ogni compito di programmazione comprende 5.6 casi di test con una copertura media dei rami del 99%. Inoltre, proponiamo una variante orientata al linguaggio naturale di Bench, Benchi, che trasforma automaticamente le docstring originali in brevi istruzioni contenenti solo le informazioni essenziali. La nostra valutazione estesa di 60 LLM mostra che gli LLM non sono ancora in grado di seguire istruzioni complesse per utilizzare con precisione le chiamate di funzione, con punteggi fino al 60%, significativamente inferiori rispetto alle prestazioni umane del 97%. I risultati sottolineano la necessità di ulteriori progressi in questo ambito.
I modelli di retrieval vengono spesso valutati su dataset parzialmente annotati. Ogni query è associata a pochi testi rilevanti, mentre il resto del corpus è considerato irrilevante. Di conseguenza, i modelli che recuperano con successo falsi negativi vengono penalizzati durante la valutazione. Purtroppo, annotare completamente tutti i testi per ogni query non è efficiente in termini di risorse. In questo lavoro, dimostriamo che l'uso di dataset parzialmente annotati nella valutazione può fornire un quadro distorto. Abbiamo curato D-MERIT, un set di valutazione per il retrieval di passaggi tratti da Wikipedia, con l'obiettivo di includere tutti i passaggi rilevanti per ogni query. Le query descrivono un gruppo (ad esempio, "riviste di linguistica") e i passaggi rilevanti sono prove che le entità appartengono al gruppo (ad esempio, un passaggio che indica che Language è una rivista di linguistica). Mostriamo che valutare su un dataset contenente annotazioni solo per un sottoinsieme dei passaggi rilevanti può portare a una classifica fuorviante dei sistemi di retrieval e che, man mano che vengono inclusi più testi rilevanti nel set di valutazione, le classifiche convergono. Proponiamo il nostro dataset come risorsa per la valutazione e il nostro studio come raccomandazione per bilanciare efficienza delle risorse e valutazione affidabile durante l'annotazione di set di valutazione per il retrieval di testi.
Le sequenze video offrono preziose informazioni temporali, ma gli attuali modelli multimodali di grandi dimensioni (LMM) non sono in grado di comprendere video estremamente lunghi. Molti lavori affrontano questo problema riducendo il numero di token visivi attraverso l'uso di ricampionatori visivi. In alternativa, in questo articolo, affrontiamo il problema dal punto di vista del modello linguistico. Semplicemente estrapolando la lunghezza del contesto del backbone linguistico, permettiamo agli LMM di comprendere un ordine di grandezza in più di token visivi senza alcun addestramento specifico sui video. Chiamiamo questo fenomeno trasferimento di contesto lungo e analizziamo attentamente le sue proprietà. Per misurare efficacemente la capacità degli LMM di generalizzare a contesti lunghi nella modalità visiva, sviluppiamo V-NIAH (Visual Needle-In-A-Haystack), un benchmark sintetico puramente visivo ispirato al test NIAH dei modelli linguistici. Il nostro Long Video Assistant (LongVA) proposto può elaborare 2000 frame o oltre 200K token visivi senza ulteriori complessità. Con la sua lunghezza di contesto estesa, LongVA raggiunge prestazioni all'avanguardia su Video-MME tra i modelli di scala 7B campionando in modo denso un numero maggiore di frame di input. Il nostro lavoro è open-source all'indirizzo https://github.com/EvolvingLMMs-Lab/LongVA.
I modelli di diffusione hanno recentemente ottenuto risultati notevoli nella generazione di video. Nonostante le prestazioni incoraggianti, i video generati sono tipicamente limitati a un numero ridotto di fotogrammi, risultando in clip della durata di pochi secondi. Le principali sfide nella produzione di video più lunghi includono i requisiti di memoria sostanziali e il tempo di elaborazione prolungato richiesto su una singola GPU. Una soluzione diretta sarebbe suddividere il carico di lavoro su più GPU, il che, tuttavia, porta a due problemi: (1) garantire che tutte le GPU comunichino efficacemente per condividere informazioni temporali e contestuali, e (2) modificare i modelli di diffusione video esistenti, che sono solitamente addestrati su sequenze brevi, per creare video più lunghi senza ulteriore addestramento. Per affrontare queste sfide, in questo articolo introduciamo Video-Infinity, una pipeline di inferenza distribuita che consente l'elaborazione parallela su più GPU per la generazione di video di lunga durata. Nello specifico, proponiamo due meccanismi coerenti: Parallelismo dei clip e Attenzione a doppio ambito. Il parallelismo dei clip ottimizza la raccolta e la condivisione di informazioni contestuali tra le GPU, minimizzando l'overhead di comunicazione, mentre l'attenzione a doppio ambito modula l'auto-attenzione temporale per bilanciare in modo efficiente i contesti locali e globali tra i dispositivi. Insieme, i due meccanismi collaborano per distribuire il carico di lavoro e consentire la generazione rapida di video lunghi. In una configurazione con 8 x Nvidia 6000 Ada GPU (48G), il nostro metodo genera video fino a 2.300 fotogrammi in circa 5 minuti, consentendo la generazione di video lunghi a una velocità 100 volte superiore rispetto ai metodi precedenti.
I recenti progressi nei Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno esteso le loro capacità alla comprensione dei video. Tuttavia, questi modelli sono spesso afflitti da "allucinazioni", in cui viene generato contenuto irrilevante o insensato, deviando dal contesto effettivo del video. Questo lavoro introduce VideoHallucer, il primo benchmark completo per il rilevamento delle allucinazioni nei modelli linguistici-video di grande scala (LVLMs). VideoHallucer categorizza le allucinazioni in due tipi principali: intrinseche ed estrinseche, offrendo ulteriori sottocategorie per un'analisi dettagliata, tra cui allucinazioni oggetto-relazione, temporali, dettagli semantici, fatti estrinseci e non-fatti estrinseci. Adottiamo un metodo binario avversariale di VideoQA per una valutazione completa, in cui coppie di domande di base e allucinate vengono create strategicamente. Valutando undici LVLMs su VideoHallucer, riveliamo che i) la maggior parte dei modelli attuali presenta problemi significativi con le allucinazioni; ii) sebbene il ridimensionamento dei dataset e dei parametri migliori la capacità dei modelli di rilevare indizi visivi di base e controfattuali, offre un beneficio limitato per il rilevamento delle allucinazioni fattuali estrinseche; iii) i modelli esistenti sono più abili nel rilevare fatti che nell'identificare allucinazioni. Come sottoprodotto, queste analisi guidano ulteriormente lo sviluppo del nostro framework self-PEP, ottenendo un miglioramento medio del 5,38% nella resistenza alle allucinazioni in tutte le architetture dei modelli.
Il reinforcement learning da feedback umano (RLHF) allinea i grandi modelli linguistici (LLM) incoraggiando le loro generazioni a ottenere ricompense elevate, utilizzando un modello di ricompensa addestrato sulle preferenze umane. Per prevenire la perdita delle conoscenze pre-addestrate, l'RLHF incorpora solitamente una regolarizzazione KL; questo costringe la politica a rimanere vicina alla sua inizializzazione fine-tuned supervisionata, sebbene ostacoli l'ottimizzazione della ricompensa. Per affrontare il compromesso tra KL e ricompensa, in questo articolo introduciamo una nuova strategia di allineamento denominata Weight Averaged Rewarded Policies (WARP). WARP fonde le politiche nello spazio dei pesi in tre fasi distinte. Innanzitutto, utilizza la media mobile esponenziale della politica come ancoraggio dinamico nella regolarizzazione KL. In secondo luogo, applica l'interpolazione sferica per fondere politiche fine-tuned indipendentemente in una nuova politica potenziata. In terzo luogo, esegue un'interpolazione lineare tra questo modello fuso e l'inizializzazione, per recuperare le caratteristiche del pre-addestramento. Questa procedura viene quindi applicata iterativamente, con il modello finale di ogni iterazione utilizzato come inizializzazione avanzata per la successiva, perfezionando progressivamente il fronte Pareto KL-ricompensa e ottenendo ricompense superiori a KL fissi. Esperimenti con politiche GEMMA confermano che WARP migliora la loro qualità e allineamento, superando altri LLM open-source.
L'interesse per i modelli a complessità lineare per i grandi modelli linguistici è in aumento, sebbene la loro capacità di scalabilità rimanga incerta. In questo studio, presentiamo le leggi di scalabilità per i modelli linguistici a complessità lineare, al fine di stabilire una base per la loro scalabilità. Nello specifico, esaminiamo i comportamenti di scalabilità di tre architetture lineari efficienti. Queste includono TNL, un modello di attenzione lineare con decadimento indipendente dai dati; HGRN2, una RNN lineare con decadimento dipendente dai dati; e cosFormer2, un modello di attenzione lineare senza decadimento. Abbiamo incluso anche LLaMA come architettura di riferimento per l'attenzione softmax, a scopo di confronto. Questi modelli sono stati addestrati con sei varianti, che vanno da 70M a 7B di parametri, su un corpus di 300B token, e valutati con un totale di 1.376 checkpoint intermedi su varie attività downstream. Queste attività includono la perdita di validazione, il ragionamento di senso comune e il recupero e la generazione di informazioni. Lo studio rivela che i modelli linguistici a complessità lineare esistenti mostrano capacità di scalabilità simili a quelle dei modelli tradizionali basati su transformer, dimostrando inoltre una superiore competenza linguistica e una migliore ritenzione delle conoscenze.
I modelli linguistici di grandi dimensioni (LLM) hanno rivoluzionato l'elaborazione del linguaggio naturale e ampliato la loro applicabilità in diversi contesti commerciali. Tuttavia, l'implementazione di questi modelli è limitata dagli elevati tempi di inferenza in contesti multilingue. Per mitigare questa sfida, questo articolo esplora una strategia di addestramento di un modello assistente nel decoding speculativo, che viene utilizzato per generare bozze e poi verificarne i token futuri tramite il modello LLM target. Dimostriamo che modelli di bozza specifici per lingua, ottimizzati attraverso una strategia mirata di pre-addestramento e fine-tuning, riducono significativamente i tempi di inferenza rispetto ai metodi precedenti. Validiamo questi modelli in diverse lingue in termini di tempo di inferenza, velocizzazione fuori dominio e valutazione con GPT-4o.
Il pre-training continuo è diventato sempre più l'approccio predominante per adattare i Large Language Models (LLMs) a nuovi domini. Questo processo prevede l'aggiornamento del LLM pre-addestrato con un corpus proveniente da un nuovo dominio, determinando uno spostamento nella distribuzione di addestramento. Per studiare il comportamento dei LLMs durante questo spostamento, abbiamo misurato le prestazioni del modello durante l'intero processo di pre-training continuo. Abbiamo osservato un calo temporaneo delle prestazioni all'inizio, seguito da una fase di recupero, un fenomeno noto come "stabilità gap," precedentemente osservato nei modelli di visione che classificano nuove classi. Per affrontare questo problema e migliorare le prestazioni dei LLMs con un budget computazionale fisso, proponiamo tre strategie efficaci: (1) Eseguire il pre-training continuo del LLM su un sottoinsieme di dimensioni adeguate per più epoche, ottenendo un recupero delle prestazioni più rapido rispetto al pre-training del LLM su un ampio corpus in una singola epoca; (2) Eseguire il pre-training del LLM solo su un sotto-corpus di alta qualità, che migliora rapidamente le prestazioni nel dominio; e (3) Utilizzare una miscela di dati simile ai dati di pre-training per ridurre il divario di distribuzione. Abbiamo condotto vari esperimenti sui modelli della famiglia Llama per validare l'efficacia delle nostre strategie sia nel pre-training continuo medico che nel tuning delle istruzioni. Ad esempio, le nostre strategie migliorano la prestazione media nei compiti medici del modello OpenLlama-3B dal 36,2% al 40,7% utilizzando solo il 40% del budget di addestramento originale e migliorano la prestazione media nei compiti generali senza causare dimenticanza. Inoltre, abbiamo applicato le nostre strategie al modello Llama-3-8B. Il modello risultante, Llama-3-Physician, raggiunge le migliori prestazioni mediche tra i modelli open-source attuali e si comporta in modo comparabile o addirittura migliore rispetto a GPT-4 su diversi benchmark medici. Rilasciamo i nostri modelli su https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct.
Accomodare sequenze lunghe in modo efficiente nei Transformer autoregressivi, specialmente all'interno di una finestra di contesto estesa, presenta sfide significative a causa della complessità computazionale quadratica e dei requisiti di memoria KV sostanziali intrinseci nei meccanismi di self-attention. In questo lavoro, introduciamo SPARSEK Attention, un nuovo meccanismo di attenzione sparsa progettato per superare questi ostacoli computazionali e di memoria mantenendo le prestazioni. Il nostro approccio integra una rete di scoring e un operatore di maschera top-k differenziabile, SPARSEK, per selezionare un numero costante di coppie KV per ogni query, consentendo così l'ottimizzazione basata su gradienti. Di conseguenza, SPARSEK Attention offre una complessità temporale lineare e un'impronta di memoria costante durante la generazione. I risultati sperimentali rivelano che SPARSEK Attention supera i precedenti metodi di attenzione sparsa e fornisce miglioramenti significativi in termini di velocità sia durante l'addestramento che l'inferenza, specialmente nel modellamento del linguaggio e nei task downstream. Inoltre, il nostro metodo può essere integrato senza soluzione di continuità in modelli linguistici di grandi dimensioni (LLM) pre-addestrati con un minimo fine-tuning, offrendo una soluzione pratica per gestire efficacemente le dipendenze a lungo raggio in diverse applicazioni.
Man mano che i modelli linguistici di grandi dimensioni (LLM) permeano sempre più la vita quotidiana, cresce la domanda di interazioni in tempo reale che rispecchino le conversazioni umane. I tradizionali sistemi di chat basati su turni guidati da LLM impediscono agli utenti di interagire verbalmente con il sistema mentre questo sta generando risposte. Per superare queste limitazioni, adattiamo gli LLM esistenti a modelli duplex, in modo che questi LLM possano ascoltare gli utenti mentre generano output e adattarsi dinamicamente per fornire feedback immediati. Nello specifico, dividiamo le query e le risposte delle conversazioni in diverse fette temporali e adottiamo una strategia di codifica-decodifica a divisione temporale (TDM) per elaborare pseudo-simultaneamente queste fette. Inoltre, per rendere gli LLM sufficientemente abili nel gestire conversazioni in tempo reale, costruiamo un dataset di fine-tuning composto da fette temporali alternate di query e risposte, nonché da tipici tipi di feedback nelle interazioni istantanee. I nostri esperimenti dimostrano che, sebbene le query e le risposte delle conversazioni siano segmentate in fette incomplete per l'elaborazione, gli LLM possono preservare le loro prestazioni originali sui benchmark standard con pochi passi di fine-tuning sul nostro dataset. Le valutazioni automatiche e umane indicano che i modelli duplex rendono le interazioni utente-IA più naturali e simili a quelle umane, migliorando notevolmente la soddisfazione degli utenti rispetto ai LLM tradizionali. Il nostro modello duplex e il dataset saranno rilasciati.
Proponiamo le sonde di entropia semantica (SEP), un metodo economico e affidabile per la quantificazione dell'incertezza nei Modelli Linguistici di Grande Scala (LLM). Le allucinazioni, ovvero generazioni del modello plausibili ma fattualmente errate e arbitrarie, rappresentano una sfida significativa per l'adozione pratica degli LLM. Recenti lavori di Farquhar et al. (2024) propongono l'entropia semantica (SE), che può rilevare le allucinazioni stimando l'incertezza nello spazio del significato semantico per un insieme di generazioni del modello. Tuttavia, l'aumento di 5-10 volte del costo computazionale associato al calcolo della SE ne ostacola l'adozione pratica. Per affrontare questo problema, proponiamo le SEP, che approssimano direttamente la SE dagli stati nascosti di una singola generazione. Le SEP sono semplici da addestrare e non richiedono il campionamento di multiple generazioni del modello al momento del test, riducendo il sovraccarico della quantificazione dell'incertezza semantica a quasi zero. Dimostriamo che le SEP mantengono un'elevata performance nel rilevamento delle allucinazioni e generalizzano meglio su dati fuori distribuzione rispetto ai precedenti metodi di probing che predicono direttamente l'accuratezza del modello. I nostri risultati su modelli e task suggeriscono che gli stati nascosti del modello catturano la SE, e i nostri studi di ablazione forniscono ulteriori approfondimenti sulle posizioni dei token e sui livelli del modello per cui ciò avviene.
La detossificazione dei modelli linguistici multilingue di grandi dimensioni (LLM) è diventata cruciale a causa del loro crescente utilizzo globale. In questo lavoro, esploriamo la generalizzazione cross-linguale zero-shot del preference tuning nella detossificazione degli LLM. A differenza di studi precedenti che mostrano una limitata generalizzazione cross-linguale per altre attività di sicurezza, dimostriamo che l'addestramento con Direct Preference Optimization (DPO) utilizzando solo dati in inglese può ridurre significativamente la tossicità nelle generazioni aperte multilingue. Ad esempio, la probabilità che mGPT-1.3B generi continuazioni tossiche scende dal 46,8% al 3,9% in 17 lingue diverse dopo l'addestramento. I nostri risultati si estendono anche ad altri LLM multilingue, come BLOOM, Llama3 e Aya-23. Utilizzando strumenti di interpretabilità meccanicistica come l'intervento causale e l'analisi delle attivazioni, abbiamo identificato la proprietà di dualità multilingue degli strati MLP negli LLM, che spiega la generalizzazione cross-linguale del DPO. Infine, mostriamo che il recupero di frasi bilingue può prevedere la trasferibilità cross-linguale del preference tuning con DPO.
Nonostante il loro ampio utilizzo, i meccanismi attraverso i quali i grandi modelli linguistici (LLM) rappresentano e regolano l'incertezza nelle previsioni del token successivo rimangono in gran parte inesplorati. Questo studio indaga due componenti critiche ritenute influenzare tale incertezza: i neuroni di entropia, scoperti di recente, e un nuovo insieme di componenti che definiamo neuroni di frequenza dei token. I neuroni di entropia sono caratterizzati da una norma dei pesi insolitamente elevata e influenzano la scala di normalizzazione dello strato finale (LayerNorm) per ridurre efficacemente i logit. Il nostro lavoro dimostra che i neuroni di entropia operano scrivendo su uno spazio nullo di de-embedding, consentendo loro di influenzare la norma del flusso residuo con un effetto diretto minimo sui logit stessi. Osserviamo la presenza di neuroni di entropia in una gamma di modelli, fino a 7 miliardi di parametri. D'altra parte, i neuroni di frequenza dei token, che scopriamo e descriviamo qui per la prima volta, aumentano o sopprimono il logit di ciascun token in proporzione alla sua frequenza logaritmica, spostando così la distribuzione dell'output verso o lontano dalla distribuzione unigramma. Infine, presentiamo uno studio di caso dettagliato in cui i neuroni di entropia gestiscono attivamente la fiducia nel contesto dell'induzione, ovvero nel rilevare e continuare sottosequenze ripetute.
Sebbene i Modelli Linguistici di Grande Dimensione (LLM) stiano diventando sempre più potenti, continuano a mostrare debolezze significative ma sottili, come errori nel seguire istruzioni o nello svolgere compiti di programmazione. Poiché questi errori imprevisti potrebbero portare a gravi conseguenze nelle applicazioni pratiche, è cruciale indagare sistematicamente i limiti degli LLM. Gli approcci tradizionali di benchmarking non riescono a individuare in modo approfondito le specifiche carenze dei modelli, mentre le ispezioni manuali sono costose e non scalabili. In questo articolo, introduciamo un framework unificato, AutoDetect, per esporre automaticamente le debolezze degli LLM in vari compiti. Ispirato dal processo di valutazione educativa che misura i risultati di apprendimento degli studenti, AutoDetect è composto da tre agenti basati su LLM: Esaminatore, Interrogatore e Valutatore. La collaborazione tra questi tre agenti è progettata per realizzare un'identificazione completa e approfondita delle debolezze. Il nostro framework dimostra un notevole successo nell'individuare difetti, con un tasso di successo superiore al 30% in modelli di rilievo come ChatGPT e Claude. Ancora più importante, queste debolezze identificate possono guidare miglioramenti specifici del modello, risultando più efficaci rispetto a metodi di aumento dei dati non mirati come Self-Instruct. Il nostro approccio ha portato a sostanziali miglioramenti in LLM popolari, tra cui la serie Llama e Mistral-7b, aumentando le loro prestazioni di oltre il 10% su diversi benchmark. Codice e dati sono disponibili pubblicamente all'indirizzo https://github.com/thu-coai/AutoDetect.
Cosa rende buono un Large Language Model (LLM)? Che performi bene sui benchmark rilevanti, i quali si spera misurino, con una certa validità, la presenza di capacità che vengono messe alla prova anche nelle applicazioni reali. Ma cosa fa sì che il modello performi bene? Cosa conferisce a un modello le sue abilità? Prendiamo un tipo di benchmark introdotto di recente, progettato per mettere alla prova le capacità in un contesto orientato agli obiettivi e agentivo attraverso il self-play di giochi conversazionali, e analizziamo come le prestazioni si sviluppano in funzione delle caratteristiche del modello, come il numero di parametri o il tipo di addestramento. Scopriamo che, sebbene ci sia una chiara relazione tra il numero di parametri e le prestazioni, esiste ancora un'ampia variabilità nei punti di prestazione all'interno di una determinata fascia di dimensioni, che può essere spiegata da parametri di addestramento come la qualità e il metodo dei dati di fine-tuning. Da un punto di vista più pratico, troviamo anche un certo grado di imprevedibilità nelle prestazioni tra i diversi metodi di accesso, probabilmente dovuto a parametri di campionamento non esposti, e una, molto gradita, stabilità delle prestazioni contro almeno una moderata quantizzazione dei pesi durante l'inferenza.
La sintesi di indumenti 3D ad alta fedeltà a partire da testo è desiderabile ma impegnativa per la creazione di avatar digitali. Recenti approcci basati su diffusione tramite Score Distillation Sampling (SDS) hanno aperto nuove possibilità, ma si legano in modo complesso al corpo umano o faticano a essere riutilizzati. Presentiamo ClotheDreamer, un metodo basato su Gaussiane 3D per generare asset di indumenti 3D indossabili e pronti per la produzione a partire da prompt testuali. Proponiamo una nuova rappresentazione chiamata Disentangled Clothe Gaussian Splatting (DCGS) per abilitare un'ottimizzazione separata. DCGS rappresenta l'avatar vestito come un unico modello Gaussiano ma congela le splat Gaussiane del corpo. Per migliorare qualità e completezza, integriamo SDS bidirezionale per supervisionare rispettivamente l'avatar vestito e le renderizzazioni RGBD degli indumenti con condizioni di posa e proponiamo una nuova strategia di potatura per abiti larghi. Il nostro approccio supporta anche modelli di abbigliamento personalizzati come input. Grazie al nostro design, l'indumento 3D sintetico può essere facilmente applicato al virtual try-on e supportare animazioni fisicamente accurate. Esperimenti estensivi dimostrano le prestazioni superiori e competitive del nostro metodo. La pagina del progetto è disponibile all'indirizzo https://ggxxii.github.io/clothedreamer.
L'apprendimento scalabile dei robot nel mondo reale è limitato dai costi e dai problemi di sicurezza legati all'uso di robot fisici. Inoltre, l'esecuzione di traiettorie robotiche nel mondo reale può essere dispendiosa in termini di tempo e di risorse umane. In questo articolo, proponiamo di apprendere un simulatore interattivo di azioni robotiche reali come alternativa. Introduciamo un nuovo metodo, IRASim, che sfrutta la potenza dei modelli generativi per produrre video estremamente realistici di un braccio robotico che esegue una determinata traiettoria di azione, partendo da un fotogramma iniziale fornito. Per validare l'efficacia del nostro metodo, creiamo un nuovo benchmark, IRASim Benchmark, basato su tre dataset di robot reali e conduciamo esperimenti estesi su tale benchmark. I risultati dimostrano che IRASim supera tutti i metodi di riferimento ed è preferito nelle valutazioni umane. Speriamo che IRASim possa rappresentare un approccio efficace e scalabile per migliorare l'apprendimento dei robot nel mondo reale. Per promuovere la ricerca sui simulatori generativi di azioni robotiche reali, rendiamo disponibili in open-source il codice, il benchmark e i checkpoint all'indirizzo https://gen-irasim.github.io.
La comprensione del parlato come elemento della più ampia comprensione video utilizzando modelli linguistici di grandi dimensioni audio-visivi (av-LLM) è un aspetto cruciale ma ancora poco studiato. Questo articolo propone video-SALMONN, un singolo av-LLM end-to-end per l'elaborazione video, in grado di comprendere non solo sequenze di frame visivi, eventi audio e musica, ma anche il parlato. Per ottenere le informazioni temporali dettagliate necessarie per la comprensione del parlato, mantenendo al contempo l'efficienza per altri elementi video, questo articolo propone una nuova struttura multi-risoluzione causale Q-Former (MRC Q-Former) per collegare gli encoder audio-visivi pre-addestrati e il modello linguistico di grandi dimensioni di base. Inoltre, vengono proposte approcci di addestramento dedicati, tra cui la funzione di perdita di diversità e lo schema di addestramento misto audio-visivo non accoppiato, per evitare la dominanza di frame o modalità. Sul benchmark di valutazione audio-visivo con parlato introdotto, video-SALMONN ottiene miglioramenti di accuratezza assoluta superiori al 25% nel task di video-QA e oltre il 30% nei task di QA audio-visivi con parlato umano. Inoltre, video-SALMONN dimostra notevoli capacità di comprensione e ragionamento video su task che non hanno precedenti con altri av-LLM. Il nostro codice di addestramento e i checkpoint del modello sono disponibili all'indirizzo \url{https://github.com/bytedance/SALMONN/}.
I grandi modelli linguistici (LLM), anche quando specificamente addestrati per elaborare contesti di input lunghi, faticano a catturare le informazioni rilevanti situate nel mezzo del loro input. Questo fenomeno è stato definito come il problema del "lost-in-the-middle" (perduto nel mezzo). In questo lavoro, forniamo tre contributi. Innanzitutto, ci proponiamo di comprendere i fattori che causano questo fenomeno. Nel farlo, stabiliamo una connessione tra il "lost-in-the-middle" e il bias intrinseco di attenzione degli LLM: gli LLM mostrano un bias di attenzione a forma di U, in cui i token all'inizio e alla fine del loro input ricevono un'attenzione maggiore, indipendentemente dalla loro rilevanza. In secondo luogo, mitigiamo questo bias posizionale attraverso un meccanismo di calibrazione, chiamato "found-in-the-middle" (trovato nel mezzo), che consente al modello di prestare attenzione ai contesti in modo fedele alla loro rilevanza, anche quando si trovano nel mezzo. In terzo luogo, dimostriamo che il "found-in-the-middle" non solo ottiene prestazioni migliori nel localizzare informazioni rilevanti all'interno di un contesto lungo, ma porta anche a un miglioramento delle prestazioni nella generazione aumentata dal recupero (RAG) in vari compiti, superando i metodi esistenti fino a 15 punti percentuali. Questi risultati aprono nuove direzioni future per comprendere il bias di attenzione degli LLM e le sue potenziali conseguenze.
Nonostante i recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM), le loro prestazioni in compiti che coinvolgono contesti lunghi rimangono subottimali. L'Apprendimento In-Contesto (In-Context Learning, ICL) con esempi few-shot potrebbe rappresentare una soluzione interessante per migliorare le prestazioni degli LLM in questo scenario; tuttavia, l'aggiunta ingenua di esempi ICL con contesti lunghi introduce diverse sfide, tra cui un sovraccarico significativo di token per ogni esempio few-shot e una mancata corrispondenza tra il contesto delle dimostrazioni e la query target. In questo lavoro, proponiamo di generare automaticamente esempi few-shot per compiti di QA (Question Answering) con contesti lunghi riciclando i contesti stessi. Nello specifico, dato un contesto di input lungo (1-3k token) e una query, generiamo ulteriori coppie query-risposta dal contesto fornito come esempi few-shot, introducendo il contesto una sola volta. Ciò garantisce che le dimostrazioni sfruttino lo stesso contesto della query target, aggiungendo solo un numero ridotto di token al prompt. Miglioriamo ulteriormente ogni dimostrazione istruendo il modello a identificare esplicitamente i paragrafi rilevanti prima della risposta, il che migliora le prestazioni fornendo un'attribuzione granulare alla fonte della risposta. Applichiamo il nostro metodo su più LLM e otteniamo miglioramenti sostanziali (+23\% in media tra i modelli) su vari dataset di QA con contesti lunghi, specialmente quando la risposta si trova nella parte centrale del contesto. Sorprendentemente, nonostante l'introduzione di soli esempi ICL a singolo salto (single-hop), gli LLM generalizzano con successo anche a QA multi-salto (multi-hop) con contesti lunghi utilizzando il nostro approccio.
Il campionamento per distillazione del punteggio è stato fondamentale per integrare i modelli di diffusione nella generazione di visuali complesse. Nonostante i risultati impressionanti, soffre di collasso modale e mancanza di diversità. Per affrontare questa sfida, sfruttiamo l'interpretazione del flusso del gradiente della distillazione del punteggio per proporre la Distillazione del Punteggio Repulsiva (RSD). In particolare, proponiamo un framework variazionale basato sulla repulsione di un insieme di particelle che promuove la diversità. Utilizzando un'approssimazione variazionale che incorpora un accoppiamento tra le particelle, la repulsione appare come una semplice regolarizzazione che consente l'interazione delle particelle in base alla loro somiglianza reciproca a coppie, misurata ad esempio tramite kernel a base radiale. Progettiamo RSD sia per scenari di campionamento non vincolati che vincolati. Per il campionamento vincolato ci concentriamo su problemi inversi nello spazio latente che portano a una formulazione variazionale aumentata, che raggiunge un buon equilibrio tra calcolo, qualità e diversità. I nostri ampi esperimenti per la generazione di immagini da testo e per problemi inversi dimostrano che RSD raggiunge un compromesso superiore tra diversità e qualità rispetto alle alternative state-of-the-art.
In questo rapporto, ci poniamo la seguente domanda: Qual è il modello di IA più intelligente fino ad oggi, misurato tramite OlympicArena (un benchmark di livello olimpico, multidisciplinare e multimodale per l'IA superintelligente)? Ci concentriamo specificamente sui modelli rilasciati più di recente: Claude-3.5-Sonnet, Gemini-1.5-Pro e GPT-4o. Per la prima volta, proponiamo di utilizzare un approccio basato sulla classifica delle medaglie olimpiche per ordinare i modelli di IA in base alle loro prestazioni complessive in varie discipline. I risultati empirici rivelano: (1) Claude-3.5-Sonnet mostra prestazioni complessive altamente competitive rispetto a GPT-4o, superandolo persino in alcune materie (ad esempio Fisica, Chimica e Biologia). (2) Gemini-1.5-Pro e GPT-4V si posizionano consecutivamente appena dietro GPT-4o e Claude-3.5-Sonnet, ma con un evidente divario di prestazioni tra di loro. (3) Le prestazioni dei modelli di IA della comunità open-source sono significativamente inferiori rispetto a questi modelli proprietari. (4) Le prestazioni di questi modelli su questo benchmark sono state meno che soddisfacenti, indicando che abbiamo ancora molta strada da fare prima di raggiungere la superintelligenza. Rimangiamo impegnati a monitorare e valutare continuamente le prestazioni degli ultimi modelli potenti su questo benchmark (disponibile su https://github.com/GAIR-NLP/OlympicArena).