Articoli di ricerca IA selezionati quotidianamente con traduzioni
Le informazioni arrivano in diverse modalità. I modelli AI nativi multimodali sono essenziali per integrare informazioni del mondo reale e fornire una comprensione completa. Sebbene esistano modelli nativi multimodali proprietari, la loro mancanza di apertura impone ostacoli all'adozione, figuriamoci all'adattamento. Per colmare questa lacuna, presentiamo Aria, un modello nativo multimodale aperto con prestazioni di primo livello su un'ampia gamma di compiti multimodali, linguistici e di codifica. Aria è un modello a miscela di esperti con 3,9 miliardi e 3,5 miliardi di parametri attivati per token visivo e token di testo, rispettivamente. Supera Pixtral-12B e Llama3.2-11B ed è competitivo rispetto ai migliori modelli proprietari su vari compiti multimodali. Pre-alleniamo Aria da zero seguendo un pipeline a 4 fasi, che progressivamente dota il modello di forti capacità nella comprensione del linguaggio, nella comprensione multimodale, nella finestra di contesto lunga e nel seguire le istruzioni. Mettiamo a disposizione i pesi del modello insieme a una base di codice che facilita l'adozione e l'adattamento di Aria in applicazioni del mondo reale.
I Large Language Models (LLM) mostrano un significativo potenziale nelle interazioni economiche e strategiche, dove la comunicazione tramite linguaggio naturale è spesso predominante. Ciò solleva domande chiave: Gli LLM si comportano in modo razionale? Possono imitare il comportamento umano? Tendono a raggiungere un risultato efficiente e equo? Qual è il ruolo del linguaggio naturale nell'interazione strategica? Come influenzano queste dinamiche le caratteristiche dell'ambiente economico? Queste domande diventano cruciali per le implicazioni economiche e sociali dell'integrazione di agenti basati su LLM in sistemi basati su dati del mondo reale, come piattaforme di vendita online e sistemi di raccomandazione. Mentre la comunità di ML sta esplorando il potenziale degli LLM in tali configurazioni multi-agente, varie assunzioni, scelte progettuali e criteri di valutazione tra gli studi rendono difficile trarre conclusioni robuste e significative. Per affrontare questo problema, introduciamo un benchmark per standardizzare la ricerca su giochi basati su linguaggio sequenziali a due giocatori. Ispirati alla letteratura economica, definiamo tre famiglie di giochi di base con parametrizzazione coerente, gradi di libertà e misure economiche per valutare le prestazioni degli agenti (auto-guadagno), nonché l'esito del gioco (efficienza ed equità). Sviluppiamo un framework open-source per la simulazione e l'analisi dell'interazione, e lo utilizziamo per raccogliere un dataset di interazioni LLM vs. LLM attraverso numerose configurazioni di gioco e un dataset aggiuntivo di interazioni umane vs. LLM. Attraverso un'ampia sperimentazione, dimostriamo come il nostro framework e dataset possano essere utilizzati per: (i) confrontare il comportamento degli agenti basati su LLM con i giocatori umani in vari contesti economici; (ii) valutare gli agenti sia in misure di prestazioni individuali che collettive; e (iii) quantificare l'effetto delle caratteristiche economiche degli ambienti sul comportamento degli agenti.
I recenti progressi nei modelli di linguaggio multimodali di grandi dimensioni (MLLM) hanno dimostrato significativi avanzamenti; tuttavia, tali modelli presentano una nota limitazione, che definiamo "cecità facciale". In particolare, essi sono in grado di sostenere conversazioni generiche ma falliscono nel condurre dialoghi personalizzati mirati a individui specifici. Questa carenza ostacola l'applicazione dei MLLM in contesti personalizzati, come assistenti visivi personalizzati su dispositivi mobili o robot domestici che devono riconoscere i membri della famiglia. In questo articolo, presentiamo Personalized Visual Instruction Tuning (PVIT), un nuovo framework di cura e addestramento dei dati progettato per consentire ai MLLM di identificare individui target all'interno di un'immagine e sostenere dialoghi personalizzati e coerenti. Il nostro approccio prevede lo sviluppo di un sofisticato processo che genera autonomamente dati di addestramento contenenti conversazioni personalizzate. Questo processo sfrutta le capacità di vari esperti visivi, modelli di generazione di immagini e modelli di linguaggio di grandi dimensioni (multimodali). Per valutare il potenziale personalizzato dei MLLM, presentiamo un benchmark chiamato P-Bench, che include vari tipi di domande con diversi livelli di difficoltà. Gli esperimenti dimostrano un notevole miglioramento delle prestazioni personalizzate dopo il fine-tuning con il nostro dataset curato.
Introduciamo Pixtral-12B, un modello linguistico multimodale con 12 miliardi di parametri. Pixtral-12B è addestrato per comprendere sia immagini naturali che documenti, ottenendo prestazioni di primo piano su vari benchmark multimodali, superando diversi modelli più grandi. A differenza di molti modelli open-source, Pixtral è anche un modello di testo all'avanguardia per le sue dimensioni e non compromette le prestazioni del linguaggio naturale per eccellere nei compiti multimodali. Pixtral utilizza un nuovo codificatore visivo addestrato da zero, che gli consente di elaborare immagini alla loro risoluzione e rapporto di aspetto naturali. Ciò offre agli utenti flessibilità sul numero di token utilizzati per elaborare un'immagine. Pixtral è in grado di elaborare qualsiasi numero di immagini nella sua finestra di contesto lunga di 128K token. Pixtral 12B supera notevolmente altri modelli aperti di dimensioni simili (Llama-3.2 11B e Qwen-2-VL 7B). Supera anche modelli aperti molto più grandi come Llama-3.2 90B pur essendo 7 volte più piccolo. Contribuiamo inoltre con un benchmark open-source, MM-MT-Bench, per valutare i modelli visione-linguaggio in scenari pratici e forniamo un'analisi dettagliata e codice per protocolli di valutazione standardizzati per i LLM multimodali. Pixtral-12B è rilasciato con licenza Apache 2.0.
Questo articolo presenta F5-TTS, un sistema di text-to-speech completamente non autoregressivo basato sull'abbinamento di flussi con il Diffusion Transformer (DiT). Senza richiedere progettazioni complesse come un modello di durata, un codificatore di testo e un allineamento fonemico, l'input di testo viene semplicemente riempito con token di riempimento alla stessa lunghezza dell'input vocale, e quindi viene eseguita la denoising per la generazione del parlato, che è stata originariamente dimostrata fattibile da E2 TTS. Tuttavia, il design originale di E2 TTS rende difficile il suo seguito a causa della sua lenta convergenza e bassa robustezza. Per affrontare questi problemi, modelliamo prima l'input con ConvNeXt per perfezionare la rappresentazione del testo, rendendola facile da allineare con il parlato. Proponiamo inoltre una strategia di campionamento Sway durante l'inferenza, che migliora significativamente le prestazioni e l'efficienza del nostro modello. Questa strategia di campionamento per il passaggio di flusso può essere facilmente applicata ai modelli esistenti basati sull'abbinamento di flussi senza necessità di riallenamento. Il nostro design consente una formazione più rapida e raggiunge un RTF di inferenza di 0,15, che è notevolmente migliorato rispetto ai modelli TTS basati sulla diffusione più avanzati. Addestrato su un dataset multilingue pubblico di 100.000 ore, il nostro Fairytaler Fakes Fluent and Faithful speech with Flow matching (F5-TTS) mostra un'abilità zero-shot altamente naturale ed espressiva, una capacità di cambio di codice senza soluzione di continuità e un'efficienza nel controllo della velocità. Campioni dimostrativi sono disponibili su https://SWivid.github.io/F5-TTS. Rilasciamo tutto il codice e i checkpoint per promuovere lo sviluppo della comunità.
I modelli di testo-video (T2V) come Sora hanno compiuto progressi significativi nella visualizzazione di prompt complessi, che viene sempre più considerata come una via promettente verso la costruzione del simulatore universale del mondo. Gli psicologi cognitivi ritengono che la base per raggiungere questo obiettivo sia la capacità di comprendere la fisica intuitiva. Tuttavia, la capacità di questi modelli di rappresentare con precisione la fisica intuitiva rimane in gran parte inesplorata. Per colmare questa lacuna, presentiamo PhyGenBench, un completo Benchmark di Generazione della Fisica progettato per valutare la correttezza del senso comune fisico nella generazione T2V. PhyGenBench comprende 160 prompt attentamente elaborati attraverso 27 leggi fisiche distinte, che coprono quattro domini fondamentali, in grado di valutare in modo esaustivo la comprensione dei modelli del senso comune fisico. Insieme a PhyGenBench, proponiamo un nuovo framework di valutazione chiamato PhyGenEval. Questo framework utilizza una struttura di valutazione gerarchica che impiega modelli avanzati di visione-linguaggio e grandi modelli linguistici per valutare il senso comune fisico. Attraverso PhyGenBench e PhyGenEval, possiamo condurre valutazioni automatizzate su larga scala della comprensione del senso comune fisico da parte dei modelli T2V, che si allineano strettamente al feedback umano. I nostri risultati di valutazione e l'analisi approfondita dimostrano che i modelli attuali faticano a generare video conformi al senso comune fisico. Inoltre, semplicemente aumentare le dimensioni dei modelli o impiegare tecniche di ingegneria dei prompt non è sufficiente per affrontare appieno le sfide presentate da PhyGenBench (ad esempio, scenari dinamici). Speriamo che questo studio ispiri la comunità a dare priorità all'apprendimento del senso comune fisico in questi modelli al di là delle applicazioni di intrattenimento. Rilasceremo i dati e i codici su https://github.com/OpenGVLab/PhyGenBench.
Modelli avanzati di diffusione come RPG, Stable Diffusion 3 e FLUX hanno compiuto progressi significativi nella generazione testo-immagine composita. Tuttavia, questi metodi mostrano tipicamente punti di forza distinti per la generazione composita, con alcuni che eccellono nel gestire il legame degli attributi e altri nelle relazioni spaziali. Questa disparità sottolinea la necessità di un approccio che possa sfruttare i punti di forza complementari di vari modelli per migliorare in modo completo la capacità compositiva. A questo scopo, presentiamo IterComp, un nuovo framework che aggrega le preferenze dei modelli consapevoli della composizione da modelli multipli e utilizza un approccio di apprendimento a feedback iterativo per migliorare la generazione compositiva. In particolare, curiamo una galleria di sei potenti modelli di diffusione open-source e valutiamo i loro tre principali metriche compositive: legame degli attributi, relazioni spaziali e relazioni non spaziali. Sulla base di queste metriche, sviluppiamo un dataset di preferenze di modelli consapevoli della composizione che comprende numerose coppie di immagini-rango per addestrare modelli di reward consapevoli della composizione. Successivamente, proponiamo un metodo di apprendimento a feedback iterativo per migliorare la composizione in modo circolare, consentendo il progressivo auto-raffinamento sia del modello di diffusione di base che dei modelli di reward attraverso molteplici iterazioni. Una dimostrazione teorica ne attesta l'efficacia e ampi esperimenti mostrano la nostra significativa superiorità rispetto ai precedenti metodi SOTA (ad esempio, Omost e FLUX), in particolare nella composizione di oggetti multi-categoria e nell'allineamento semantico complesso. IterComp apre nuove vie di ricerca nell'apprendimento a feedback di reward per i modelli di diffusione e nella generazione compositiva. Codice: https://github.com/YangLing0818/IterComp
La generazione di video richiede la modellazione di un vasto spazio spaziotemporale, che richiede significativi risorse computazionali e utilizzo dei dati. Per ridurre la complessità, gli approcci prevalenti impiegano un'architettura a cascata per evitare l'addestramento diretto con risoluzione completa. Nonostante la riduzione delle richieste computazionali, l'ottimizzazione separata di ciascuna sotto-fase ostacola la condivisione delle conoscenze e sacrifica la flessibilità. Questo lavoro introduce un algoritmo unificato di corrispondenza di flusso piramidale. Rinterpreta la traiettoria originale di denoising come una serie di fasi piramidali, in cui solo la fase finale opera a piena risoluzione, consentendo così una modellazione generativa di video più efficiente. Attraverso il nostro sofisticato design, i flussi delle diverse fasi piramidali possono essere interconnessi per mantenere la continuità. Inoltre, progettiamo la generazione di video autoregressiva con una piramide temporale per comprimere la storia a piena risoluzione. L'intero framework può essere ottimizzato in modo end-to-end e con un singolo Diffusion Transformer (DiT) unificato. Estesi esperimenti dimostrano che il nostro metodo supporta la generazione di video di alta qualità di 5 secondi (fino a 10 secondi) a una risoluzione di 768p e 24 FPS entro 20,7k ore di addestramento GPU A100. Tutto il codice e i modelli saranno resi open-source su https://pyramid-flow.github.io.
Presentiamo il Tasso di Integrazione delle Modalità (MIR), una metrica efficace, robusta e generalizzata per indicare la qualità del pre-training multi-modale dei Grandi Modelli di Linguaggio Visivo (LVLMs). Il pre-training su larga scala svolge un ruolo critico nella costruzione di LVLMs capaci, mentre valutare la qualità del suo addestramento senza la costosa fase di fine-tuning supervisionato è poco esplorato. Per i Grandi Modelli di Linguaggio (LLMs), la perdita, la perplessità e i risultati di valutazione in contesto sono metriche comuni di pre-training, ma abbiamo osservato che queste metriche sono meno indicative quando si allinea un LLM ben addestrato con una nuova modalità. A causa della mancanza di metriche adeguate, la ricerca sui LVLMs nella fase critica di pre-training è fortemente ostacolata, inclusa la scelta dei dati di addestramento, il design efficiente dei moduli, ecc. In questo articolo, proponiamo di valutare la qualità del pre-training dal punto di vista della distanza della distribuzione inter-modale e presentiamo il MIR, il Tasso di Integrazione delle Modalità, che è 1) Efficace per rappresentare la qualità del pre-training e mostrare una relazione positiva con le prestazioni di riferimento dopo il fine-tuning supervisionato. 2) Robusto rispetto a diversi dati di addestramento/valutazione. 3) Generalizzabile attraverso configurazioni di addestramento e scelte di architettura diverse. Conduciamo una serie di esperimenti di pre-training per esplorare l'efficacia del MIR e osserviamo risultati soddisfacenti che indicano che il MIR è indicativo riguardo alla selezione dei dati di addestramento, alla pianificazione della strategia di addestramento e al design dell'architettura del modello per ottenere migliori risultati di pre-training. Speriamo che il MIR possa essere una metrica utile per la costruzione di LVLMs capaci e ispirare la successiva ricerca sull'allineamento delle modalità in diverse aree. Il nostro codice è disponibile su: https://github.com/shikiw/Modality-Integration-Rate.
Questo articolo approfondisce l'interazione tra le strutture di visione e gli ottimizzatori, rivelando un fenomeno interdipendente denominato \textbf{bias di accoppiamento tra struttura e ottimizzatore} (BOCB). Osserviamo che le CNN canoniche, come VGG e ResNet, mostrano una marcata interdipendenza con le famiglie di SGD, mentre architetture recenti come ViTs e ConvNeXt condividono un forte accoppiamento con quelli che utilizzano un tasso di apprendimento adattivo. Mostriamo inoltre che il BOCB può essere introdotto sia dagli ottimizzatori che da determinate progettazioni di struttura e può influenzare significativamente il pre-training e il fine-tuning successivo dei modelli di visione. Attraverso un'approfondita analisi empirica, riassumiamo le lezioni apprese sugli ottimizzatori consigliati e sulle intuizioni sulle robuste architetture di base per la visione. Speriamo che questo lavoro possa ispirare la comunità a mettere in discussione le assunzioni consolidate sulle strutture e sugli ottimizzatori, stimolare ulteriori esplorazioni e contribuire così a sistemi di visione più robusti. Il codice sorgente e i modelli sono disponibili pubblicamente su https://bocb-ai.github.io/.
In questo rapporto tecnico, presentiamo Falcon Mamba 7B, un nuovo modello di linguaggio di base di grandi dimensioni basato sulla nuova architettura Mamba. Falcon Mamba 7B è stato addestrato su 5,8 trilioni di token con miscele di dati accuratamente selezionate. Come modello basato esclusivamente su Mamba, Falcon Mamba 7B supera i principali modelli open-weight basati su Transformers, come Mistral 7B, Llama3.1 8B e Falcon2 11B. È alla pari con Gemma 7B e supera i modelli con diverse architetture, come RecurrentGemma 9B e RWKV-v6 Finch 7B/14B. Attualmente, Falcon Mamba 7B è il modello Mamba di maggior successo nella letteratura a questa scala, superando sia i modelli esistenti Mamba che i modelli ibridi Mamba-Transformer, secondo la classifica Open LLM Leaderboard. Grazie alla sua architettura, Falcon Mamba 7B è significativamente più veloce nell'inferenza e richiede notevolmente meno memoria per la generazione di sequenze lunghe. Nonostante recenti studi suggeriscano che i modelli ibridi Mamba-Transformer superino i design di architettura pura, dimostriamo che anche il design puro di Mamba può ottenere risultati simili, o addirittura superiori, rispetto ai design di Transformer e ibridi. Mettiamo a disposizione pubblicamente i pesi della nostra implementazione di Falcon Mamba 7B su https://huggingface.co/tiiuae/falcon-mamba-7b, con una licenza permissiva.
Questa ricerca mira a esplorare in modo esaustivo la costruzione di un modello fondamentale multimodale per la comprensione dei video egocentrici. Per raggiungere questo obiettivo, lavoriamo su tre fronti. In primo luogo, poiché mancano dati di domande e risposte per la comprensione dei video egocentrici, sviluppiamo un motore di dati che genera in modo efficiente 7 milioni di campioni di domande e risposte di alta qualità per video egocentrici della durata di 30 secondi fino a un'ora, basandoci su dati annotati da umani. Attualmente, questo è il dataset di domande e risposte egocentrico più grande. In secondo luogo, contribuiamo con un banco di prova sfidante di domande e risposte egocentriche con 629 video e 7.026 domande per valutare l'abilità dei modelli nel riconoscere e memorizzare dettagli visivi attraverso video di varie lunghezze. Introduciamo un nuovo metodo di valutazione per la correzione dei bias per aiutare a mitigare il bias linguistico inevitabile presente nei modelli in fase di valutazione. In terzo luogo, proponiamo un'architettura multimodale specializzata che include un innovativo meccanismo di "Memory Pointer Prompting". Questo design comprende un passaggio di visione globale per ottenere una comprensione generale dell'intero video e identificare le informazioni visive chiave, seguito da un passaggio di fallback che utilizza le informazioni visive chiave per generare risposte. Questo consente al modello di comprendere in modo più efficace i contenuti video estesi. Con i dati, il banco di prova e il modello, costruiamo con successo MM-Ego, un LLM multimodale egocentrico che mostra prestazioni potenti nella comprensione dei video egocentrici.
La visualizzazione di storie, il compito di generare immagini coerenti basate su una narrazione, ha visto significativi progressi con l'emergere dei modelli testo-immagine, in particolare dei modelli a diffusione. Tuttavia, mantenere coerenza semantica, generare interazioni di alta qualità dettagliate e garantire fattibilità computazionale rimangono sfide, specialmente nella visualizzazione di storie lunghe (cioè, fino a 100 fotogrammi). In questo lavoro, proponiamo un framework efficiente dal punto di vista computazionale e privo di addestramento, denominato Story-Adapter, per potenziare la capacità generativa di storie lunghe. In particolare, proponiamo un paradigma iterativo per perfezionare ciascuna immagine generata, sfruttando sia il prompt di testo che tutte le immagini generate dall'iterazione precedente. Al centro del nostro framework c'è un modulo di cross-attenzione globale di riferimento senza addestramento, che aggrega tutte le immagini generate dall'iterazione precedente per preservare la coerenza semantica lungo l'intera storia, riducendo al minimo i costi computazionali con embedding globali. Questo processo iterativo ottimizza progressivamente la generazione di immagini incorporando ripetutamente vincoli di testo, risultando in interazioni più precise e dettagliate. Estesi esperimenti convalidano la superiorità di Story-Adapter nel migliorare sia la coerenza semantica che la capacità generativa per interazioni dettagliate, in particolare in scenari di storie lunghe. La pagina del progetto e il codice associato sono accessibili tramite https://jwmao1.github.io/storyadapter.
Attraverso l'allineamento con le preferenze umane, i Grandi Modelli Linguistici (LLM) hanno fatto progressi significativi nella generazione di risposte oneste, innocue e utili. Tuttavia, raccogliere dati di preferenza di alta qualità è un processo intensivo in risorse e richiedente creatività, specialmente per il miglioramento continuo dei LLM. Presentiamo SynPO, un paradigma di auto-miglioramento che sfrutta dati di preferenza sintetici per l'allineamento del modello. SynPO impiega un meccanismo iterativo in cui un generatore di auto-promemoria crea promemorie diverse, e un miglioratore di risposta affina progressivamente le risposte del modello. Questo approccio addestra i LLM a imparare autonomamente i premi generativi per le proprie uscite ed elimina la necessità di un'annotazione su larga scala di promemorie e preferenze umane. Dopo quattro iterazioni di SynPO, Llama3-8B e Mistral-7B mostrano miglioramenti significativi nelle capacità di seguire istruzioni, ottenendo oltre il 22,1% di miglioramenti nel tasso di vittoria su AlpacaEval 2.0 e ArenaHard. Allo stesso tempo, SynPO migliora le prestazioni generali dei LLM su varie attività, convalidato da un aumento del punteggio medio da 3,2 a 5,0 sulla ben nota classifica Open LLM.
I modelli fondamentali (FMs) vengono preaddestrati su dataset su larga scala e successivamente raffinati su un compito downstream per una specifica applicazione. Il metodo di raffinamento più riuscito e comunemente utilizzato consiste nell'aggiornare i pesi preaddestrati tramite un'adattazione a basso rango (LoRA). LoRA introduce nuove matrici dei pesi di solito inizializzate casualmente con una distribuzione di rango uniforme tra i pesi del modello. Lavori recenti si concentrano sull'inizializzazione guidata dai pesi o sull'apprendimento dei ranghi adattivi durante l'addestramento. Entrambi gli approcci sono stati indagati in modo isolato, portando a una convergenza lenta o a una distribuzione di rango uniforme, con conseguente performance subottimali. Proponiamo di potenziare LoRA inizializzando i nuovi pesi in modo guidato dai dati calcolando la decomposizione ai valori singolari su minibatch di vettori di attivazione. Successivamente, inizializziamo le matrici LoRA con i vettori singolari destri ottenuti e ridistribuiamo i ranghi tra tutte le matrici dei pesi per spiegare la massima quantità di varianza e proseguire con la procedura standard di raffinamento LoRA. Ciò porta alla creazione del nostro nuovo metodo di Adattamento della Varianza Spiegata (EVA). Applichiamo EVA a una varietà di compiti di raffinamento che vanno dalla generazione e comprensione del linguaggio alla classificazione delle immagini e al reinforcement learning. EVA mostra una convergenza più rapida rispetto ai concorrenti e raggiunge il punteggio medio più alto in una moltitudine di compiti per dominio.
In questo articolo, ci concentriamo sull'ottimizzazione di un modello testo-video (T2V) basato sulla diffusione durante la fase di post-training mediante l'estrazione di un modello di coerenza altamente capace da un modello T2V preaddestrato. Il nostro metodo proposto, T2V-Turbo-v2, introduce un significativo progresso integrando vari segnali di supervisione, inclusi dati di addestramento di alta qualità, feedback del modello di ricompensa e guida condizionale, nel processo di distillazione della coerenza. Attraverso approfonditi studi di ablazione, mettiamo in evidenza l'importanza cruciale dell'adattamento dei dataset agli obiettivi di apprendimento specifici e l'efficacia dell'apprendimento da diversi modelli di ricompensa per migliorare sia la qualità visiva che l'allineamento testo-video. Inoltre, evidenziamo l'ampio spazio di progettazione delle strategie di guida condizionale, che si concentra sulla progettazione di una funzione energetica efficace per potenziare il risolutore ODE dell'insegnante. Dimostriamo il potenziale di questo approccio estraendo la guida del movimento dai dataset di addestramento e incorporandola nel risolutore ODE, mostrando la sua efficacia nel migliorare la qualità del movimento dei video generati con le metriche migliorate relative al movimento di VBench e T2V-CompBench. Empiricamente, il nostro T2V-Turbo-v2 stabilisce un nuovo risultato di stato dell'arte su VBench, con un punteggio totale di 85,13, superando sistemi proprietari come Gen-3 e Kling.
I modelli linguistici di grandi dimensioni sono stati applicati con successo a compiti di assistenza alla programmazione, come il completamento del codice, l'inserimento del codice e la modifica istruzionale del codice. Tuttavia, queste applicazioni rimangono insufficientemente automatizzate e faticano ad integrare efficacemente vari tipi di informazioni durante il processo di programmazione, tra cui la storia del codice, il codice attuale e le istruzioni dell'utente. In questo lavoro, proponiamo un nuovo quadro conversazionale che integra in modo esaustivo queste fonti di informazione, raccogliamo dati per addestrare i nostri modelli ed valutarne le prestazioni. In primo luogo, per valutare approfonditamente quanto bene i modelli si allineano con diversi tipi di informazioni e la qualità delle loro uscite, introduciamo un nuovo benchmark, APEval (Assist Programming Eval), per valutare in modo esaustivo le prestazioni dei modelli nei compiti di assistenza alla programmazione. Successivamente, per la raccolta dei dati, sviluppiamo un flusso di generazione dei dati, Programming-Instruct, che sintetizza dati di addestramento da fonti diverse, come GitHub e piattaforme di giudizio online. Questo flusso può generare automaticamente vari tipi di messaggi durante il processo di programmazione. Infine, utilizzando questo flusso, generiamo 219K campioni, ottimizziamo diversi modelli e sviluppiamo la serie CursorCore. Dimostriamo che CursorCore supera altri modelli di dimensioni comparabili. Questo quadro unifica applicazioni come la chat in linea e la modifica automatizzata, contribuendo all'avanzamento degli assistenti di codifica. Codice, modelli e dati sono liberamente disponibili su https://github.com/TechxGenus/CursorCore.
I Video Large Language Models (Video LLM) hanno dimostrato capacità promettenti nella comprensione dei video, tuttavia faticano nel tracciare i cambiamenti temporali e nel ragionare sulle relazioni temporali. Mentre ricerche precedenti attribuivano questa limitazione alla codifica temporale inefficace degli input visivi, il nostro studio diagnostico rivela che le rappresentazioni video contengono informazioni sufficienti affinché anche piccoli classificatori di sondaggio raggiungano un'accuratezza perfetta. Sorprendentemente, scopriamo che il principale ostacolo nella capacità di ragionamento temporale dei Video LLM deriva dalla difficoltà intrinseca dell'LLM sottostante con i concetti temporali, come dimostrato dalle scarse prestazioni nei compiti di domande-risposte temporali testuali. Basandoci su questa scoperta, introduciamo il Trasferimento del ragionamento temporale testuale (T3). T3 sintetizza diversi compiti di ragionamento temporale in formato testuale puro da dataset esistenti di immagini-testo, affrontando la scarsità di campioni video con scenari temporali complessi. Sorprendentemente, senza utilizzare alcun dato video, T3 migliora la comprensione temporale di LongVA-7B, ottenendo un miglioramento dell'accuratezza assoluta del 5,3 sul difficile benchmark TempCompass, consentendo al nostro modello di superare ShareGPT4Video-8B addestrato su 28.000 campioni video. Inoltre, il modello LongVA-7B potenziato raggiunge prestazioni competitive su ampi benchmark video. Ad esempio, raggiunge un'accuratezza del 49,7 nel compito di Ragionamento Temporale di Video-MME, superando potenti modelli su larga scala come InternVL-Chat-V1.5-20B e VILA1.5-40B. Ulteriori analisi rivelano una forte correlazione tra le prestazioni nei compiti temporali testuali e video, convalidando l'efficacia del trasferimento delle capacità di ragionamento temporale dal testo ai video.
I recenti progressi nei modelli di diffusione testo-video su larga scala (T2V) e immagine-video (I2V) hanno notevolmente migliorato la generazione di video, specialmente per quanto riguarda l'interpolazione dei frame chiave. Tuttavia, i modelli di diffusione immagine-video attuali, pur essendo potenti nella generazione di video da un singolo frame di condizionamento, necessitano di adattamenti per la generazione condizionata a due frame (inizio e fine), che è essenziale per un'interpolazione limitata efficace. Purtroppo, gli approcci esistenti che fondono percorsi temporali in avanti e all'indietro in parallelo spesso soffrono di problemi off-manifold, che portano a artefatti o richiedono molteplici passaggi iterativi di ri-rumore. In questo lavoro, introduciamo una nuova strategia di campionamento bidirezionale per affrontare questi problemi off-manifold senza richiedere un'estesa ri-rumore o un raffinamento. Il nostro metodo utilizza un campionamento sequenziale lungo entrambi i percorsi in avanti e all'indietro, condizionati rispettivamente ai frame di inizio e fine, garantendo una generazione più coerente e on-manifold dei frame intermedi. Inoltre, incorporiamo tecniche guida avanzate, CFG++ e DDS, per potenziare ulteriormente il processo di interpolazione. Integrando queste tecniche, il nostro metodo raggiunge prestazioni all'avanguardia, generando efficientemente video di alta qualità e fluidi tra i frame chiave. Su una singola GPU 3090, il nostro metodo può interpolare 25 frame a una risoluzione di 1024 x 576 in soli 195 secondi, confermandosi come una soluzione leader per l'interpolazione dei frame chiave.
Nonostante significativi progressi nella personalizzazione dei modelli di generazione di testo-immagine e video, generare immagini e video che integrino efficacemente più concetti personalizzati rimane un compito impegnativo. Per affrontare ciò, presentiamo TweedieMix, un nuovo metodo per comporre modelli di diffusione personalizzati durante la fase di inferenza. Analizzando le proprietà del campionamento di diffusione inversa, il nostro approccio suddivide il processo di campionamento in due fasi. Durante i passaggi iniziali, applichiamo una tecnica di campionamento consapevole di più oggetti per garantire l'inclusione degli oggetti target desiderati. Nei passaggi successivi, mescoliamo le apparenze dei concetti personalizzati nello spazio immagine de-rumore utilizzando la formula di Tweedie. I nostri risultati dimostrano che TweedieMix può generare più concetti personalizzati con una maggiore fedeltà rispetto ai metodi esistenti. Inoltre, il nostro framework può essere facilmente esteso ai modelli di diffusione da immagine a video, consentendo la generazione di video che presentano più concetti personalizzati. I risultati e il codice sorgente sono disponibili nella nostra pagina di progetto anonima.
L'ottimizzazione delle istruzioni - il fine-tuning supervisionato utilizzando coppie istruzione-risposta - è un passo fondamentale nel passaggio dei Grandi Modelli Linguistici (LLM) pre-addestrati in utili e sicuri assistenti virtuali. La nostra ipotesi è che stabilire uno spazio di output adeguato possa abilitare tale transizione, date le capacità intrinseche nei LLM pre-addestrati. Per verificare ciò, proponiamo il Tuning della Risposta (RT), che elimina il passo di condizionamento dell'istruzione nell'ottimizzazione delle istruzioni e si concentra esclusivamente sulla supervisione dello spazio delle risposte. I nostri esperimenti dimostrano che i modelli RT, addestrati solo utilizzando le risposte, possono rispondere efficacemente a una vasta gamma di istruzioni e mostrare un grado di utilità paragonabile a quello dei loro corrispettivi addestrati con le istruzioni. Inoltre, osserviamo che controllare la distribuzione delle risposte durante l'addestramento può migliorare significativamente la preferenza dell'utente o suscitare comportamenti desiderati come il rifiuto di assistenza per query non sicure. Le nostre scoperte mettono in luce il ruolo dello stabilire uno spazio di output adeguato in allineamento, evidenziando il potenziale delle estese capacità intrinseche dei LLM pre-addestrati.
In questo articolo, proponiamo AutoDAN-Turbo, un metodo di jailbreak black-box che può scoprire automaticamente il maggior numero possibile di strategie di jailbreak da zero, senza alcun intervento umano o ambiti predefiniti (ad esempio, strategie candidate specificate) e utilizzarle per il red-teaming. Di conseguenza, AutoDAN-Turbo può superare significativamente i metodi di base, raggiungendo un tasso di successo medio degli attacchi del 74,3% superiore sui benchmark pubblici. In particolare, AutoDAN-Turbo raggiunge un tasso di successo degli attacchi dell'88,5 su GPT-4-1106-turbo. Inoltre, AutoDAN-Turbo è un framework unificato che può incorporare le strategie di jailbreak progettate dagli umani esistenti in modo plug-and-play. Integrando le strategie progettate dagli umani, AutoDAN-Turbo può persino raggiungere un tasso di successo degli attacchi più elevato del 93,4 su GPT-4-1106-turbo.
I recenti progressi nei modelli di diffusione hanno dimostrato capacità eccezionali nella generazione di immagini e video, migliorando ulteriormente l'efficacia della sintesi 4D. I metodi esistenti di generazione 4D possono creare oggetti o scene 4D di alta qualità basati su condizioni user-friendly, apportando benefici alle industrie videoludica e cinematografica. Tuttavia, tali metodi faticano a sintetizzare deformazioni significative degli oggetti in transizioni 4D complesse e interazioni all'interno delle scene. Per affrontare questa sfida, proponiamo Trans4D, un nuovo framework di sintesi testo-4D che consente transizioni realistiche e complesse delle scene. In particolare, utilizziamo inizialmente modelli linguistici multimodali di grandi dimensioni (MLLMs) per produrre una descrizione della scena consapevole della fisica per l'inizializzazione della scena 4D e la pianificazione efficace dei tempi di transizione. Successivamente, proponiamo una rete di transizione 4D consapevole della geometria per realizzare una transizione 4D a livello di scena complessa basata sul piano, che coinvolge deformazioni espressive degli oggetti geometrici. Estesi esperimenti dimostrano che Trans4D supera costantemente i metodi esistenti all'avanguardia nella generazione di scene 4D con transizioni accurate e di alta qualità, convalidandone l'efficacia. Codice: https://github.com/YangLing0818/Trans4D
I Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) stanno evolvendo rapidamente, dimostrando capacità impressionanti come assistenti multimodali che interagiscono sia con gli esseri umani che con i loro ambienti. Tuttavia, questa crescente sofisticazione introduce significativi problemi di sicurezza. In questo articolo, presentiamo la prima valutazione e analisi di una nuova sfida di sicurezza denominata Sicurezza Situazionale Multimodale, che esplora come le considerazioni sulla sicurezza variano in base alla situazione specifica in cui l'utente o l'agente è coinvolto. Sosteniamo che affinché un MLLM risponda in modo sicuro, sia attraverso il linguaggio che con azioni, spesso deve valutare le implicazioni sulla sicurezza di una query linguistica all'interno del contesto visivo corrispondente. Per valutare questa capacità, sviluppiamo il benchmark Sicurezza Situazionale Multimodale (MSSBench) per valutare le prestazioni di sicurezza situazionale dei MLLM attuali. Il dataset comprende 1.820 coppie di query linguistiche e immagini, di cui metà con un contesto visivo sicuro e l'altra metà non sicuro. Sviluppiamo inoltre un framework di valutazione che analizza gli aspetti chiave della sicurezza, inclusa la ragionamento esplicito sulla sicurezza, la comprensione visiva e, soprattutto, il ragionamento sulla sicurezza situazionale. I nostri risultati rivelano che i MLLM attuali faticano con questo problema di sicurezza sfumato nell'ambiente di seguire le istruzioni e hanno difficoltà a affrontare contemporaneamente queste sfide di sicurezza situazionale, evidenziando un'area chiave per la ricerca futura. Inoltre, sviluppiamo pipeline multi-agente per risolvere coordinatamente le sfide di sicurezza, che mostrano un miglioramento costante nella sicurezza rispetto alla risposta originale del MLLM. Codice e dati: mssbench.github.io.
I modelli di generazione testo-video (T2V), che offrono una comoda creazione visiva, hanno recentemente attirato crescente attenzione. Nonostante il loro notevole potenziale, i video generati possono presentare artefatti, tra cui implausibilità strutturale, inconsistenza temporale e mancanza di movimento, spesso risultando in video quasi statici. In questo lavoro, abbiamo identificato una correlazione tra la disparità delle mappe di attenzione temporale tra diversi blocchi e l'insorgenza di inconsistenze temporali. Inoltre, abbiamo osservato che l'energia contenuta all'interno delle mappe di attenzione temporale è direttamente correlata alla magnitudine dell'ampiezza del movimento nei video generati. Sulla base di queste osservazioni, presentiamo BroadWay, un metodo privo di addestramento per migliorare la qualità della generazione testo-video senza introdurre parametri aggiuntivi, aumentare la memoria o il tempo di campionamento. In particolare, BroadWay è composto da due componenti principali: 1) Guida Temporale Autonoma migliora l'implausibilità strutturale e l'inconsistenza temporale dei video generati riducendo la disparità tra le mappe di attenzione temporale tra vari blocchi di decodifica. 2) Potenziamento del Movimento basato su Fourier migliora la magnitudine e la ricchezza del movimento amplificando l'energia della mappa. Estesi esperimenti dimostrano che BroadWay migliora significativamente la qualità della generazione testo-video con un costo aggiuntivo trascurabile.
I modelli generativi stanno trasformando settori creativi come la generazione musicale, con strategie di guida durante l'inferenza come la Guida Senza Classificatore (CFG) che svolgono un ruolo cruciale. Tuttavia, la CFG raddoppia il costo dell'inferenza limitando l'originalità e la diversità dei contenuti generati. In questo articolo, presentiamo la distillazione della CFG premiata per la diversità, una procedura di raffinamento innovativa che distilla i punti di forza della CFG affrontandone i limiti. Il nostro approccio ottimizza due obiettivi di addestramento: (1) un obiettivo di distillazione, che incoraggia il modello da solo (senza CFG) a imitare le previsioni potenziate dalla CFG, e (2) un obiettivo di RL con un premio per la diversità, che promuove la generazione di output diversi per un determinato input. Attraverso il raffinamento, apprendiamo i pesi del modello con la capacità di generare output di alta qualità e diversi, senza alcun costo aggiuntivo durante l'inferenza. Ciò sblocca anche il potenziale delle strategie di fusione dei modelli basate sui pesi: interpolando tra i pesi di due modelli (il primo incentrato sulla qualità, il secondo sulla diversità), possiamo controllare il compromesso qualità-diversità al momento del rilascio e migliorare ulteriormente le prestazioni. Conduciomo ampi esperimenti sul modello generativo di testo-musica MusicLM (Agostinelli et al., 2023), dove il nostro approccio supera la CFG in termini di ottimalità di Pareto qualità-diversità. Secondo gli esaminatori umani, il nostro modello raffinato e successivamente fuso genera campioni con una qualità-diversità superiore rispetto al modello di base potenziato con la CFG. Esplora le nostre generazioni su https://google-research.github.io/seanet/musiclm/diverse_music/.
Questo lavoro investiga la selezione di dati di pre-training di alta qualità da corpora massicci per potenziare le capacità dei Modelli Linguistici (LM) per utilizzi successivi. Formuliamo la selezione dei dati come un problema di Controllo Ottimale generalizzato, che può essere risolto teoricamente dal Principio del Massimo di Pontryagin (PMP), producendo un insieme di condizioni necessarie che caratterizzano la relazione tra la selezione ottimale dei dati e la dinamica di addestramento del LM. Sulla base di questi risultati teorici, introduciamo la Selezione dei Dati basata su PMP (PDS), un framework che approssima la selezione ottimale dei dati risolvendo le condizioni del PMP. Nei nostri esperimenti, adottiamo PDS per selezionare dati da CommmonCrawl e mostriamo che il corpus selezionato da PDS accelera l'apprendimento dei LM e migliora costantemente le loro prestazioni su una vasta gamma di compiti successivi attraverso varie dimensioni del modello. Inoltre, i benefici di PDS si estendono a modelli di ~400B addestrati su ~10T token, come dimostrato dall'estrapolazione delle curve di perdita di test secondo le Leggi di Scalabilità. PDS migliora anche l'utilizzo dei dati quando i dati di pre-training sono limitati, riducendo la domanda di dati di 1,8 volte, il che mitiga il rapido esaurimento dei corpora disponibili raccolti da web-crawled. Il nostro codice, dati e checkpoint dei modelli possono essere trovati su https://github.com/microsoft/LMOps/tree/main/data_selection.
Il Temporal Grounding dei Video (VTG) è una capacità cruciale per i modelli di comprensione dei video e svolge un ruolo vitale in compiti successivi come la navigazione e l'editing video. Per gestire efficacemente varie attività contemporaneamente e consentire la previsione senza dati, c'è una crescente tendenza nell'impiego di LLM video per compiti VTG. Tuttavia, i metodi attuali basati su LLM video si basano esclusivamente sulla generazione di linguaggio naturale, mancando della capacità di modellare la chiara struttura intrinseca nei video, il che limita la loro efficacia nel affrontare i compiti VTG. Per affrontare questo problema, questo articolo introduce formalmente inizialmente un framework di modellazione degli eventi causali, che rappresenta i video come sequenze di eventi e prevede l'evento attuale utilizzando eventi precedenti, input video e istruzioni testuali. Ogni evento è composto da tre componenti: timestamp, punteggi salienti e didascalie testuali. Successivamente proponiamo un nuovo LLM video task-interleaved chiamato TRACE per implementare efficacemente il framework di modellazione degli eventi causali nella pratica. TRACE elabora fotogrammi visivi, timestamp, punteggi salienti e testo come compiti distinti, impiegando vari encoder e testine di decodifica per ciascuno. I token dei compiti sono disposti in una sequenza interlacciata secondo la formulazione del framework di modellazione degli eventi causali. Estesi esperimenti su vari compiti e set di dati VTG dimostrano le prestazioni superiori di TRACE rispetto ai LLM video all'avanguardia. Il nostro modello e codice sono disponibili su https://github.com/gyxxyg/TRACE.
Man mano che i modelli linguistici multimodali di grandi dimensioni (MLLMs) continuano a dimostrare prestazioni sempre più competitive in una vasta gamma di compiti, sono stati sviluppati benchmark più intricati e completi per valutare questi modelli all'avanguardia. Questi benchmark introducono nuove sfide alle capacità fondamentali come la percezione, il ragionamento e la pianificazione. Tuttavia, i benchmark multimodali esistenti non riescono a fornire una valutazione mirata della pianificazione a più passaggi basata sulle relazioni spaziali nelle immagini. Per colmare questa lacuna, presentiamo ING-VP, il primo benchmark di Vision Planning basato su giochi interattivi, appositamente progettato per valutare l'immaginazione spaziale e le capacità di ragionamento a più passaggi dei MLLMs. ING-VP presenta 6 giochi distinti, che includono 300 livelli, ciascuno con 6 configurazioni uniche. Un singolo modello partecipa a oltre 60.000 round di interazione. Il framework del benchmark consente diverse impostazioni di confronto, tra cui input immagine-testo vs. solo testo, ragionamento a singolo passaggio vs. a più passaggi e condizioni con-storia vs. senza-storia, offrendo preziose intuizioni sulle capacità del modello. Abbiamo valutato numerosi MLLMs all'avanguardia, con il modello più performante, Claude-3.5 Sonnet, che ha ottenuto una precisione media del solo 3,37%, molto al di sotto dello standard previsto. Questo lavoro mira a fornire un framework di valutazione specializzato per promuovere i progressi nella capacità dei MLLMs nel ragionamento spaziale complesso e nella pianificazione. Il codice è disponibile pubblicamente su https://github.com/Thisisus7/ING-VP.git.
La capacità di seguire istruzioni è una competenza chiave per i LLM. Tuttavia, studi recenti hanno dimostrato che i LLM spesso faticano con istruzioni contenenti molteplici vincoli (ad esempio, una richiesta di creare un post sui social media "con un tono divertente" senza "hashtag"). Nonostante ciò, la maggior parte delle valutazioni si concentra esclusivamente sui dati sintetici. Per affrontare questo problema, presentiamo RealInstruct, il primo benchmark progettato per valutare la capacità dei LLM di seguire istruzioni del mondo reale multi-vincolate sfruttando le query che gli utenti reali hanno posto agli assistenti AI. Esaminiamo anche la valutazione basata sul modello come alternativa economica all'annotazione umana per questo compito. I nostri risultati rivelano che persino il modello proprietario GPT-4 non riesce a rispettare almeno un vincolo su oltre il 21% delle istruzioni, evidenziando i limiti dei modelli all'avanguardia. Per affrontare il divario di prestazioni tra modelli open-source e proprietari, proponiamo il pipeline di auto-correzione Decompose, Critique e Refine (DeCRIM), che migliora la capacità dei LLM di rispettare i vincoli. DeCRIM funziona decomponendo l'istruzione originale in una lista di vincoli e utilizzando un modello Critic per decidere quando e dove la risposta del LLM ha bisogno di essere perfezionata. I nostri risultati mostrano che DeCRIM migliora le prestazioni di Mistral del 7,3% su RealInstruct e dell'8,0% su IFEval anche con un feedback debole. Inoltre, dimostriamo che con un feedback forte, i LLM open-source con DeCRIM possono superare GPT-4 su entrambi i benchmark.
Man mano che i modelli di diffusione testo-immagine diventano sufficientemente avanzati per applicazioni commerciali, cresce anche la preoccupazione per il loro potenziale utilizzo malintenzionato e dannoso. È stata proposta la rimozione del modello (unlearning) per attenuare tali preoccupazioni eliminando informazioni indesiderate e potenzialmente dannose dal modello pre-addestrato. Finora, il successo dell'unlearning è stato principalmente valutato dalla capacità del modello non appreso di generare un concetto target mantenendo la qualità dell'immagine. Tuttavia, l'unlearning viene tipicamente testato in scenari limitati e gli effetti collaterali dell'unlearning sono stati scarsamente studiati nella letteratura attuale. In questo lavoro, analizziamo approfonditamente l'unlearning in vari scenari con cinque aspetti chiave. La nostra indagine rivela che ogni metodo ha effetti collaterali o limitazioni, specialmente in situazioni più complesse e realistiche. Rilasciando il nostro completo framework di valutazione con i codici sorgente e gli artefatti, speriamo di ispirare ulteriori ricerche in questo ambito, portando a metodi di unlearning più affidabili ed efficaci.
Mentre i grandi modelli linguistici (LLM) hanno integrato le immagini, adattarli ai grafi rimane sfidante, limitando le loro applicazioni nel design di materiali e farmaci. Questa difficoltà deriva dalla necessità di generazione autoregressiva coerente tra testi e grafi. Per affrontare questo problema, presentiamo Llamole, il primo LLM multimodale capace di generare testo e grafo in modo intercalato, consentendo il design inverso molecolare con pianificazione retrosintetica. Llamole integra un LLM di base con il Transformer a Diffusione di Grafo e le Reti Neurali di Grafo per la generazione molecolare multi-condizionale e l'inferenza di reazione all'interno dei testi, mentre il LLM, con una maggiore comprensione molecolare, controlla in modo flessibile l'attivazione tra i diversi moduli del grafo. Inoltre, Llamole integra la ricerca A* con funzioni di costo basate su LLM per una pianificazione retrosintetica efficiente. Creiamo set di dati di riferimento e conduciamo ampi esperimenti per valutare Llamole rispetto all'apprendimento in contesto e al raffinamento supervisionato. Llamole supera significativamente 14 LLM adattati su 12 metriche per il design molecolare controllabile e la pianificazione retrosintetica.
I sistemi di dialogo recentemente introdotti hanno dimostrato un'elevata usabilità. Tuttavia, essi ancora non riescono a riflettere scenari di conversazione reali. I sistemi di dialogo attuali mostrano un'incapacità di replicare le interazioni dinamiche, continue e a lungo termine che coinvolgono più partner. Questa carenza si verifica perché ci sono stati sforzi limitati per considerare entrambi gli aspetti dei dialoghi reali: interazioni profondamente stratificate nel dialogo a lungo termine e reti di conversazione ampiamente estese che coinvolgono più partecipanti. Con lo sforzo di incorporare questi aspetti combinati, introduciamo il Mixed-Session Conversation, un sistema di dialogo progettato per costruire conversazioni con vari partner in un contesto di dialogo multi-sessione. Proponiamo un nuovo set di dati chiamato MiSC per implementare questo sistema. Gli episodi di dialogo di MiSC consistono in 6 sessioni consecutive, con quattro speaker (un main speaker e tre partner) che appaiono in ciascun episodio. Inoltre, proponiamo un nuovo modello di dialogo con un meccanismo di gestione della memoria innovativo, chiamato Agente di Conversazione a Sessioni Miste potenziato dalla Memoria Egocentrica (EMMA). EMMA raccoglie e conserva i ricordi dalla prospettiva del main speaker durante le conversazioni con i partner, consentendo una continuità senza soluzione di continuità nelle interazioni successive. Valutazioni umane approfondite confermano che i dialoghi in MiSC dimostrano un flusso conversazionale fluido, anche quando i partner di conversazione cambiano in ciascuna sessione. EMMA addestrato con MiSC viene anche valutato per mantenere un'elevata memorabilità senza contraddizioni per l'intera conversazione.
Generare una lunga storia di diverse migliaia di parole con coerenza narrativa utilizzando i Grandi Modelli Linguistici (LLM) è stata un'impresa impegnativa. Ricerche precedenti hanno affrontato questa sfida proponendo diversi framework che creano un piano della storia e generano una lunga narrazione basata su tale piano. Tuttavia, questi framework si sono concentrati principalmente sulla mantenimento della coerenza narrativa nelle storie, spesso trascurando la creatività nella pianificazione della storia e l'espressività delle storie generate da tali piani, che sono proprietà desiderabili per catturare l'interesse dei lettori. In questo articolo, proponiamo il framework CritiCS (Collective Critics for Creative Story Generation), composto dalla fase di perfezionamento del piano (CrPlan) e dalla fase di generazione della storia (CrText), per integrare un meccanismo di revisione collettiva che promuove tali proprietà nel processo di generazione di storie di lunga durata. In particolare, in ciascuna fase, un gruppo di critici LLM e un leader collaborano per perfezionare incrementalmente le bozze del piano e della storia attraverso molteplici iterazioni. Un'ampia valutazione umana dimostra che il CritiCS può migliorare significativamente la creatività della storia e l'interesse del lettore, mantenendo al contempo la coerenza narrativa. Inoltre, il design del framework consente la partecipazione attiva da parte degli scrittori umani in qualsiasi ruolo all'interno del processo di critica, consentendo una collaborazione interattiva tra umani e macchine nella scrittura di storie.
Proponiamo TextToon, un metodo per generare un avatar toonificato guidabile. Dato un breve sequenza video monoculare e un'istruzione scritta sullo stile dell'avatar, il nostro modello può generare un avatar toonificato ad alta fedeltà che può essere guidato in tempo reale da un altro video con identità arbitrarie. I lavori correlati esistenti si basano pesantemente sulla modellazione multi-view per recuperare la geometria tramite embedding di texture, presentato in modo statico, con conseguenti limitazioni di controllo. L'input video multi-view rende anche difficile distribuire questi modelli in applicazioni reali. Per affrontare questi problemi, adottiamo un Tri-plane di embedding condizionale per apprendere rappresentazioni facciali realistiche e stilizzate in un campo di deformazione gaussiano. Inoltre, ampliamo le capacità di stilizzazione di Gaussian Splatting 3D introducendo una rete neurale di pixel-translation adattiva e sfruttando l'apprendimento contrastivo consapevole delle patch per ottenere immagini di alta qualità. Per portare avanti il nostro lavoro nelle applicazioni per consumatori, sviluppiamo un sistema in tempo reale che può operare a 48 FPS su una macchina GPU e a 15-18 FPS su una macchina mobile. Estesi esperimenti dimostrano l'efficacia del nostro approccio nella generazione di avatar testuali rispetto ai metodi esistenti in termini di qualità e animazione in tempo reale. Si prega di fare riferimento alla nostra pagina del progetto per ulteriori dettagli: https://songluchuan.github.io/TextToon/.
Introduciamo MLE-bench, un benchmark per misurare quanto bene si comportano gli agenti di intelligenza artificiale nell'ingegneria del machine learning. A tal fine, selezioniamo attentamente 75 competizioni legate all'ingegneria del ML da Kaggle, creando un insieme diversificato di compiti impegnativi che mettono alla prova le competenze di ingegneria del ML nel mondo reale come addestrare modelli, preparare set di dati ed eseguire esperimenti. Stabiliamo basi umane per ciascuna competizione utilizzando le classifiche pubblicamente disponibili di Kaggle. Utilizziamo impalcature di agenti open-source per valutare diversi modelli linguistici di frontiera sul nostro benchmark, scoprendo che la configurazione più performante - l'anteprima o1 di OpenAI con impalcatura AIDE - raggiunge almeno il livello di una medaglia di bronzo di Kaggle nel 16,9% delle competizioni. Oltre ai nostri risultati principali, esaminiamo varie forme di ridimensionamento delle risorse per gli agenti di intelligenza artificiale e l'impatto della contaminazione derivante dal pre-addestramento. Rendiamo open-source il codice del nostro benchmark (github.com/openai/mle-bench/) per agevolare futura ricerca nell'ambito della comprensione delle capacità di ingegneria del ML degli agenti di intelligenza artificiale.
L'apprendimento in contesto (ICL) è la capacità di un modello di apprendere un nuovo compito osservando alcuni esemplari nel suo contesto. Sebbene diffuso nell'elaborazione del linguaggio naturale (NLP), questa capacità è stata recentemente osservata anche in ambienti di Apprendimento per Rinforzo (RL). Tuttavia, i metodi precedenti di RL in contesto richiedono interi episodi nel contesto dell'agente. Dato che ambienti complessi portano tipicamente a episodi lunghi con ricompense sparse, questi metodi sono limitati ad ambienti semplici con episodi brevi. Per affrontare queste sfide, presentiamo il Decision Transformer potenziato da Recupero (RA-DT). RA-DT utilizza un meccanismo di memoria esterna per memorizzare esperienze passate da cui recupera solo sotto-traiettorie rilevanti per la situazione attuale. Il componente di recupero in RA-DT non richiede addestramento e può essere completamente agnostico al dominio. Valutiamo le capacità di RA-DT su ambienti a griglia, simulazioni robotiche e videogiochi generati proceduralmente. Sulle griglie, RA-DT supera i modelli di base, utilizzando solo una frazione della loro lunghezza di contesto. Inoltre, mettiamo in luce i limiti dei metodi attuali di RL in contesto su ambienti complessi e discutiamo le direzioni future. Per agevolare la ricerca futura, rilasciamo set di dati per quattro degli ambienti considerati.
La ricerca costruisce e valuta il potenziale avversario per introdurre codice copiato o raccomandazioni di intelligenza artificiale allucinate per codice dannoso in popolari repository di codice. Mentre i modelli linguistici di larga scala (LLM) fondamentali di OpenAI, Google e Anthropic proteggono sia dai comportamenti dannosi che dalle stringhe tossiche, lavori precedenti su soluzioni matematiche che incorporano prompt dannosi dimostrano che le protezioni potrebbero variare tra contesti di esperti. Queste falle potrebbero manifestarsi in una combinazione di modelli di esperti quando il contesto della domanda cambia e potrebbero offrire meno esempi di addestramento dannosi per filtrare commenti tossici o azioni offensive raccomandate. Il presente lavoro dimostra che i modelli fondamentali potrebbero rifiutarsi di proporre correttamente azioni distruttive quando sollecitati apertamente, ma potrebbero purtroppo abbassare la guardia di fronte a un improvviso cambio di contesto, come risolvere una sfida di programmazione informatica. Mostriamo esempi empirici con repository che ospitano trojan come GitHub, NPM, NuGet e popolari reti di distribuzione di contenuti (CDN) come jsDelivr che amplificano la superficie di attacco. Nelle direttive dei LLM per essere utili, le raccomandazioni di esempio propongono endpoint delle interfacce di programmazione delle applicazioni (API) che un cybersquatter determinato potrebbe acquisire e configurare un'infrastruttura mobile di attacco che si attiva dal codice copiato in modo ingenuo. Confrontiamo questo attacco con lavori precedenti sullo spostamento del contesto e mettiamo in contrasto la superficie di attacco come una nuova versione degli attacchi "living off the land" nella letteratura sul malware. In quest'ultimo caso, i modelli linguistici fondamentali possono dirottare prompt altrimenti innocenti degli utenti per raccomandare azioni che violano le politiche di sicurezza dei loro proprietari quando poste direttamente senza la richiesta di supporto alla codifica.
Suonare il pianoforte richiede un controllo agile, preciso e coordinato delle mani che spinge ai limiti della destrezza. I modelli di movimento delle mani con la sofisticazione necessaria per ricreare accuratamente il suonare del pianoforte hanno un'ampia gamma di applicazioni in animazione dei personaggi, intelligenza artificiale incarnata, biomeccanica e realtà virtuale/aumentata. In questo articolo, costruiamo un dataset su larga scala, unico nel suo genere, che contiene approssimativamente 10 ore di movimenti tridimensionali delle mani e audio provenienti da 15 pianisti di livello élite che suonano 153 brani di musica classica. Per catturare esibizioni naturali, abbiamo progettato un setup senza marker in cui i movimenti sono ricostruiti da video multi-view utilizzando modelli di stima della posa all'avanguardia. I dati di movimento sono ulteriormente perfezionati tramite cinematica inversa utilizzando i dati ad alta risoluzione della pressione dei tasti MIDI ottenuti da sensori in un pianoforte Yamaha Disklavier specializzato. Sfruttando il dataset raccolto, abbiamo sviluppato un processo che può sintetizzare movimenti naturali e plausibili per spartiti musicali al di fuori del dataset. Il nostro approccio impiega una combinazione di apprendimento per imitazione e apprendimento per rinforzo per ottenere politiche per il controllo bimanuale basato sulla fisica che coinvolge l'interazione tra le mani e i tasti del pianoforte. Per risolvere il problema dell'efficienza del campionamento con il grande dataset di movimento, utilizziamo un modello di diffusione per generare movimenti di riferimento naturali, che forniscono informazioni di traiettoria e diteggiatura (ordine e posizionamento delle dita) a livello elevato. Tuttavia, il solo movimento di riferimento generato non fornisce una precisione sufficiente per la modellazione delle esibizioni al pianoforte. Abbiamo quindi ulteriormente ampliato i dati utilizzando la similarità musicale per recuperare movimenti simili dal dataset acquisito al fine di potenziare la precisione della politica di apprendimento per rinforzo. Con il metodo proposto, il nostro modello genera movimenti naturali e destri che si generalizzano alla musica al di fuori del dataset di addestramento.
Nello sviluppo di software nel mondo reale, una gestione impropria o mancante delle eccezioni può avere un impatto significativo sulla solidità e affidabilità del codice. I meccanismi di gestione delle eccezioni richiedono ai programmatori di individuare, catturare e gestire le eccezioni secondo standard elevati, ma molti sviluppatori faticano con queste attività, portando a codice fragile. Questo problema è particolarmente evidente nei progetti open source e influisce sulla qualità complessiva dell'ecosistema software. Per affrontare questa sfida, esploriamo l'uso di grandi modelli linguistici (LLM) per migliorare la gestione delle eccezioni nel codice. Attraverso un'analisi approfondita, identifichiamo tre problemi chiave: Rilevamento Insensibile del Codice Fragile, Cattura Inaccurata dei Tipi di Eccezioni e Soluzioni di Gestione Distorte. Questi problemi sono diffusi nei repository del mondo reale, suggerendo che spesso le pratiche robuste di gestione delle eccezioni vengono trascurate o gestite in modo errato. In risposta, proponiamo Seeker, un framework multiagente ispirato alle strategie degli sviluppatori esperti per la gestione delle eccezioni. Seeker utilizza agenti: Scanner, Detector, Predator, Ranker e Handler per assistere i LLM nel rilevare, catturare e risolvere le eccezioni in modo più efficace. Il nostro lavoro è il primo studio sistematico sull'utilizzo dei LLM per migliorare le pratiche di gestione delle eccezioni, fornendo preziose intuizioni per futuri miglioramenti nella affidabilità del codice.
La coerenza multi-vista rimane una sfida per i modelli di diffusione delle immagini. Anche all'interno del problema Testo-a-Texture, dove le corrispondenze geometriche perfette sono note a priori, molti metodi non riescono a produrre previsioni allineate tra le viste, rendendo necessari metodi di fusione non banali per incorporare i risultati sulla mesh originale. Esploriamo questo problema per un flusso di lavoro di Controllo Collaborativo specificamente nel contesto di PBR Testo-a-Texture. Il Controllo Collaborativo modella direttamente le distribuzioni di probabilità delle immagini PBR, inclusi le mappe di rilievo normale; a nostra conoscenza, è l'unico modello di diffusione che produce direttamente stack PBR completi. Discutiamo le decisioni progettuali coinvolte nel rendere questo modello coerente multi-vista e dimostriamo l'efficacia del nostro approccio in studi di ablazione, così come in applicazioni pratiche.
I disturbi mentali sono una delle malattie più gravi al mondo. La maggior parte delle persone affette da tali disturbi non ha accesso a cure adeguate, il che sottolinea l'importanza di addestrare modelli per la diagnosi e il trattamento dei disturbi mentali. Tuttavia, nel campo della salute mentale, le preoccupazioni sulla privacy limitano l'accessibilità dei dati di trattamento personalizzati, rendendo difficile la costruzione di modelli potenti. In questo articolo, presentiamo MentalArena, un framework di auto-gioco per addestrare modelli linguistici generando dati personalizzati specifici del dominio, dove otteniamo un modello migliore in grado di effettuare una diagnosi e un trattamento personalizzati (come terapeuta) e fornire informazioni (come paziente). Per modellare accuratamente pazienti con problemi di salute mentale simili all'essere umano, progettiamo Symptom Encoder, che simula un paziente reale sia dal punto di vista cognitivo che comportamentale. Per affrontare il bias di intenti durante le interazioni paziente-terapeuta, proponiamo Symptom Decoder per confrontare i sintomi diagnosticati con i sintomi codificati e gestire dinamicamente il dialogo tra paziente e terapeuta in base alle deviazioni identificate. Abbiamo valutato MentalArena su 6 benchmark, inclusi biomedicalQA e compiti di salute mentale, confrontandolo con 6 modelli avanzati. I nostri modelli, ottimizzati sia su GPT-3.5 che su Llama-3-8b, superano significativamente i loro corrispettivi, inclusi GPT-4o. Speriamo che il nostro lavoro possa ispirare futuri studi sulla cura personalizzata. Il codice è disponibile su https://github.com/Scarelette/MentalArena/tree/main
Questo articolo presenta TinyEmo, una famiglia di piccoli modelli linguistici multimodali per il ragionamento e la classificazione emotiva. Il nostro approccio include: (1) un dataset sintetico di istruzioni emotive per le fasi di pre-addestramento e raffinamento, (2) un Proiettore Metrico che delega la classificazione dal modello linguistico consentendo un addestramento e un'infrazione più efficienti, (3) un grande modello linguistico multimodale (MM-LLM) per il ragionamento emotivo e (4) un framework semi-automatizzato per la rilevazione di bias. TinyEmo è in grado di eseguire la classificazione delle emozioni e il ragionamento emotivo, il tutto utilizzando un numero di parametri notevolmente inferiore rispetto ai modelli comparabili. Questa efficienza ci consente di incorporare liberamente dataset emotivi più diversificati, consentendo prestazioni elevate nei compiti di classificazione, con il nostro modello più piccolo (700M parametri) che supera modelli più grandi all'avanguardia basati su MM-LLM a uso generale con oltre 7B parametri. Inoltre, il Proiettore Metrico consente interpretabilità e rilevazione indiretta di bias nei modelli grandi senza addestramento aggiuntivo, offrendo un approccio per comprendere e migliorare i sistemi di intelligenza artificiale. Rilasciamo codice, modelli e dataset su https://github.com/ggcr/TinyEmo
I recenti progressi dei grandi modelli linguistici (LLM) hanno portato a dichiarazioni riguardanti l'AI che supera gli esseri umani in compiti di elaborazione del linguaggio naturale (NLP) come la comprensione testuale e il ragionamento. Questo lavoro indaga tali affermazioni introducendo CAIMIRA, un nuovo quadro radicato nella teoria della risposta agli item (IRT) che consente la valutazione quantitativa e il confronto delle capacità di risoluzione dei problemi degli agenti di domanda-risposta (QA): umani e sistemi AI. Attraverso l'analisi di oltre 300.000 risposte da circa 70 sistemi AI e 155 esseri umani su migliaia di domande di quiz, CAIMIRA mette in luce distinti modelli di competenza nei domini della conoscenza e nelle abilità di ragionamento. Gli esseri umani superano i sistemi AI nel ragionamento abduttivo e concettuale basato sulla conoscenza, mentre i LLM all'avanguardia come GPT-4 e LLaMA mostrano prestazioni superiori nel recupero mirato di informazioni e nel ragionamento basato sui fatti, specialmente quando le lacune informative sono ben definite e risolvibili attraverso il matching di pattern o il recupero dati. Queste scoperte evidenziano la necessità che i futuri compiti di QA si concentrino su domande che mettano alla prova non solo il ragionamento di ordine superiore e il pensiero scientifico, ma che richiedano anche un'interpretazione linguistica sfumata e l'applicazione della conoscenza cross-contestuale, contribuendo a far progredire gli sviluppi dell'AI che meglio emulano o integrano le capacità cognitive umane nella risoluzione di problemi del mondo reale.
I modelli di embedding sono stati cruciali nel permettere varie attività successive come la similarità semantica, il recupero delle informazioni e il clustering. Recentemente, c'è stato un aumento di interesse nello sviluppo di modelli di embedding di testo universali che possano generalizzare tra le attività (ad esempio, MTEB). Tuttavia, i progressi nel campo dei modelli di embedding multimodali universali sono stati relativamente lenti nonostante la loro importanza. In questo lavoro, ci proponiamo di esplorare il potenziale per la creazione di embedding universali capaci di gestire una vasta gamma di attività successive. Le nostre contribuzioni sono due: (1) MMEB (Massive Multimodal Embedding Benchmark), che copre 4 meta-attività (ossia classificazione, risposta alle domande visive, recupero multimodale e ancoraggio visuale) e 36 set di dati, inclusi 20 set di dati di addestramento e 16 di valutazione, e (2) VLM2Vec (Vision-Language Model -> Vector), un framework di addestramento contrastivo che converte qualsiasi modello di visione-linguaggio all'avanguardia in un modello di embedding tramite l'addestramento su MMEB. A differenza dei modelli precedenti come CLIP e BLIP, VLM2Vec può elaborare qualsiasi combinazione di immagini e testo per generare un vettore di dimensioni fisse basato sulle istruzioni dell'attività. Costruiamo una serie di modelli VLM2Vec su Phi-3.5-V e li valutiamo sulla divisione di valutazione di MMEB. I nostri risultati mostrano che il modello raggiunge un miglioramento medio assoluto del 10% al 20% rispetto ai modelli di embedding multimodali esistenti sia nei set di dati in distribuzione che in quelli fuori distribuzione in MMEB.
I benchmark attuali per valutare i modelli visione-linguaggio (VLMs) si concentrano spesso sulle loro capacità di percezione o risoluzione di problemi e trascurano altri aspetti critici come equità, multilinguismo o tossicità. Inoltre, differiscono nei loro procedimenti di valutazione e nell'ambito della valutazione, rendendo difficile confrontare i modelli. Per affrontare queste problematiche, estendiamo il framework HELM ai VLMs per presentare la Valutazione Olistica dei Modelli Visione-Linguaggio (VHELM). VHELM aggrega vari set di dati per coprire uno o più dei 9 aspetti: percezione visiva, conoscenza, ragionamento, pregiudizi, equità, multilinguismo, robustezza, tossicità e sicurezza. In questo modo, otteniamo una visione completa e multidimensionale delle capacità dei VLMs su questi fattori importanti. Inoltre, standardizziamo i parametri di inferenza standard, i metodi di stimolo e le metriche di valutazione per consentire confronti equi tra i modelli. Il nostro framework è progettato per essere leggero e automatico in modo che le esecuzioni di valutazione siano economiche e veloci. La nostra esecuzione iniziale valuta 22 VLMs su 21 set di dati esistenti per fornire uno snapshot olistico dei modelli. Scopriamo nuove scoperte chiave, come il fatto che i modelli focalizzati sull'efficienza (ad esempio, Claude 3 Haiku o Gemini 1.5 Flash) si comportano significativamente peggio rispetto ai loro modelli completi (ad esempio, Claude 3 Opus o Gemini 1.5 Pro) nel benchmark dei pregiudizi ma non quando valutati sugli altri aspetti. Per trasparenza, rilasciamo le generazioni di modelli grezzi e i risultati completi sul nostro sito web (https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM è pensato per essere un benchmark in evoluzione, e speriamo di continuare ad aggiungere nuovi set di dati e modelli nel tempo.
I modelli linguistici di grandi dimensioni (LLM) centrati sull'inglese spesso mostrano forti capacità multilingue. Tuttavia, le prestazioni multilingue di questi modelli rimangono poco chiare e non sono state valutate in modo approfondito per molte lingue. La maggior parte dei benchmark per la multilinguate si concentra su compiti classici di elaborazione del linguaggio naturale, o copre un numero minimo di lingue. Introduciamo MEXA, un metodo per valutare le capacità multilingue dei LLM preaddestrati centrati sull'inglese utilizzando frasi parallele, disponibili per un maggior numero di lingue rispetto ai compiti successivi esistenti. MEXA sfrutta il fatto che i LLM centrati sull'inglese utilizzano l'inglese come una sorta di lingua pivot nei loro strati intermedi. Calcola l'allineamento tra l'inglese e le lingue non inglesi utilizzando frasi parallele per valutare il trasferimento della comprensione linguistica dall'inglese ad altre lingue. Questo allineamento può essere utilizzato per stimare le prestazioni del modello in altre lingue. Conduciamo studi utilizzando vari set di dati paralleli (FLORES-200 e Bibbia), modelli (famiglia Llama, famiglia Gemma, Mistral e OLMo) e compiti successivi consolidati (Belebele, m-MMLU e m-ARC). Esploriamo diversi metodi per calcolare i vettori di contestualizzazione nei modelli basati solo sul decoder. I nostri risultati mostrano che MEXA, con le impostazioni predefinite, raggiunge una correlazione di Pearson media statisticamente significativa di 0,90 con tre compiti successivi consolidati su nove modelli e due set di dati paralleli. Ciò suggerisce che MEXA è un metodo affidabile per stimare le capacità multilingue dei LLM centrati sull'inglese, fornendo una comprensione più chiara del loro potenziale multilingue e del funzionamento interno dei LLM. Classifica: https://huggingface.co/spaces/cis-lmu/Mexa, Codice: https://github.com/cisnlp/Mexa.
Un vantaggio essenziale delle reti neurali ricorrenti (RNN) rispetto ai modelli linguistici basati su trasformatori è la loro complessità computazionale lineare rispetto alla lunghezza della sequenza, il che le rende molto più veloci nel gestire sequenze lunghe durante l'inferenza. Tuttavia, la maggior parte delle RNN disponibili pubblicamente (ad esempio, Mamba e RWKV) sono addestrate su sequenze con meno di 10.000 token, e la loro efficacia in contesti più lunghi finora è rimasta in gran parte insoddisfacente. In questo articolo, studiamo la causa dell'incapacità di elaborare contesti lunghi per le RNN e suggeriamo mitigazioni critiche. Esaminiamo due preoccupazioni pratiche nell'applicare le RNN all'avanguardia a contesti lunghi: (1) l'incapacità di estrapolare a input più lunghi della lunghezza di addestramento e (2) il limite superiore della capacità di memoria. Affrontando la prima preoccupazione, indaghiamo prima il *collasso dello stato* (SC), un fenomeno che causa un grave degrado delle prestazioni su lunghezze di sequenza non incontrate durante l'addestramento. Con esperimenti controllati, attribuiamo ciò all'overfitting dovuto allo stato ricorrente che è sovradimensionato rispetto alla lunghezza di addestramento. Per la seconda preoccupazione, addestriamo una serie di modelli Mamba-2 su documenti lunghi per stimare empiricamente la capacità dello stato ricorrente nella modellizzazione del linguaggio e nel recupero della chiave di accesso. Successivamente, vengono proposti tre metodi di mitigazione dello SC per migliorare la generalizzabilità della lunghezza di Mamba-2, consentendo al modello di elaborare più di 1 milione di token senza SC. Troviamo anche che la capacità dello stato ricorrente nel recupero della chiave di accesso scala in modo esponenziale rispetto alla dimensione dello stato, e addestriamo empiricamente un Mamba-2 370M con un'accuratezza di recupero della chiave di accesso quasi perfetta su una lunghezza di contesto di 256.000. Ciò suggerisce un futuro promettente per la modellizzazione di contesti lunghi basata su RNN.
Non ancora. Presentiamo SPACE, un benchmark che valuta sistematicamente la cognizione spaziale nei modelli di frontiera. Il nostro benchmark si basa su decenni di ricerca in scienze cognitive. Valuta le capacità di mappatura su larga scala che vengono utilizzate quando un organismo attraversa ambienti fisici, il ragionamento su scala più piccola riguardante forme e disposizioni degli oggetti, e l'infrastruttura cognitiva come l'attenzione spaziale e la memoria. Per molte attività, istanziamo presentazioni parallele tramite testo e immagini, consentendoci di valutare sia i grandi modelli linguistici che i grandi modelli multimodali. I risultati suggeriscono che i modelli di frontiera contemporanei non raggiungono l'intelligenza spaziale degli animali, ottenendo risultati vicini al livello casuale su diversi test classici di cognizione animale.