Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il Ridimensionamento del Tempo di Test (TTS) è un metodo importante per migliorare le prestazioni dei Grandi Modelli Linguistici (LLM) utilizzando calcoli aggiuntivi durante la fase di inferenza. Tuttavia, gli attuali studi non analizzano in modo sistematico come i modelli di politica, i Modelli di Ricompensa di Processo (PRM) e la difficoltà del problema influenzino il TTS. Questa mancanza di analisi limita la comprensione e l'uso pratico dei metodi TTS. In questo articolo, ci concentriamo su due domande fondamentali: (1) Qual è l'approccio ottimale per scalare i calcoli del tempo di test tra diversi modelli di politica, PRM e livelli di difficoltà del problema? (2) In che misura il calcolo esteso può migliorare le prestazioni dei LLM in compiti complessi, e i modelli linguistici più piccoli possono superare quelli più grandi con questo approccio? Attraverso esperimenti esaustivi su MATH-500 e compiti impegnativi AIME24, abbiamo le seguenti osservazioni: (1) La strategia TTS ottimale dal punto di vista del calcolo dipende fortemente dalla scelta del modello di politica, del PRM e della difficoltà del problema. (2) Con la nostra strategia TTS ottimale dal punto di vista del calcolo, modelli di politica estremamente piccoli possono superare modelli più grandi. Ad esempio, un LLM da 1B può superare un LLM da 405B in MATH-500. Inoltre, sia su MATH-500 che su AIME24, un LLM da 0.5B supera GPT-4o, un LLM da 3B supera un LLM da 405B, e un LLM da 7B batte o1 e DeepSeek-R1, con un'efficienza inferenziale più elevata. Queste scoperte dimostrano l'importanza dell'adattamento delle strategie TTS alle caratteristiche specifiche di ciascun compito e modello e indicano che il TTS è un approccio promettente per potenziare le capacità di ragionamento dei LLM.
Gli approcci esistenti per la detossificazione di testi multilingue sono ostacolati dalla scarsità di set di dati multilingue paralleli. In questo lavoro, presentiamo un pipeline per la generazione di dati di detossificazione multilingue paralleli. Introduciamo inoltre SynthDetoxM, un dataset di detossificazione di testi multilingue raccolto manualmente e generato sinteticamente, composto da 16.000 coppie di frasi di detossificazione di alta qualità in tedesco, francese, spagnolo e russo. I dati sono stati ottenuti da diversi set di dati di valutazione della tossicità e successivamente riscritti con nove moderni LLM open-source in un contesto di few-shot. I nostri esperimenti dimostrano che i modelli addestrati sui dataset sintetici prodotti hanno prestazioni superiori rispetto a quelli addestrati sul dataset MultiParaDetox annotato manualmente, anche in condizioni di limitatezza dei dati. I modelli addestrati su SynthDetoxM superano tutti gli LLM valutati in un contesto di few-shot. Rilasciamo il nostro dataset e il codice per contribuire ulteriormente alla ricerca sulla detossificazione di testi multilingue.
Le capacità di ragionamento, specialmente per risolvere problemi matematici complessi, sono componenti cruciali dell'intelligenza generale. Recenti progressi compiuti da aziende proprietarie, come i modelli della serie o di OpenAI, hanno ottenuto risultati notevoli su compiti di ragionamento. Tuttavia, i dettagli tecnici completi rimangono nascosti, e le tecniche che si ritiene siano state adottate sono solo apprendimento per rinforzo (RL) e lunghe catene di pensieri. Questo articolo propone un nuovo quadro RL, denominato OREAL, per perseguire il limite delle prestazioni che possono essere raggiunte attraverso l'apprendimento per rinforzo basato su Esito e Ricompensa per compiti di ragionamento matematico, dove solo le ricompense binarie sono facilmente accessibili. Dimostriamo teoricamente che il clonaggio del comportamento su traiettorie positive da campionamenti migliori di N (BoN) è sufficiente per apprendere la politica ottimale regolarizzata KL in ambienti di feedback binario. Questa formulazione implica inoltre che le ricompense dei campioni negativi debbano essere ridisegnate per garantire la coerenza del gradiente tra campioni positivi e negativi. Per alleviare le difficoltà a lungo esistenti causate dalle scarse ricompense in RL, che sono addirittura accentuate dalla correttezza parziale delle lunghe catene di pensiero per i compiti di ragionamento, applichiamo ulteriormente un modello di ricompensa a livello di token per campionare token importanti nelle traiettorie di ragionamento per l'apprendimento. Con OREAL, per la prima volta, un modello da 7B può ottenere un'accuratezza pass@1 del 94,0 su MATH-500 tramite RL, essendo all'altezza dei modelli da 32B. OREAL-32B supera anche i precedenti modelli da 32B addestrati per distillazione con un'accuratezza pass@1 del 95,0 su MATH-500. La nostra indagine indica anche l'importanza dei modelli di politica iniziale e delle query di addestramento per RL. Il codice, i modelli e i dati saranno rilasciati per beneficiare la ricerca futura su https://github.com/InternLM/OREAL.
In questo articolo, presentiamo il Concetto della Maledizione della Profondità, che mette in luce, spiega e affronta l'osservazione recente nei moderni Grandi Modelli di Linguaggio (LLM) in cui quasi la metà dei livelli è meno efficace del previsto. Confermiamo innanzitutto l'ampia diffusione di questo fenomeno nelle famiglie più popolari di LLM come Llama, Mistral, DeepSeek e Qwen. La nostra analisi, sia teorica che empirica, individua che la ragione sottostante all'inefficacia dei livelli profondi nei LLM è l'ampio utilizzo della Normalizzazione Pre-Livello (Pre-LN). Mentre la Pre-LN stabilizza l'addestramento dei LLM Transformer, la varianza dell'output cresce in modo esponenziale con la profondità del modello, causando indesiderabilmente che il gradiente dei blocchi Transformer profondi sia una matrice identità e quindi contribuisca appena all'addestramento. Per risolvere questa falla nell'addestramento, proponiamo la Scalatura della Normalizzazione del Livello, che scala la varianza dell'output della normalizzazione del livello in modo inversamente proporzionale alla radice quadrata della sua profondità. Questa semplice modifica attenua l'esplosione della varianza dell'output dei livelli Transformer più profondi, migliorandone il contributo. I nostri risultati sperimentali, che coprono dimensioni del modello da 130M a 1B, dimostrano che la Scalatura della Normalizzazione del Livello migliora significativamente le prestazioni del pre-addestramento dei LLM rispetto alla Pre-LN. Inoltre, questo miglioramento si trasferisce senza soluzione di continuità al fine-tuning supervisionato. Tutti questi vantaggi possono essere attribuiti al fatto che la Scalatura della Normalizzazione del Livello consente ai livelli più profondi di contribuire in modo più efficace durante l'addestramento.
Comunicare in linguaggio naturale è uno strumento potente in contesti multi-agente, poiché consente ad agenti indipendenti di condividere informazioni in ambienti parzialmente osservabili e permette la coordinazione senza preparazione con gli esseri umani. Tuttavia, la maggior parte dei lavori precedenti è limitata poiché si basano o sull'addestramento con grandi quantità di dimostrazioni umane o mancano della capacità di generare strategie di comunicazione naturali e utili. In questo lavoro, addestriamo modelli linguistici a condurre discussioni produttive sull'ambiente in linguaggio naturale senza alcuna dimostrazione umana. Scomponiamo il problema della comunicazione in ascolto e parlato. La nostra idea chiave è sfruttare l'obiettivo dell'agente per predire informazioni utili sul mondo come segnale di ricompensa denso che guida la comunicazione. In particolare, miglioriamo le capacità di ascolto di un modello addestrandolo a predire informazioni sull'ambiente basandosi sulle discussioni, e miglioriamo contemporaneamente le capacità di parlato di un modello con l'apprendimento per rinforzo multi-agente ricompensando i messaggi in base alla loro influenza sugli altri agenti. Per indagare il ruolo e la necessità della comunicazione in contesti sociali complessi, studiamo un gioco di deduzione sociale basato su Among Us, in cui la domanda chiave da risolvere è l'identità di un impostore avversario. Analizziamo comportamenti emergenti dovuti alla nostra tecnica, come accusare sospetti e fornire prove, e scopriamo che essa favorisce discussioni intense, raddoppiando i tassi di vittoria rispetto all'apprendimento per rinforzo standard. Rilasciamo il nostro codice e i modelli su https://socialdeductionllm.github.io/
La quantizzazione dei pesi del modello è fondamentale per ridurre i costi di comunicazione e inferenza dei modelli di grandi dimensioni. Tuttavia, quantizzare i modelli - specialmente a basse precisioni come int4 o int2 - richiede un compromesso nella qualità del modello; in particolare, si sa che int2 degrada notevolmente la qualità del modello. Di conseguenza, spesso i professionisti sono costretti a mantenere diversi modelli con livelli di quantizzazione differenti o a servire un singolo modello che soddisfi al meglio il compromesso tra qualità e latenza. D'altra parte, i tipi di dati interi, come int8, possiedono intrinsecamente una struttura nidificata (Matryoshka) in cui interi di larghezza inferiore, come int4 o int2, sono nidificati nei bit più significativi. Questo articolo propone la Quantizzazione Matryoshka (MatQuant), una nuova tecnica di quantizzazione multi-scala che affronta la sfida di avere bisogno di modelli quantizzati multipli. Consente di addestrare e mantenere un solo modello, che può poi essere servito a diversi livelli di precisione. Inoltre, grazie alla regolarizzazione fornita da MatQuant, i modelli di precisione int2 estratti da MatQuant possono essere fino al 10% più precisi rispetto alla quantizzazione int2 standard (utilizzando tecniche come QAT o OmniQuant). Questo rappresenta un progresso significativo nella quantizzazione del modello, dimostrato dal fatto che, con la stessa ricetta, un modello Gemma-2 9B FFN-quantizzato a int2 è più preciso di un modello Gemma-2 2B FFN-quantizzato a int8.
Questo articolo introduce il Modello di Grande Memoria (LM2), un'architettura Transformer solo decoder potenziata con un modulo di memoria ausiliario che mira ad affrontare le limitazioni dei Transformer standard nella ragionamento a più passaggi, nell'argomentazione relazionale e nella sintesi delle informazioni distribuite su contesti lunghi. Il LM2 proposto incorpora un modulo di memoria che funge da repository di rappresentazioni contestuali, interagendo con i token di input tramite attenzione incrociata e aggiornandosi attraverso meccanismi di gating. Per preservare le capacità generiche dei Transformer, LM2 mantiene il flusso di informazioni originale integrando un percorso di memoria complementare. I risultati sperimentali sul benchmark BABILong dimostrano che il modello LM2 supera sia il modello RMT potenziato dalla memoria del 37,1% che il modello di base Llama-3.2 del 86,3% in media su diverse attività. LM2 mostra capacità eccezionali nell'inferenza a più salti, nel ragionamento numerico e nel questionario con contesti ampi. Sul dataset MMLU, ottiene un miglioramento del 5,0% rispetto a un modello vaniglia preaddestrato, dimostrando che il suo modulo di memoria non degrada le prestazioni su compiti generici. Inoltre, nella nostra analisi, esploriamo l'interpretabilità della memoria, l'efficacia dei moduli di memoria e il comportamento al momento del test. Le nostre conclusioni sottolineano l'importanza della memoria esplicita nel potenziare le architetture Transformer.
I Large Language Models (LLM) hanno compiuto progressi significativi nella generazione di codice e nella risoluzione di problemi. Gli approcci attuali impiegano debugger iterativi basati su strumenti esterni che utilizzano feedback in tempo reale del compilatore o di altri strumenti per perfezionare programmi grezzi generati da vari metodi. Tuttavia, l'efficacia di questi approcci dipende fortemente dalla qualità della generazione iniziale del codice, che rimane una sfida aperta. In questo articolo, presentiamo CodeSim, un nuovo framework di generazione di codice multi-agente che affronta in modo esaustivo le fasi di sintesi del programma - pianificazione, codifica e debug - attraverso un approccio di percezione simile a quello umano. Come gli esseri umani verificano la propria comprensione di qualsiasi algoritmo attraverso la simulazione visiva, CodeSim presenta in modo unico un metodo di verifica del piano e di debug interno attraverso la simulazione passo dopo passo dell'input/output. Estesi esperimenti su sette impegnativi benchmark competitivi di risoluzione di problemi e sintesi di programmi dimostrano le notevoli capacità di generazione di codice di CodeSim. Il nostro framework raggiunge nuovi risultati di stato dell'arte (pass@1) - (HumanEval 95,1%, MBPP 90,7%, APPS 22% e CodeContests 29,1%). Inoltre, il nostro metodo mostra potenziale per un ulteriore miglioramento quando combinato con debugger esterni. Per agevolare ulteriori ricerche e sviluppi in questo settore, abbiamo reso open source il nostro framework a questo link (https://kagnlp.github.io/codesim.github.io/).
C'è stato un crescente interesse nella ricerca per la costruzione di modelli unificati di comprensione e generazione multimodale, tra i quali Show-o si distingue come un rappresentante notevole, dimostrando un grande potenziale sia per la generazione di testo in immagine che di immagine in testo. L'inferenza di Show-o coinvolge progressivamente il denoising dei token dell'immagine e la decodifica autoregressiva dei token di testo, e quindi, sfortunatamente, soffre di problemi di inefficienza da entrambi i lati. Questo articolo introduce Show-o Turbo per colmare questa lacuna. Identifichiamo innanzitutto una prospettiva unificata di denoising per la generazione di immagini e testo in Show-o basata sulla decodifica parallela dei token di testo. Proponiamo quindi di estendere la distillazione della consistenza (CD), un approccio qualificato per accorciare il processo di denoising dei modelli di diffusione, alle traiettorie multimodali di denoising di Show-o. Introduciamo una strategia di segmentazione delle traiettorie e una procedura di apprendimento del curriculum per migliorare la convergenza dell'addestramento. Empiricamente, nella generazione di testo in immagine, Show-o Turbo mostra un punteggio GenEval di 0,625 a 4 passaggi di campionamento senza l'uso di guida senza classificatore (CFG), superando quello del Show-o originale con 8 passaggi e CFG; nella generazione di immagine in testo, Show-o Turbo mostra un aumento della velocità del 1,5x senza sacrificare significativamente le prestazioni. Il codice è disponibile su https://github.com/zhijie-group/Show-o-Turbo.
Presentiamo che il ragionamento gerarchico LLM tramite il ridimensionamento dei modelli di pensiero può ottimizzare efficacemente lo spazio di ricerca del ragionamento e superare le capacità di ragionamento matematico di potenti LLM come OpenAI o1-preview e DeepSeek V3. Addestriamo il nostro modello ReasonFlux-32B con soli 8 GPU e introduciamo tre innovazioni: (i) una libreria di modelli di pensiero strutturata e generica, contenente circa 500 modelli di pensiero di alto livello capaci di generalizzare a problemi di ragionamento simili o rilevanti; (ii) esecuzione di apprendimento gerarchico per rinforzo su una sequenza di modelli di pensiero anziché su lunghe CoTs, ottimizzando un LLM di base per pianificare una traiettoria di modelli ottimale per gestire gradualmente problemi complessi; (iii) un nuovo sistema di ridimensionamento dell'inferenza che consente il ragionamento gerarchico LLM ridimensionando in modo adattivo i modelli di pensiero al momento dell'inferenza. Con una traiettoria di modelli contenente modelli di pensiero sequenziali, il nostro ReasonFlux-32B fa progredire significativamente le capacità di ragionamento matematico ai livelli di ultima generazione. In particolare, sul benchmark MATH, raggiunge un'accuratezza del 91,2% e supera o1-preview del 6,7%. Sul benchmark della Olimpiade Matematica USA (AIME), ReasonFlux-32B risolve in media il 56,7% dei problemi, superando o1-preview e DeepSeek-V3 rispettivamente del 27% e del 45%. Codice: https://github.com/Gen-Verse/ReasonFlux
L'accelerazione dell'inferenza nei Large Language Models (LLM) è fondamentale per le interazioni in tempo reale, poiché sono stati ampiamente integrati nei servizi del mondo reale. Il decoding speculativo, una soluzione completamente algoritmica, ha attirato l'attenzione per migliorare la velocità di inferenza elaborando e verificando i token, generando così più token in un singolo passaggio in avanti. Tuttavia, le attuali strategie di elaborazione di solito richiedono un'importante ottimizzazione o hanno prestazioni non uniformi tra compiti diversi. Per affrontare queste sfide, proponiamo Hierarchy Drafting (HD), un nuovo approccio di elaborazione senza perdita che organizza varie fonti di token in più database in un framework gerarchico basato sulla località temporale. Nella fase di elaborazione, HD accede sequenzialmente a più database per ottenere token di bozza dalla località più alta a quella più bassa, garantendo un'accelerazione coerente tra compiti diversi e riducendo al minimo la latenza di elaborazione. I nostri esperimenti su Spec-Bench utilizzando LLM con 7B e 13B parametri dimostrano che HD supera i metodi esistenti di elaborazione del database, ottenendo miglioramenti robusti nella velocità di inferenza tra dimensioni del modello, compiti e temperature.
Gli Agenti del Grande Modello Linguistico (LLM) hanno dimostrato notevoli capacità nell'automazione dei compiti e nella presa di decisioni intelligenti, guidando l'ampia adozione di framework di sviluppo degli agenti come LangChain e AutoGen. Tuttavia, questi framework servono principalmente sviluppatori con un'ampia esperienza tecnica - una limitazione significativa considerando che solo lo 0,03% della popolazione globale possiede le necessarie competenze di programmazione. Questo netto divario di accessibilità pone una domanda fondamentale: Possiamo consentire a tutti, indipendentemente dal background tecnico, di costruire i propri agenti LLM utilizzando solo il linguaggio naturale? Per affrontare questa sfida, presentiamo MetaChain - un framework Completamente Automatico e altamente Auto-Sviluppante che consente agli utenti di creare e distribuire agenti LLM attraverso il solo Linguaggio Naturale. Operando come un Sistema Operativo di Agenti autonomo, MetaChain è composto da quattro componenti chiave: i) Utility di Sistema Agentico, ii) Motore d'Azione LLM, iii) File System Auto-Gestente, e iv) Modulo di Personalizzazione dell'Agente Auto-Gioco. Questo sistema leggero ma potente consente la creazione e la modifica efficiente e dinamica di strumenti, agenti e flussi di lavoro senza requisiti di codifica o intervento manuale. Oltre alle capacità di sviluppo di agenti senza codice, MetaChain funge anche da sistema multi-agente versatile per Assistenti AI Generali. Valutazioni approfondite sul benchmark GAIA dimostrano l'efficacia di MetaChain in compiti multi-agente generalisti, superando i metodi all'avanguardia esistenti. Inoltre, le capacità correlate a Retrieval-Augmented Generation (RAG) di MetaChain hanno dimostrato prestazioni costantemente superiori rispetto a molte soluzioni alternative basate su LLM.
I recenti progressi hanno stabilito i Diffusion Transformers (DiTs) come un framework dominante nella modellazione generativa. Sfruttando questo successo, Lumina-Next raggiunge prestazioni eccezionali nella generazione di immagini fotorealistiche con Next-DiT. Tuttavia, il suo potenziale per la generazione di video rimane in gran parte inesplorato, con significativi ostacoli nella modellazione della complessità spazio-temporale intrinseca ai dati video. Per affrontare ciò, presentiamo Lumina-Video, un framework che sfrutta i punti di forza di Next-DiT introducendo soluzioni ad hoc per la sintesi video. Lumina-Video incorpora un'architettura Multi-scale Next-DiT, che apprende congiuntamente diverse patchification per migliorare sia l'efficienza che la flessibilità. Integrando lo score del movimento come condizione esplicita, Lumina-Video consente anche un controllo diretto del grado dinamico dei video generati. Combinato con uno schema di addestramento progressivo con risoluzione e FPS sempre più elevati, e uno schema di addestramento multi-sorgente con dati naturali e sintetici misti, Lumina-Video raggiunge notevole qualità estetica e fluidità del movimento con elevata efficienza durante l'addestramento e l'inferenza. Proponiamo inoltre Lumina-V2A, un modello video-audio basato su Next-DiT, per creare suoni sincronizzati per i video generati. I codici sono disponibili su https://www.github.com/Alpha-VLLM/Lumina-Video.
I modelli di visione-linguaggio senza codificatore esistenti (VLM) stanno rapidamente riducendo il divario di prestazioni con i loro omologhi basati su codificatori, evidenziando il potenziale promettente per sistemi multimodali unificati con semplicità strutturale e distribuzione efficiente. Chiariamo sistematicamente il divario di prestazioni tra i VLM che utilizzano codificatori di visione pre-addestrati, tokenizzatori discreti e strati visivi minimalisti da zero, scavando a fondo le caratteristiche poco esaminate dei VLM senza codificatore. Sviluppiamo strategie efficienti per i VLM senza codificatore che competono con quelli basati su codificatori mainstream. Dopo un'approfondita indagine, lanciamo EVEv2.0, una nuova e migliorata famiglia di VLM senza codificatore. Dimostriamo che: (i) Decomporre correttamente e associare gerarchicamente visione e linguaggio all'interno di un modello unificato riduce l'interferenza tra le modalità. (ii) Una strategia di addestramento ben progettata consente un'ottimizzazione efficace per i VLM senza codificatore. Attraverso una valutazione estensiva, il nostro EVEv2.0 rappresenta uno studio approfondito per lo sviluppo di un'architettura solo decoder attraverso le modalità, dimostrando una maggiore efficienza dei dati e una forte capacità di ragionamento visivo. Il codice è disponibile pubblicamente su: https://github.com/baaivision/EVE.
La guida senza classificatore (CFG) è una tecnica chiave per migliorare la generazione condizionale nei modelli di diffusione, consentendo un controllo più accurato mentre si migliora la qualità del campione. È naturale estendere questa tecnica alla diffusione video, che genera video condizionati da un numero variabile di frame di contesto, collettivamente indicati come storia. Tuttavia, individuiamo due sfide chiave nel guidare con una storia di lunghezza variabile: architetture che supportano solo il condizionamento di dimensioni fisse e l'osservazione empirica che lo stile di dropout della storia CFG si comporta male. Per affrontare ciò, proponiamo il Transformer Forzante di Diffusione (DFoT), un'architettura di diffusione video e un obiettivo di addestramento teoricamente fondato che consentono congiuntamente il condizionamento su un numero flessibile di frame di storia. Introduciamo quindi la Guida alla Storia, una famiglia di metodi di guida unicamente abilitati da DFoT. Mostreremo che la sua forma più semplice, la guida alla storia vaniglia, migliora già significativamente la qualità della generazione video e la coerenza temporale. Un metodo più avanzato, la guida alla storia attraverso il tempo e la frequenza, potenzia ulteriormente la dinamica del movimento, consente la generalizzazione compositiva a storie fuori distribuzione e può gestire in modo stabile video estremamente lunghi. Sito web: https://boyuan.space/history-guidance
I Large Vision-Language Models (LVLM) possono ragionare efficacemente su input testuali e visivi, ma tendono a generare contenuti sintatticamente coerenti ma non ancorati visivamente. In questo articolo, investighiamo la dinamica interna dell'allucinazione esaminando la classifica dei logit dei token durante il processo di generazione, rivelando tre modelli chiave nel modo in cui i LVLM elaborano le informazioni: (1) perdita graduale di informazioni visive - i token ancorati visivamente diventano gradualmente meno favoriti durante la generazione, e (2) eccitazione precoce - i token semanticamente significativi raggiungono l'attivazione massima nei livelli prima rispetto al livello finale. (3) informazioni genuine nascoste - i token ancorati visivamente, sebbene non vengano alla fine selezionati, mantengono comunque classifiche relativamente alte durante l'inferezza. Sulla base di queste osservazioni, proponiamo VISTA (Visual Information Steering with Token-logit Augmentation), un framework di intervento senza addestramento che riduce l'allucinazione promuovendo informazioni genuine. VISTA funziona combinando due approcci complementari: rafforzando le informazioni visive nello spazio di attivazione e sfruttando le attivazioni dei livelli precoci per promuovere una decodifica semanticamente significativa. Rispetto ai metodi esistenti, VISTA non richiede supervisione esterna ed è applicabile a varie strategie di decodifica. Estesi esperimenti mostrano che VISTA in media riduce l'allucinazione di circa il 40% nel compito di generazione aperta valutato, e supera costantemente i metodi esistenti su quattro benchmark attraverso quattro architetture con tre strategie di decodifica.
La generazione personalizzata ha ottenuto significativi progressi nella sintesi delle immagini, tuttavia la generazione di video personalizzati rimane una sfida a causa delle inconsistenze temporali e della degradazione della qualità. In questo articolo, presentiamo CustomVideoX, un innovativo framework che sfrutta il transformer di diffusione video per la generazione di video personalizzati da un'immagine di riferimento. CustomVideoX sfrutta reti video pre-addestrate addestrando esclusivamente i parametri LoRA per estrarre le caratteristiche di riferimento, garantendo efficienza e adattabilità. Per facilitare un'interazione senza soluzione di continuità tra l'immagine di riferimento e il contenuto video, proponiamo l'Attenzione di Riferimento 3D, che consente un coinvolgimento diretto e simultaneo delle caratteristiche dell'immagine di riferimento con tutti i frame video attraverso dimensioni spaziali e temporali. Per mitigare l'eccessiva influenza delle caratteristiche dell'immagine di riferimento e delle indicazioni testuali sul contenuto video generato durante l'inferenza, implementiamo la strategia Time-Aware Reference Attention Bias (TAB), modulando dinamicamente il bias di riferimento su diversi passaggi temporali. Inoltre, introduciamo il modulo di Miglioramento Consapevole della Regione dell'Entità (ERAE), allineando le regioni altamente attivate dei token delle entità chiave con l'iniezione delle caratteristiche di riferimento regolando il bias di attenzione. Per valutare approfonditamente la generazione di video personalizzati, istituiamo un nuovo benchmark, VideoBench, che comprende oltre 50 oggetti e 100 prompt per una valutazione estensiva. I risultati sperimentali mostrano che CustomVideoX supera significativamente i metodi esistenti in termini di coerenza e qualità video.
Nonostante la promessa di sintetizzare video ad alta fedeltà, i Transformer a Diffusione (DiTs) con attenzione tridimensionale completa soffrono di un'inferenza costosa a causa della complessità del calcolo dell'attenzione e dei numerosi passaggi di campionamento. Ad esempio, il modello Open-Sora-Plan popolare richiede più di 9 minuti per generare un singolo video di 29 fotogrammi. Questo articolo affronta il problema dell'inefficienza da due punti di vista: 1) Potare l'attenzione tridimensionale completa basata sulla ridondanza all'interno dei dati video; Identifichiamo un diffuso modello ripetitivo a mosaico nelle mappe di attenzione 3D per i dati video e sosteniamo una nuova famiglia di attenzione 3D sparso che ha una complessità lineare rispetto al numero di fotogrammi video. 2) Accorciare il processo di campionamento adottando la distillazione di coerenza multi-step esistente; Suddividiamo l'intera traiettoria di campionamento in diversi segmenti e eseguiamo la distillazione di coerenza all'interno di ciascuno per attivare capacità di generazione a pochi passaggi. Progettiamo inoltre un pipeline di addestramento a tre fasi per unire l'attenzione a bassa complessità e le capacità di generazione a pochi passaggi. In particolare, con lo 0,1% dei dati di preaddestramento, trasformiamo il modello Open-Sora-Plan-1.2 in un modello efficiente che è 7,4x -7,8x più veloce per la generazione di video 720p di 29 e 93 fotogrammi con un margine di compromesso delle prestazioni in VBench. Inoltre, dimostriamo che il nostro approccio è adattabile all'inferenza distribuita, ottenendo un ulteriore aumento di velocità del 3,91x quando eseguito su 4 GPU con parallelismo di sequenza.
L'approccio predominante per addestrare agenti di navigazione web raccoglie dimostrazioni umane per un insieme di siti web popolari e compiti scritti a mano, ma sta diventando chiaro che i dati umani sono una risorsa inefficiente. Sviluppiamo un sistema per facilitare l'addestramento su scala Internet per agenti senza laboriose annotazioni umane. Nella prima fase, un LLM genera compiti per 150k siti web diversi. Nella fase successiva, gli agenti LLM completano i compiti e producono traiettorie. Nella fase finale, un LLM esamina le traiettorie e ne valuta il successo. I modelli linguistici sono competitivi con gli annotatori umani, rilevando e filtrando contenuti dannosi con un'accuratezza del 97%, generando compiti fattibili con un tasso dell'89%, e valutando le traiettorie di successo con un'accuratezza dell'82,6%. Scalando il sistema, agenti basati su Llama 3.1 70B risolvono il 16,7% dei compiti per 150k siti. L'addestramento sui dati generati dal nostro sistema è competitivo con l'addestramento su dimostrazioni umane. In impostazioni con limitazioni di dati derivate da Mind2Web e WebLINX, miglioriamo l'accuratezza del passo fino al +89,5% e +122,1% rispettivamente per agenti addestrati su miscele di dati dal nostro sistema e dati umani. Addestrando agenti con tutti i dati umani disponibili da questi benchmark, gli agenti non riescono a generalizzare su siti reali diversi, e l'aggiunta dei nostri dati migliora la loro generalizzazione del +149,0% per WebLINX e del +156,3% per Mind2Web. Il codice sarà disponibile su: data-for-agents.github.io.
I recenti progressi nell'ottimizzazione delle preferenze umane, originariamente sviluppati per i Grandi Modelli Linguistici (LLM), hanno mostrato un significativo potenziale nel migliorare i modelli di diffusione testo-immagine. Questi metodi mirano a imparare la distribuzione dei campioni preferiti distinguendoli da quelli meno preferiti. Tuttavia, i dataset di preferenze esistenti spesso presentano sovrapposizioni tra queste distribuzioni, portando a una distribuzione conflittuale. Inoltre, abbiamo identificato che le istruzioni di input contengono informazioni non rilevanti per le immagini meno preferite, limitando la capacità della rete di denoising di predire con precisione il rumore nei metodi di ottimizzazione delle preferenze, noto come problema delle istruzioni non rilevanti. Per affrontare queste sfide, proponiamo l'Ottimizzazione delle Preferenze a Doppia Didascalia (DCPO), un approccio innovativo che utilizza due didascalie distinte per mitigare le istruzioni non rilevanti. Per affrontare la distribuzione conflittuale, introduciamo il dataset Pick-Double Caption, una versione modificata di Pick-a-Pic v2 con didascalie separate per le immagini preferite e meno preferite. Proponiamo inoltre tre diverse strategie per generare didascalie distinte: captioning, perturbazione e metodi ibridi. I nostri esperimenti mostrano che DCPO migliora significativamente la qualità e la rilevanza delle immagini rispetto alle istruzioni, superando Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO e MaPO su diversi metriche, inclusi Pickscore, HPSv2.1, GenEval, CLIPscore e ImageReward, raffinati su SD 2.1 come base.
La generazione di testo in 3D automatizza la creazione di contenuti 3D da descrizioni testuali, offrendo un potenziale trasformativo in vari campi. Tuttavia, i metodi esistenti spesso faticano ad allineare i contenuti generati con le preferenze umane, limitandone l'applicabilità e flessibilità. Per affrontare tali limitazioni, in questo articolo proponiamo DreamDPO, un framework basato sull'ottimizzazione che integra le preferenze umane nel processo di generazione 3D, attraverso un'ottimizzazione diretta delle preferenze. In pratica, DreamDPO costruisce prima esempi a coppie, quindi confronta il loro allineamento con le preferenze umane utilizzando ricompense o modelli multimodali ampi, e infine ottimizza la rappresentazione 3D con una funzione di perdita guidata dalle preferenze. Sfruttando il confronto a coppie per riflettere le preferenze, DreamDPO riduce la dipendenza dalle valutazioni di qualità puntuali precise consentendo al contempo un controllo dettagliato attraverso un'ottimizzazione guidata dalle preferenze. Gli esperimenti dimostrano che DreamDPO ottiene risultati competitivi e fornisce contenuti 3D di maggiore qualità e più controllabili rispetto ai metodi esistenti. Il codice e i modelli saranno resi open-source.
Steel-LLM è un modello linguistico di tipo cinese sviluppato da zero con l'obiettivo di creare un modello di alta qualità open-source nonostante le risorse computazionali limitate. Lanciato nel marzo 2024, il progetto mirava ad addestrare un modello da 1 miliardo di parametri su un dataset su larga scala, dando priorità alla trasparenza e alla condivisione di approfondimenti pratici per aiutare gli altri nella comunità. Il processo di addestramento si è concentrato principalmente sui dati cinesi, con una piccola proporzione di dati in inglese inclusi, affrontando le lacune nei LLM open-source esistenti fornendo un resoconto più dettagliato e pratico del percorso di costruzione del modello. Steel-LLM ha dimostrato prestazioni competitive su benchmark come CEVAL e CMMLU, superando i modelli iniziali di istituzioni più grandi. Questo articolo fornisce un riassunto esaustivo delle principali contribuzioni del progetto, inclusa la raccolta dei dati, la progettazione del modello, le metodologie di addestramento e le sfide incontrate lungo il percorso, offrendo una risorsa preziosa per ricercatori e professionisti interessati a sviluppare i propri LLM. I checkpoint del modello e lo script di addestramento sono disponibili su https://github.com/zhanshijinwat/Steel-LLM.
Le tecniche di generazione potenziate dal contesto (CAG), inclusi RAG e ICL, richiedono l'efficiente combinazione di molteplici contesti per generare risposte alle query degli utenti. L'inserimento diretto di questi contesti come sequenza introduce un notevole onere computazionale ricodificando la selezione combinata di contesti per ogni richiesta. Per affrontare ciò, esploriamo il promettente potenziale dell'encoding parallelo per pre-calcolare e memorizzare in cache in modo indipendente gli stati KV di ciascun contesto. Questo approccio consente il caricamento diretto degli stati memorizzati durante l'inferenza consentendo il riutilizzo della posizione attraverso i contesti. Tuttavia, a causa di disallineamenti nella distribuzione dell'attenzione, l'applicazione diretta dell'encoding parallelo comporta un significativo calo delle prestazioni. Per consentire una CAG efficace ed efficiente, proponiamo l'Encoding Parallelo Adattivo (APE), che introduce prefisso condiviso, temperatura dell'attenzione e fattore di scala per allineare la distribuzione dell'encoding parallelo con l'encoding sequenziale. I risultati sulle attività RAG e ICL dimostrano che APE può preservare il 98% e il 93% delle prestazioni di encoding sequenziale utilizzando gli stessi input, superando l'encoding parallelo rispettivamente del 3.6% e del 7.9%. Si adatta anche alla generazione di CAG multipla, codificando efficacemente centinaia di contesti in parallelo. L'efficienza valutativa mostra che APE può ottenere un aumento della velocità di 4.5 volte riducendo di 28 volte il tempo di precaricamento per un contesto di lunghezza 128K dall'inizio alla fine.
Il decoding speculativo (SD) accelera l'inferenza dei grandi modelli linguistici utilizzando un modello di bozza più piccolo per prevedere più token, che vengono successivamente verificati in parallelo dal modello target più grande. Tuttavia, la capacità limitata del modello di bozza spesso richiede il campionamento basato su alberi per migliorare l'accuratezza delle previsioni, generando più candidati ad ogni passaggio. Identifichiamo una limitazione chiave in questo approccio: i candidati allo stesso passaggio derivano dalla stessa rappresentazione, limitando la diversità e riducendo l'efficacia complessiva. Per affrontare ciò, proponiamo Jakiro, sfruttando il Mixture of Experts (MoE), dove esperti indipendenti generano previsioni diverse, separando efficacemente le correlazioni tra i candidati. Inoltre, introduciamo una strategia di inferenza ibrida, combinando il decoding autoregressivo per i token iniziali con il decoding parallelo per le fasi successive, potenziando quest'ultimo con un meccanismo contrastivo nelle caratteristiche per migliorare l'accuratezza. Il nostro metodo aumenta significativamente l'accuratezza delle previsioni e ottiene maggiori accelerazioni nell'inferenza. Estesi esperimenti su diversi modelli convalidano l'efficacia e la robustezza del nostro approccio, stabilendo un nuovo SOTA nel decoding speculativo. I nostri codici sono disponibili su https://github.com/haiduo/Jakiro.
I modelli di robot condizionati dal linguaggio hanno il potenziale di consentire ai robot di svolgere una vasta gamma di compiti basati su istruzioni in linguaggio naturale. Tuttavia, valutarne la sicurezza e l'efficacia rimane una sfida poiché è difficile testare tutti i diversi modi in cui un singolo compito può essere formulato. Gli attuali benchmark presentano due limitazioni chiave: si basano su un insieme limitato di istruzioni generate dall'uomo, tralasciando molti casi sfidanti, e si concentrano solo sulle prestazioni dei compiti senza valutare la sicurezza, come ad esempio evitare danni. Per affrontare queste lacune, introduciamo Embodied Red Teaming (ERT), un nuovo metodo di valutazione che genera istruzioni diverse e impegnative per testare questi modelli. ERT utilizza tecniche automatizzate di red teaming con Modelli di Linguaggio Visivo (VLM) per creare istruzioni difficili e contestualmente fondate. I risultati sperimentali mostrano che i modelli di robot condizionati dal linguaggio all'avanguardia falliscono o si comportano in modo non sicuro su istruzioni generate da ERT, sottolineando i difetti dei benchmark attuali nella valutazione delle prestazioni e della sicurezza nel mondo reale. Codice e video sono disponibili su: https://s-karnik.github.io/embodied-red-team-project-page.
Lo sviluppo di robusti benchmark di sicurezza per grandi modelli linguistici richiede set di dati aperti e riproducibili che possano misurare sia il rifiuto appropriato di contenuti dannosi che il potenziale sovra-restrizione del legittimo discorso scientifico. Presentiamo un dataset open-source e un framework di test per valutare i meccanismi di sicurezza dei modelli LLM principalmente attraverso interrogazioni su sostanze controllate, analizzando le risposte di quattro modelli principali a prompt variati in modo sistematico. I nostri risultati rivelano profili di sicurezza distinti: Claude-3.5-sonnet ha dimostrato l'approccio più conservativo con il 73% di rifiuti e il 27% di concessioni, mentre Mistral ha cercato di rispondere al 100% delle interrogazioni. GPT-3.5-turbo ha mostrato una restrizione moderata con il 10% di rifiuti e il 90% di concessioni, e Grok-2 ha registrato il 20% di rifiuti e l'80% di concessioni. Le strategie di variazione del prompt di test hanno rivelato una diminuzione della coerenza delle risposte, dall'85% con prompt singoli al 65% con cinque variazioni. Questo benchmark pubblicamente disponibile consente una valutazione sistematica dell'equilibrio critico tra le necessarie restrizioni di sicurezza e il potenziale sovra-censura del legittimo interrogarsi scientifico, fornendo una base per misurare i progressi nell'implementazione della sicurezza dell'AI. L'analisi della catena di pensiero rivela potenziali vulnerabilità nei meccanismi di sicurezza, evidenziando la complessità nell'implementare salvaguardie robuste senza limitare eccessivamente il desiderabile e valido discorso scientifico.