Articoli di ricerca IA selezionati quotidianamente con traduzioni
La perdita contrastiva è un approccio potente per l'apprendimento della rappresentazione, dove dimensioni di batch più grandi migliorano le prestazioni fornendo più campioni negativi per distinguere meglio tra dati simili e dissimili. Tuttavia, l'incremento delle dimensioni di batch è limitato dalla crescita quadratica del consumo di memoria GPU, principalmente a causa dell'istanziazione completa della matrice di similarità. Per affrontare questo problema, proponiamo una strategia di calcolo basata su blocchi che suddivide il calcolo della perdita contrastiva in blocchi arbitrariamente piccoli, evitando la completa materializzazione della matrice di similarità. Inoltre, introduciamo una strategia di suddivisione a più livelli per sfruttare la struttura gerarchica dei sistemi distribuiti, utilizzando comunicazioni basate su anelli a livello di GPU per ottimizzare la sincronizzazione e kernel fusi a livello di core CUDA per ridurre l'overhead di I/O. I risultati sperimentali mostrano che il metodo proposto scala le dimensioni di batch a livelli senza precedenti. Ad esempio, consente l'addestramento contrastivo di un modello CLIP-ViT-L/14 con una dimensione di batch di 4M o 12M utilizzando 8 o 32 A800 80GB senza sacrificare alcuna precisione. Rispetto alle soluzioni efficienti in termini di memoria SOTA, ottiene una riduzione di due ordini di grandezza della memoria pur mantenendo una velocità comparabile. Il codice sarà reso pubblicamente disponibile.
I Large Language Models (LLM) soffrono di allucinazioni, facendo riferimento alle informazioni non fattuali presenti nei contenuti generati, nonostante le loro capacità superiori in varie attività. Nel frattempo, l'editing della conoscenza è stato sviluppato come un nuovo paradigma popolare per correggere le conoscenze factual errate codificate nei LLM, con il vantaggio di evitare il riaddestramento da zero. Tuttavia, un problema comune dei dataset di valutazione esistenti per l'editing della conoscenza è che non garantiscono che i LLM generino effettivamente risposte allucinate alle domande di valutazione prima dell'editing. Quando i LLM sono valutati su tali dataset dopo essere stati modificati con diverse tecniche, è difficile adottare direttamente le prestazioni per valutare l'efficacia dei diversi metodi di editing della conoscenza nel correggere le allucinazioni. Pertanto, la domanda fondamentale rimane insufficientemente convalidata: l'editing della conoscenza può davvero correggere le allucinazioni nei LLM? Abbiamo proposto HalluEditBench per valutare in modo completo i metodi di editing della conoscenza nel correggere le allucinazioni del mondo reale. Prima, costruiamo rigorosamente un massiccio dataset di allucinazioni con 9 domini, 26 argomenti e più di 6.000 allucinazioni. Successivamente, valutiamo le prestazioni dei metodi di editing della conoscenza in modo olistico su cinque dimensioni, tra cui Efficacia, Generalizzazione, Portabilità, Località e Robustezza. Attraverso HalluEditBench, abbiamo fornito nuove prospettive sui potenziali e limiti dei diversi metodi di editing della conoscenza nel correggere le allucinazioni, che potrebbero ispirare futuri miglioramenti e facilitare i progressi nel campo dell'editing della conoscenza.
I modelli a lungo contesto (LCM) hanno mostrato un grande potenziale nel processare sequenze di input lunghe (anche più di 100M token) in modo conveniente ed efficace. Con significativi progressi, recenti ricerche hanno evidenziato che i LCM possono individuare con precisione informazioni rilevanti a livello di token all'interno del contesto. Tuttavia, le prestazioni generative di questi LCM sono ancora lontane dall'essere soddisfacenti e potrebbero portare a risposte non allineate, come le allucinazioni. Per potenziare la capacità generativa dei LCM, lavori esistenti hanno indagato gli effetti delle dimensioni e della qualità dei dati sia per la preformazione che per l'addestramento istruzionale. Anche se hanno ottenuto miglioramenti significativi, i metodi precedenti peccano in termini di efficacia o efficienza. In questo articolo, presentiamo LOGO (Allineamento a lungo contesto tramite Ottimizzazione efficiente delle preferenze), una strategia di addestramento che introduce innanzitutto l'ottimizzazione delle preferenze per l'allineamento a lungo contesto. Per superare il problema legato alla memoria GPU causato dalla lunga sequenza, LOGO utilizza una strategia di ottimizzazione delle preferenze senza riferimento e adotta un metodo di sintesi delle posizioni per costruire i dati di addestramento. Addestrando con soli 0.3B di dati su una singola macchina GPU 8timesA800 per 16 ore, LOGO consente al modello Llama-3-8B-Instruct-80K di raggiungere prestazioni comparabili con GPT-4 in compiti reali a lungo contesto, preservando nel contempo le capacità originali del modello in altri compiti, come il language modeling e MMLU. Inoltre, LOGO può estendere la dimensione della finestra di contesto del modello migliorandone le prestazioni generative.
La disponibilità di dati di alta qualità è uno dei fattori più importanti per migliorare la capacità di ragionamento dei LLM. Lavori esistenti hanno dimostrato l'efficacia della creazione di dati di istruzione aggiuntivi da domande iniziali o basi di conoscenza. Ricerche recenti indicano che l'incremento continuo della sintesi dati da modelli potenti (ad es. GPT-4) può ulteriormente stimolare le performance di ragionamento. Nonostante le promesse, la comunità open-source manca ancora di dati di alta qualità su larga scala e di metodi di sintesi dati scalabili a costi accessibili. Per affrontare questo problema, presentiamo ScaleQuest, un metodo di sintesi dati scalabile e innovativo che utilizza modelli open-source di "piccole dimensioni" (ad es. 7B) per generare domande da zero senza la necessità di dati iniziali con vincoli di complessa ampliamento. Con l'efficiente ScaleQuest, abbiamo automaticamente costruito un dataset di ragionamento matematico composto da 1 milione di coppie problema-soluzione, che sono più efficaci rispetto ai dataset open-source esistenti. Questo può aumentare universalmente le performance dei modelli open-source mainstream (come Mistral, Llama3, DeepSeekMath e Qwen2-Math) ottenendo guadagni dal 29,2% al 46,4% su MATH. Degno di nota è che semplicemente raffinando il modello Qwen2-Math-7B-Base con il nostro dataset è possibile superare addirittura Qwen2-Math-7B-Instruct, un modello forte e ben allineato su dati closed-source, e modelli proprietari come GPT-4-Turbo e Claude-3.5 Sonnet.
Proponiamo Framer per l'interpolazione interattiva dei frame, che mira a produrre frame con transizioni fluide tra due immagini secondo la creatività dell'utente. In concreto, oltre ad utilizzare i frame iniziale e finale come input, il nostro approccio supporta la personalizzazione del processo di transizione adattando la traiettoria di alcuni keypoints selezionati. Tale progettazione offre due chiari vantaggi. In primo luogo, l'incorporazione dell'interazione umana attenua il problema derivante dalle numerose possibilità di trasformare un'immagine in un'altra, consentendo un controllo più preciso dei movimenti locali. In secondo luogo, come forma più basilare di interazione, i keypoints aiutano a stabilire la corrispondenza tra i frame, potenziando il modello per gestire casi complessi (ad esempio, oggetti nei frame iniziale e finale hanno forme e stili diversi). È importante notare che il nostro sistema offre anche una modalità "autopilota", in cui introduciamo un modulo per stimare automaticamente i keypoints e perfezionare la traiettoria, semplificando l'utilizzo nella pratica. Estesi risultati sperimentali dimostrano le prestazioni accattivanti di Framer su varie applicazioni, come il morphing delle immagini, la generazione di video in time-lapse, l'interpolazione di cartoni, ecc. Il codice, il modello e l'interfaccia saranno rilasciati per agevolare ulteriori ricerche.
Introduciamo il concetto di un gioco infinito generativo, un videogioco che va oltre i tradizionali limiti dei sistemi finiti e codificati duramente utilizzando modelli generativi. Ispirandoci alla distinzione di James P. Carse tra giochi finiti e infiniti, sfruttiamo i recenti progressi nell'IA generativa per creare Unbounded: un gioco di simulazione della vita dei personaggi completamente racchiuso in modelli generativi. In particolare, Unbounded trae ispirazione dalle simulazioni di vita sandbox e ti consente di interagire con il tuo personaggio virtuale autonomo in un mondo virtuale nutrendolo, giocando con lui e guidandolo, con meccaniche a termine aperto generate da un LLM, alcune delle quali possono essere emergenti. Per sviluppare Unbounded, proponiamo innovazioni tecniche sia nei domini della generazione LLM che visiva. In particolare, presentiamo: (1) un modello linguistico di grandi dimensioni (LLM) specializzato e distillato che genera dinamicamente meccaniche di gioco, narrazioni e interazioni tra personaggi in tempo reale, e (2) un nuovo Adattatore di prompt di immagine regionale dinamico (IP-Adapter) per i modelli di visione che garantisce una generazione visiva coerente ma flessibile di un personaggio in diversi ambienti. Valutiamo il nostro sistema attraverso analisi qualitative e quantitative, mostrando miglioramenti significativi nella simulazione della vita dei personaggi, nell'istruzione degli utenti, nella coerenza narrativa e nella coerenza visiva sia per i personaggi che per gli ambienti rispetto agli approcci tradizionali correlati.
Risolvere complesse attività di domande e risposte su grafici richiede avanzate capacità di ragionamento visivo nei grandi modelli di linguaggio multimodali (MLLMs). Studi recenti evidenziano che tali capacità sono composte da due parti principali: riconoscere le informazioni chiave dagli input visivi e condurre il ragionamento su di esse. Pertanto, un approccio promettente per potenziare i MLLMs è costruire dati di addestramento rilevanti concentrati su questi due aspetti. Tuttavia, raccogliere e annotare grafici e domande complesse è costoso e richiede tempo, e garantire la qualità delle risposte annotate rimane una sfida. In questo articolo, proponiamo la Traduzione tramite Codice come Intermediario (CIT), un metodo di sintesi dati economico, efficiente e facilmente scalabile per estrarre le capacità di ragionamento visivo dai LLMs ai MLLMs. Il codice funge da intermediario che traduce le rappresentazioni visive dei grafici in rappresentazioni testuali, consentendo ai LLMs di comprendere informazioni cross-modal. In particolare, impieghiamo tecniche di sintesi basate sul testo per costruire codice di tracciamento dei grafici e generare ReachQA, un dataset contenente 3k grafici ad alta intensità di ragionamento e 20k coppie di domande e risposte per potenziare sia le capacità di riconoscimento che di ragionamento. Gli esperimenti mostrano che, quando raffinati con i nostri dati, i modelli non solo si comportano bene su benchmark relativi ai grafici, ma dimostrano anche migliorate capacità di ragionamento multimodale su benchmark matematici generali come MathVista. Il codice e il dataset sono pubblicamente disponibili su https://github.com/hewei2001/ReachQA.
In questo rapporto, presentiamo una serie di metodi per migliorare la modellazione del reward per LLMs, concentrandoci specificamente sulle tecniche incentrate sui dati. Proponiamo efficaci strategie di selezione e filtraggio dei dati per la cura di dataset di preferenze open-source di alta qualità, culminando nella raccolta dati Skywork-Reward, che contiene solo 80K coppie di preferenze - significativamente più piccolo rispetto ai dataset esistenti. Utilizzando questo dataset curato, abbiamo sviluppato la serie di modelli Skywork-Reward - Skywork-Reward-Gemma-27B e Skywork-Reward-Llama-3.1-8B - con il primo attualmente in cima alla classifica di RewardBench. In particolare, le nostre tecniche e dataset hanno migliorato direttamente le prestazioni di molti modelli classificati in alto su RewardBench, evidenziando l'impatto pratico dei nostri contributi nelle applicazioni di apprendimento delle preferenze nel mondo reale.
I grandi modelli linguistici (LLM) possono memorizzare una quantità significativa di conoscenze fattuali nei loro parametri. Tuttavia, le conoscenze parametriche potrebbero entrare in conflitto con le informazioni fornite nel contesto -- questo fenomeno, noto come conflitti di conoscenza tra contesto e memoria, può portare a comportamenti indesiderati del modello, come il ricorso a informazioni obsolete o errate. Analizzando le attivazioni interne dei LLM, abbiamo scoperto che possono registrare internamente i segnali di conflitto di conoscenza a livelli intermedi. Tali segnali ci consentono di rilevare se si verifica un conflitto di conoscenza e di utilizzare strategie di intervento durante l'inferenza per risolverlo. In questo lavoro, proponiamo SpARE, un metodo di ingegneria della rappresentazione senza addestramento che utilizza autoencoder sparsi pre-addestrati (SAE) per controllare il comportamento di selezione delle conoscenze dei LLM. SpARE identifica le caratteristiche funzionali che controllano i comportamenti di selezione delle conoscenze e le applica per modificare le attivazioni interne dei LLM durante l'inferenza. I nostri risultati sperimentali mostrano che SpARE può controllare efficacemente l'uso di una delle fonti di conoscenza per risolvere i conflitti di conoscenza in compiti di domande e risposte in un dominio aperto, superando i metodi esistenti di ingegneria della rappresentazione (+10%) così come i metodi di decodifica contrastiva (+15%).
I progressi nel training distribuito e nei meccanismi di attenzione efficienti hanno notevolmente ampliato le dimensioni della finestra di contesto dei grandi modelli linguistici (LLM). Tuttavia, recenti lavori rivelano che le lunghezze di contesto effettive dei LLM open-source spesso risultano limitate, di solito non superando la metà delle loro lunghezze di training. In questo lavoro, attribuiamo questa limitazione alla distribuzione della frequenza spostata a sinistra delle posizioni relative formate nelle fasi di pretraining e post-training dei LLM, che ostacola la capacità di raccogliere efficacemente informazioni distanti. Per affrontare questa sfida, introduciamo ShifTed Rotray position embeddING (STRING). STRING sposta le posizioni ben addestrate per sovrascrivere le posizioni originali inefficaci durante l'inferenza, migliorando le prestazioni entro le loro lunghezze di training esistenti. I risultati sperimentali mostrano che senza ulteriore training, STRING migliora drasticamente le prestazioni dei più recenti modelli su larga scala, come Llama3.1 70B e Qwen2 72B, di oltre 10 punti sui popolari benchmark di contesto lungo RULER e InfiniteBench, stabilendo nuovi risultati state-of-the-art per i LLM open-source. Rispetto ai modelli commerciali, Llama 3.1 70B con \method raggiunge addirittura prestazioni migliori rispetto a GPT-4-128K e supera chiaramente Claude 2 e Kimi-chat.
Il modellamento efficiente del linguaggio a lungo contesto rimane una sfida significativa nel Processamento del Linguaggio Naturale (NLP). Sebbene i Transformers dominino i compiti linguistici, faticano con sequenze lunghe a causa della complessità computazionale quadratica durante l'addestramento e dei costi di memoria che scalano linearmente durante l'inferenza. I recenti Modelli dello Spazio di Stato (SSM) come Mamba offrono alternative con utilizzo costante della memoria, ma hanno prestazioni inferiori nei compiti che richiedono un'estesa ricerca nel contesto. Presentiamo Taipan, una nuova architettura ibrida che combina Mamba-2 con Strati di Attenzione Selettiva (SAL). Questi SAL identificano i token che richiedono interazioni a lungo raggio, rimuovono le caratteristiche meno importanti e quindi potenziano le loro rappresentazioni utilizzando il modulo di attenzione. Questo approccio bilancia l'efficienza di Mamba con le prestazioni simili a Transformer nei compiti che richiedono molta memoria. Limitando il budget di attenzione, Taipan estende le previsioni accurate a lunghezze di contesto fino a 1 milione di token preservando l'efficienza computazionale. I nostri esperimenti dimostrano le prestazioni superiori di Taipan su varie scale e compiti, offrendo una soluzione promettente per il modellamento efficiente del linguaggio a lungo contesto.
La segmentazione di un oggetto in un video presenta sfide significative. Ogni pixel deve essere etichettato con precisione, e queste etichette devono rimanere coerenti attraverso i frame. La difficoltà aumenta quando la segmentazione avviene con una granularità arbitraria, il che significa che il numero di segmenti può variare arbitrariamente, e le maschere sono definite basandosi solo su una o poche immagini campione. In questo articolo, affrontiamo questo problema utilizzando un modello di diffusione testo-immagine pre-addestrato integrato con un meccanismo di tracciamento aggiuntivo. Dimostriamo che il nostro approccio può gestire efficacemente vari scenari di segmentazione e superare le alternative all'avanguardia.
Questa ricerca approfondisce il problema della modifica interattiva della generazione del movimento umano. I modelli precedenti di diffusione del movimento mancano di una modellazione esplicita della corrispondenza testo-movimento a livello di parola e di una buona spiegabilità, limitando quindi la loro capacità di modifica dettagliata. Per affrontare questa problematica, proponiamo un modello di diffusione del movimento basato sull'attenzione, chiamato MotionCLR, con una modellazione CLeaR dei meccanismi di attenzione. Tecnicamente, MotionCLR modella le interazioni intra-modalità e inter-modalità con auto-attenzione e attenzione-incrociata, rispettivamente. Più specificamente, il meccanismo di auto-attenzione mira a misurare la similarità sequenziale tra i frame e influisce sull'ordine delle caratteristiche del movimento. Al contrario, il meccanismo di attenzione-incrociata lavora per trovare la corrispondenza dettagliata tra le sequenze di parole e attivare i tempi corrispondenti nella sequenza di movimento. Sulla base di queste proprietà chiave, sviluppiamo un insieme versatile di metodi di modifica del movimento semplici ma efficaci tramite la manipolazione delle mappe di attenzione, come l'emfasizzazione o smorzamento del movimento, la sostituzione del movimento sul posto e la generazione del movimento basata su esempi, ecc. Per ulteriore verifica della spiegabilità del meccanismo di attenzione, esploriamo inoltre il potenziale del conteggio delle azioni e della capacità di generazione del movimento basata su fondamenti tramite le mappe di attenzione. I nostri risultati sperimentali mostrano che il nostro metodo gode di una buona capacità di generazione e modifica con una buona spiegabilità.
Lo sviluppo web comporta trasformare i design dell'interfaccia utente in pagine web funzionali, il che può risultare difficile sia per i principianti che per gli sviluppatori esperti a causa della complessità delle strutture gerarchiche e degli stili dell'HTML. Sebbene i Grandi Modelli Linguistici (LLM) abbiano dimostrato promesse nella generazione di codice sorgente, due sfide principali persistono nella generazione di codice UI-in-HTML: (1) rappresentare efficacemente la struttura gerarchica dell'HTML per i LLM, e (2) colmare il divario tra la natura visiva dei design dell'interfaccia utente e il formato basato su testo del codice HTML. Per affrontare tali sfide, presentiamo Waffle, una nuova strategia di fine-tuning che utilizza un meccanismo di attenzione consapevole della struttura per migliorare la comprensione dei LLM della struttura dell'HTML e un approccio di fine-tuning contrastivo per allineare la comprensione dei LLM delle immagini UI e del codice HTML. I modelli sintonizzati con Waffle mostrano fino a 9,00 pp (punti percentuali) di corrispondenza HTML superiore, 0,0982 di CW-SSIM superiore, 32,99 di CLIP superiore e 27,12 pp di LLEM superiore nel nostro nuovo benchmark WebSight-Test e in un benchmark esistente Design2Code, superando i metodi attuali di fine-tuning.
Gli ultimi anni hanno visto un significativo interesse nello sviluppo di grandi modelli multimodali (LMM) capaci di eseguire varie attività di ragionamento e comprensione visiva. Ciò ha portato all'introduzione di diversi benchmark LMM per valutare i LMM su diverse attività. Tuttavia, la maggior parte dei benchmark di valutazione LMM esistenti sono prevalentemente incentrati sull'inglese. In questo lavoro, sviluppiamo un ampio benchmark di valutazione LMM per la lingua araba per rappresentare una vasta popolazione di oltre 400 milioni di parlanti. Il benchmark proposto, chiamato CAMEL-Bench, comprende otto domini diversi e 38 sotto-domini, tra cui comprensione multi-immagine, percezione visiva complessa, comprensione di documenti scritti a mano, comprensione di video, imaging medico, malattie delle piante e comprensione dell'uso del suolo basato su telerilevamento per valutare una vasta generalizzabilità degli scenari. Il nostro CAMEL-Bench comprende circa 29.036 domande che sono filtrate da un pool più ampio di campioni, dove la qualità è verificata manualmente da madrelingua per garantire una valutazione affidabile del modello. Conduciamo valutazioni sia su modelli closed-source, inclusa la serie GPT-4, che su LMM open-source. La nostra analisi rivela la necessità di miglioramenti sostanziali, specialmente tra i migliori modelli open-source, con persino il modello closed-source GPT-4o che raggiunge un punteggio complessivo del 62%. Il nostro benchmark e gli script di valutazione sono open-source.
I Grandi Modelli Linguistici (LLM) spesso producono allucinazioni, generando output non fedeli o factualmente scorretti mediante una rappresentazione distorta del contesto fornito o un richiamo interno errato delle conoscenze. Studi recenti hanno identificato specifiche "testate di attenzione" all'interno dell'architettura Transformer, note come testate di recupero, responsabili dell'estrazione di informazioni contestuali rilevanti. Ipotizziamo che mascherare queste testate di recupero possa indurre allucinazioni e che contrastare gli output del LLM base e del LLM mascherato possa ridurre le allucinazioni. A tal fine, proponiamo Decodifica tramite Contrasto delle Testate di Recupero (DeCoRe), una nuova strategia di decodifica priva di addestramento che amplifica le informazioni trovate nel contesto e nei parametri del modello. DeCoRe mitiga le risposte potenzialmente allucinate contrastando dinamicamente gli output del LLM base e del LLM mascherato, utilizzando l'entropia condizionale come guida. I nostri ampi esperimenti confermano che DeCoRe migliora significativamente le prestazioni in compiti che richiedono un'elevata fedeltà contestuale, come la sintesi (XSum del 18,6%), il seguire le istruzioni (MemoTrap del 10,9%) e il rispondere a domande a libro aperto (NQ-Open del 2,4% e NQ-Swap del 5,5%).
Presentiamo CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), un sottoinsieme di alta qualità di 500 GB del Corpus Cinese Internet 3.0 (CCI3.0) (https://huggingface.co/datasets/BAAI/CCI3-Data), sviluppato utilizzando un innovativo pipeline ibrido a due fasi che migliora significativamente la qualità dei dati. Per valutarne l'efficacia, abbiamo addestrato un modello con 0.5 miliardi di parametri da zero su 100 miliardi di token attraverso vari dataset, ottenendo prestazioni superiori su 10 benchmark in un contesto di zero-shot rispetto a CCI3.0, SkyPile e WanjuanV1. Il processo di filtraggio di alta qualità distilla efficacemente le capacità del modello Qwen2-72B-instruct in un modello compatto da 0.5 miliardi, raggiungendo punteggi F1 ottimali per la classificazione dei dati web cinesi. Crediamo che questo dataset in accesso aperto faciliterà un accesso più ampio a modelli linguistici di alta qualità.
I modelli di diffusione raggiungono una qualità di generazione superiore ma soffrono di una lentezza nella generazione a causa della natura iterativa del denoising. Al contrario, i modelli di consistenza, una nuova famiglia generativa, raggiungono prestazioni competitive con un campionamento significativamente più veloce. Questi modelli vengono addestrati attraverso la distillazione della consistenza, che sfrutta modelli di diffusione preaddestrati, o attraverso l'addestramento/ottimizzazione della consistenza direttamente dai dati grezzi. In questo lavoro, proponiamo un nuovo framework per comprendere i modelli di consistenza modellando il processo di denoising del modello di diffusione come un Processo Decisionale di Markov (MDP) e inquadrando l'addestramento del modello di consistenza come la stima del valore attraverso l'apprendimento Temporal Difference (TD). Inoltre, questo framework ci permette di analizzare i limiti delle attuali strategie di addestramento/ottimizzazione della consistenza. Basandoci su Easy Consistency Tuning (ECT), proponiamo Stable Consistency Tuning (SCT), che incorpora un apprendimento con riduzione della varianza utilizzando l'identità del punteggio. SCT porta a significativi miglioramenti delle prestazioni su benchmark come CIFAR-10 e ImageNet-64. Su ImageNet-64, SCT raggiunge un FID a 1 passo di 2,42 e un FID a 2 passi di 1,55, un nuovo SoTA per i modelli di consistenza.
I metodi attuali di watermarking delle immagini sono vulnerabili alle tecniche avanzate di editing delle immagini abilitate dai modelli di generazione di testo-immagine su larga scala. Questi modelli possono distorto i watermark incorporati durante l'editing, presentando significativi sfide alla protezione del copyright. In questo lavoro, presentiamo W-Bench, il primo benchmark completo progettato per valutare la robustezza dei metodi di watermarking contro una vasta gamma di tecniche di editing delle immagini, inclusa la rigenerazione delle immagini, l'editing globale, l'editing locale e la generazione di immagini-video. Attraverso valutazioni approfondite di undici metodi di watermarking rappresentativi contro le tecniche di editing prevalenti, dimostriamo che la maggior parte dei metodi non riesce a rilevare i watermark dopo tali modifiche. Per affrontare questa limitazione, proponiamo VINE, un metodo di watermarking che migliora significativamente la robustezza contro varie tecniche di editing delle immagini mantenendo un'alta qualità delle immagini. Il nostro approccio prevede due innovazioni chiave: (1) analizziamo le caratteristiche di frequenza dell'editing delle immagini e identifichiamo che le distorsioni sfocate presentano proprietà di frequenza simili, il che ci consente di utilizzarle come attacchi surrogati durante l'addestramento per rafforzare la robustezza del watermark; (2) sfruttiamo un modello di diffusione preaddestrato su larga scala SDXL-Turbo, adattandolo per il compito di watermarking per ottenere un'incorporazione del watermark più impercettibile e robusta. I risultati sperimentali mostrano che il nostro metodo raggiunge un'eccellente performance di watermarking sotto varie tecniche di editing delle immagini, superando i metodi esistenti sia in qualità delle immagini che in robustezza. Il codice è disponibile su https://github.com/Shilin-LU/VINE.
I Transformers possono catturare dipendenze a lungo raggio utilizzando l'autoattenzione, consentendo ai token di prestare attenzione direttamente a tutti gli altri. Tuttavia, impilare più strati di attenzione porta a concentrazione dell'attenzione. Un modo naturale per affrontare questo problema è utilizzare l'attenzione tra strati, consentendo alle informazioni degli strati precedenti di essere direttamente accessibili agli strati successivi. Tuttavia, questo approccio è computazionalmente costoso. Per affrontare questo problema, proponiamo il Transformer con valore residuo (ResFormer) che approssima l'attenzione tra strati attraverso l'aggiunta di una connessione residua dai valori del primo strato a tutti gli strati successivi. Basandoci su questo metodo, una variante è il Transformer con valore a singolo strato (SVFormer), in cui tutti gli strati condividono l'embedding di valore dello stesso primo strato, riducendo la cache KV di quasi il 50%. Evidenze empiriche esaustive dimostrano che ResFormer attenua il problema della concentrazione dell'attenzione negli strati più profondi e migliora la rappresentazione attraverso la maggior parte degli strati, superando il Transformer standard, DenseFormer e NeuTRENO nell'errore di addestramento e nelle attività derivate. SVFormer si addestra significativamente più velocemente rispetto al Transformer standard e ottiene risultati migliori rispetto ad altri metodi come GQA e CLA, con prestazioni influenzate dalla lunghezza della sequenza e dal tasso di apprendimento cumulativo.
Gli sviluppi recenti nella fusione multimodale hanno visto il notevole successo dei modelli visione-linguaggio (VL), che eccellono in varie applicazioni multimodali come la descrizione delle immagini e la risposta alle domande visive. Tuttavia, la costruzione dei modelli VL richiede consistenti risorse hardware, dove l'efficienza è limitata da due fattori chiave: la sequenza di input estesa del modello linguistico con caratteristiche visive richiede più operazioni computazionali, e un gran numero di parametri apprendibili aggiuntivi aumenta la complessità della memoria. Queste sfide limitano significativamente la più ampia applicabilità di tali modelli. Per colmare questa lacuna, proponiamo ADEM-VL, un metodo efficiente visione-linguaggio che ottimizza i modelli VL basandosi su modelli linguistici larghi preaddestrati (LLM) adottando un meccanismo di cross-attenzione senza parametri per le misurazioni di similarità nella fusione multimodale. Questo approccio richiede solo l'incorporazione delle caratteristiche visive nello spazio linguistico, riducendo significativamente il numero di parametri addestrabili e accelerando sia l'addestramento che la velocità di inferenza. Per potenziare l'apprendimento della rappresentazione nel modulo di fusione, introduciamo uno schema efficiente di generazione di caratteristiche multiscale che richiede un'unica passata attraverso l'encoder di visione. Inoltre, proponiamo uno schema di fusione adattiva che scarta dinamicamente le informazioni visive meno rilevanti per ciascun token di testo in base al suo punteggio di attenzione. Ciò garantisce che il processo di fusione dia priorità alle caratteristiche visive più pertinenti. Con esperimenti su varie attività tra cui risposta alle domande visive, descrizione delle immagini e seguimento delle istruzioni, dimostriamo che il nostro framework supera gli approcci esistenti. In particolare, il nostro metodo supera i metodi esistenti di una precisione media del 0,77% sul dataset ScienceQA, con una ridotta latenza di addestramento e inferenza, dimostrando la superiorità del nostro framework. Il codice è disponibile su https://github.com/Hao840/ADEM-VL.
I Grandi Modelli Linguistici (LLM) sono ritenuti avere difficoltà nell'apprendimento dell'aritmetica a causa delle differenze intrinseche tra la modellazione del linguaggio e il calcolo numerico, ma finora mancavano prove concrete. Questo lavoro risponde a questa affermazione attraverso un esperimento a due lati. Prima indaghiamo se i LLM sfruttino i prodotti parziali durante l'apprendimento dell'aritmetica. Scopriamo che sebbene i LLM possano identificare alcuni prodotti parziali dopo l'apprendimento, non riescono a sfruttarli per compiti aritmetici, al contrario. Esploriamo poi come i LLM affrontino l'aritmetica in modo simbolico suddividendo i compiti in sottogruppi, ipotizzando che le difficoltà derivino dalla complessità e dalla selezione dei sottogruppi. I nostri risultati mostrano che quando la complessità dei sottogruppi è fissata, i LLM trattano una serie di diverse operazioni aritmetiche in modo simile. Analizzando l'accuratezza a livello di posizione attraverso diverse dimensioni di addestramento, osserviamo inoltre che segue un modello a forma di U: i LLM imparano rapidamente i modelli più facili nelle prime e ultime posizioni, mentre imparano progressivamente i modelli più difficili nelle posizioni centrali. Questo suggerisce che i LLM selezionano i sottogruppi seguendo un paradigma da facile a difficile durante l'apprendimento. Il nostro lavoro conferma che i LLM sono apprendisti puramente simbolici nei compiti aritmetici e sottolinea l'importanza di comprenderli a fondo attraverso una quantificazione a livello di sottogruppo.
La modifica dei modelli è diventata un'alternativa sempre più popolare per aggiornare efficientemente le conoscenze all'interno dei modelli linguistici. I metodi attuali si concentrano principalmente sulla affidabilità, generalizzazione e località, con molti metodi che eccellono in base a questi criteri. Alcuni lavori recenti rivelano le insidie di questi metodi di modifica, come la distorsione o i conflitti delle conoscenze. Tuttavia, le capacità generali dei modelli linguistici post-modifica rimangono inesplorate. In questo articolo, effettuiamo una valutazione completa su vari metodi di modifica e diversi modelli linguistici, e abbiamo i seguenti risultati. (1) I metodi di modifica esistenti portano inevitabilmente a un deterioramento delle prestazioni sui benchmark generali, indicando che i metodi di modifica attuali mantengono le capacità generali del modello solo entro alcune dozzine di modifiche. Quando il numero di modifiche è leggermente elevato, la struttura di conoscenza intrinseca del modello viene interrotta o addirittura danneggiata completamente. (2) I modelli sintonizzati con le istruzioni sono più robusti alla modifica, mostrando una minore diminuzione delle prestazioni sulla conoscenza generale dopo la modifica. (3) I modelli linguistici di grande scala sono più resistenti alla modifica rispetto ai modelli di piccole dimensioni. (4) La sicurezza del modello modificato è significativamente indebolita, anche per quei modelli allineati alla sicurezza. I nostri risultati indicano che i metodi di modifica attuali sono adatti solo per gli aggiornamenti di conoscenza su piccola scala all'interno dei modelli linguistici, il che motiva ulteriori ricerche su metodi di modifica più pratici e affidabili. I dettagli del codice e della riproducibilità possono essere trovati su https://github.com/lqinfdim/EditingEvaluation.
In questo articolo, forniamo un'analisi approfondita sulle formulazioni dei problemi matematici e le esplorazioni di ottimizzazione probabilistica per alcuni dei componenti chiave nel modello Transformer [33] nel campo dell'IA generativa. Esploriamo e discutiamo alcuni potenziali miglioramenti per i metodi attuali all'avanguardia per alcune tecnologie sottostanti fondamentali dei modelli di IA generativa dal punto di vista dell'algoritmo e dell'ottimizzazione probabilistica. In particolare, presentiamo una soluzione ottimale per la codifica a sotto-parola (SWE) basata su impostazioni iniziali simili a quelle dell'algoritmo di codifica a coppie di byte (BPE) in [9] con obiettivi simili a quelli dell'approccio WordPiece in [28, 31] per massimizzare la verosimiglianza dei dati di addestramento. Presentiamo anche un metodo di ottimizzazione dell'entropia incrociata per ottimizzare gli iperparametri per il modello word2vec [17]. Inoltre, proponiamo una combinazione fattorizzata della codifica posizionale rotativa (RoPE) [32] e dell'attenzione con bias lineari (ALiBi) [23] con una serie armonica. Presentiamo anche un metodo di FlashAttention probabilistico [6, 7] (PrFlashAttention) con una distribuzione di probabilità sui distacchi dei blocchi nella matrice per decidere quali blocchi sono probabili di partecipare a un dato round di calcolo dell'attenzione mantenendo la forma del triangolo inferiore del tensore per i modelli di linguaggio autoregressivi tramite il ridisegno dei tensori. Infine, presentiamo la quantizzazione adattiva a gradini (SAQ) della cache chiave-valore (KV) per l'attenzione multi-query (MQA) basata sul framework presentato in [16] per avere un degrado graduale della quantizzazione ottenendo nel contempo una qualità del modello ragionevole e risparmi sui costi.
Il paradigma dominante per RLHF è l'apprendimento per rinforzo online e on-policy: generare sincronamente dalla grande modello di linguaggio (LLM), etichettare con un modello di ricompensa e apprendere utilizzando il feedback sugli output del LLM stesso. Sebbene performante, questo paradigma è computazionalmente inefficiente. Ispirati dalla letteratura classica sull'apprendimento profondo per rinforzo, proponiamo di separare la generazione e l'apprendimento in RLHF. Ciò consente la generazione asincrona di nuovi campioni mentre si addestra contemporaneamente su vecchi campioni, portando a un addestramento più veloce e a una scalabilità più ottimale dal punto di vista computazionale. Tuttavia, l'addestramento asincrono si basa su un regime poco esplorato, online ma off-policy per RLHF: apprendere su campioni dalle iterazioni precedenti del nostro modello. Per comprendere le sfide in questo regime, esaminiamo una domanda fondamentale: quanto off-policy possiamo tollerare per accelerare l'apprendimento con l'addestramento asincrono mantenendo le prestazioni? Tra diversi algoritmi RLHF testati, scopriamo che il DPO online è il più robusto ai dati off-policy, e la robustezza aumenta con la scala del modello di politica. Studiamo ulteriori ottimizzazioni computazionali per RLHF asincrono ma scopriamo che comportano un costo sulle prestazioni, creando un compromesso. Infine, verifichiamo la scalabilità di RLHF asincrono addestrando LLaMA 3.1 8B su un compito di seguire istruzioni il 40% più velocemente rispetto a un'esecuzione sincrona mantenendo le prestazioni finali.
Il ridimensionamento dei dati ha rivoluzionato campi come l'elaborazione del linguaggio naturale e la visione artificiale, fornendo modelli con notevoli capacità di generalizzazione. In questo articolo, indaghiamo se esistano leggi simili di ridimensionamento dei dati nella robotica, in particolare nella manipolazione robotica, e se un adeguato ridimensionamento dei dati possa produrre politiche robotiche monocompetenza che possano essere implementate senza addestramento per qualsiasi oggetto all'interno della stessa categoria in qualsiasi ambiente. A tal fine, conduciamo uno studio empirico esaustivo sul ridimensionamento dei dati nell'apprendimento per imitazione. Raccogliendo dati in numerosi ambienti e su oggetti diversi, studiamo come le prestazioni di generalizzazione di una politica cambiano con il numero di ambienti di addestramento, oggetti e dimostrazioni. Nel corso della nostra ricerca, raccogliamo oltre 40.000 dimostrazioni ed eseguiamo più di 15.000 esecuzioni di robot nel mondo reale in base a un rigoroso protocollo di valutazione. Le nostre scoperte rivelano diversi risultati intriganti: le prestazioni di generalizzazione della politica seguono approssimativamente una relazione di legge di potenza con il numero di ambienti e oggetti. La diversità degli ambienti e degli oggetti è molto più importante rispetto al numero assoluto di dimostrazioni; una volta che il numero di dimostrazioni per ambiente o oggetto raggiunge una certa soglia, ulteriori dimostrazioni hanno un effetto minimo. Sulla base di queste intuizioni, proponiamo una strategia efficiente di raccolta dati. Con quattro raccoglitori di dati che lavorano per un pomeriggio, raccogliamo dati sufficienti per consentire alle politiche per due compiti di raggiungere circa il 90% di successo in ambienti nuovi con oggetti non visti.
La selezione dei dati è cruciale per ottimizzare le prestazioni del modello linguistico (LM) su specifiche attività, tuttavia la maggior parte dei metodi esistenti non riesce a considerare in modo efficace la distribuzione dell'attività obiettivo. Gli approcci attuali ignorano completamente i requisiti specifici dell'attività o si basano su approssimazioni che non riescono a catturare i pattern sfumati necessari per attività come l'Autoformalizzazione o la generazione di codice. I metodi che considerano la distribuzione obiettivo spesso si basano su rappresentazioni semplicistiche, a volte rumorose, come le caratteristiche hashed degli n-grammi, che possono causare collisioni e introdurre rumore. Introduciamo ZIP-FIT, un framework di selezione dei dati che utilizza la compressione gzip per misurare direttamente l'allineamento tra i potenziali dati di addestramento e la distribuzione dell'attività obiettivo. In valutazioni approfondite sull'Autoformalizzazione e sulla generazione di codice Python, ZIP-FIT supera significativamente i principali baselines come DSIR e D4. I modelli addestrati sui dati selezionati da ZIP-FIT raggiungono il loro più basso tasso di entropia incrociata fino all'85,1% più velocemente rispetto ai baselines, dimostrando che un migliore allineamento dell'attività porta a un apprendimento più efficiente. Inoltre, ZIP-FIT esegue la selezione fino al 65,8% più velocemente rispetto a DSIR e due ordini di grandezza più velocemente rispetto a D4. In particolare, ZIP-FIT mostra che insiemi di dati più piccoli ma ben allineati spesso superano quelli più grandi ma meno mirati, dimostrando che una piccola quantità di dati di alta qualità è superiore a una grande quantità di dati di qualità inferiore. I nostri risultati implicano che la selezione dei dati consapevole dell'attività è cruciale per un'efficace adattamento di dominio, e che la compressione offre un modo fondato per misurare l'allineamento dell'attività. Mostrando che la selezione mirata dei dati può migliorare drasticamente le prestazioni specifiche dell'attività, il nostro lavoro fornisce nuove intuizioni sulla relazione tra la qualità dei dati, l'allineamento dell'attività e l'efficienza dell'apprendimento del modello.
Consideriamo il campionamento speculativo multi-bozza, in cui le sequenze di proposte sono campionate indipendentemente da diversi modelli di bozza. Ad ogni passo, uno schema di selezione di bozza a livello di token prende in input un elenco di token validi e produce un token di output la cui distribuzione corrisponde a quella del modello target. Lavori precedenti hanno dimostrato che lo schema ottimale (che massimizza la probabilità di accettare uno dei token in input) può essere formulato come soluzione di un programma lineare. In questo lavoro mostriamo che lo schema ottimale può essere decomposto in una soluzione a due passaggi: nel primo passaggio viene utilizzato uno schema di tipo campionamento di importanza (IS) per selezionare un token intermedio; nel secondo passaggio viene applicato il campionamento speculativo (a singola bozza) per generare il token di output. Nel caso di due modelli di bozza identici, stabiliamo inoltre 1) una condizione necessaria e sufficiente sulle distribuzioni dei modelli target e di bozza affinché la probabilità di accettazione sia uguale a uno e 2) forniamo un'espressione esplicita per la probabilità di accettazione ottimale. La nostra analisi teorica motiva anche una nuova classe di schema di selezione a livello di token basata sul campionamento di importanza pesata. I nostri risultati sperimentali dimostrano miglioramenti consistenti nell'efficienza del blocco ottenibile e nei tassi di token rispetto agli schemi di base in diversi scenari.
La dimostrazione automatica assistita da macchina si riferisce al processo di condurre un ragionamento strutturato per generare automaticamente dimostrazioni per teoremi matematici. Recentemente, c'è stato un aumento di interesse nell'utilizzo di modelli di apprendimento automatico in combinazione con assistenti alla dimostrazione per svolgere questo compito. In questo articolo, presentiamo Pantograph, uno strumento che fornisce un'interfaccia versatile all'assistente alla dimostrazione Lean 4 e consente una ricerca efficiente delle dimostrazioni tramite potenti algoritmi di ricerca come la Ricerca ad Albero Monte Carlo. Inoltre, Pantograph permette un ragionamento di alto livello consentendo una gestione più robusta dei passaggi di inferenza di Lean 4. Forniamo una panoramica dell'architettura e delle funzionalità di Pantograph. Riportiamo anche un caso d'uso illustrativo: utilizzando modelli di apprendimento automatico e bozzetti di dimostrazione per dimostrare teoremi di Lean 4. Le caratteristiche innovative di Pantograph aprono la strada a modelli di apprendimento automatico più avanzati per eseguire ricerche di dimostrazioni complesse e ragionamenti di alto livello, dotando i futuri ricercatori di progettare dimostratori di teoremi più versatili e potenti.