Articoli di ricerca IA selezionati quotidianamente con traduzioni
Aggiungere un oggetto nelle immagini basandosi su istruzioni testuali è un compito impegnativo nell'ambito dell'editing semantico delle immagini, richiedendo un equilibrio tra la conservazione della scena originale e l'integrazione senza soluzione di continuità del nuovo oggetto in una posizione appropriata. Nonostante gli sforzi considerevoli, i modelli esistenti spesso faticano con questo equilibrio, in particolare nel trovare una posizione naturale per aggiungere un oggetto in scene complesse. Presentiamo Add-it, un approccio senza addestramento che estende i meccanismi di attenzione dei modelli di diffusione per incorporare informazioni da tre fonti chiave: l'immagine della scena, il prompt testuale e l'immagine generata stessa. Il nostro meccanismo di attenzione estesa ponderata mantiene la coerenza strutturale e i dettagli fini garantendo al contempo una collocazione naturale dell'oggetto. Senza un raffinamento specifico del compito, Add-it raggiunge risultati all'avanguardia sia su benchmark di inserimento di immagini reali che generate, inclusa la nostra nuova "Additing Affordance Benchmark" per valutare la plausibilità della collocazione dell'oggetto, superando i metodi supervisionati. Le valutazioni umane mostrano che Add-it è preferito in oltre l'80% dei casi e dimostra anche miglioramenti in vari metriche automatizzate.
I metodi di editing delle immagini guidati dalle istruzioni hanno dimostrato un significativo potenziale addestrando modelli di diffusione su coppie di editing di immagini sintetizzate automaticamente o annotate manualmente. Tuttavia, questi metodi rimangono lontani dalle applicazioni pratiche nella vita reale. Identifichiamo tre sfide principali che contribuiscono a questa discrepanza. In primo luogo, i modelli esistenti hanno abilità di editing limitate a causa del processo di sintesi distorto. In secondo lu luogo, questi metodi vengono addestrati con set di dati con un'elevata quantità di rumore e artefatti. Ciò è dovuto all'applicazione di semplici metodi di filtraggio come il punteggio CLIP. In terzo luogo, tutti questi set di dati sono limitati a una singola bassa risoluzione e a un rapporto d'aspetto fisso, limitando la versatilità nel gestire casi d'uso del mondo reale. In questo articolo, presentiamo \omniedit, che è un editor onnipotente per gestire sette diverse attività di editing delle immagini con qualsiasi rapporto d'aspetto in modo fluido. Il nostro contributo si articola in quattro punti: (1) \omniedit è addestrato utilizzando la supervisione di sette diversi modelli specialistici per garantire la copertura delle attività. (2) Utilizziamo il campionamento per importanza basato sui punteggi forniti da grandi modelli multimodali (come GPT-4o) anziché il punteggio CLIP per migliorare la qualità dei dati. (3) Proponiamo una nuova architettura di editing chiamata EditNet per aumentare notevolmente il tasso di successo dell'editing, (4) forniamo immagini con diversi rapporti d'aspetto per garantire che il nostro modello possa gestire qualsiasi immagine in natura. Abbiamo curato un set di test contenente immagini con diversi rapporti d'aspetto, accompagnate da istruzioni diverse per coprire varie attività. Sia le valutazioni automatiche che quelle umane dimostrano che \omniedit può superare significativamente tutti i modelli esistenti. Il nostro codice, set di dati e modello saranno disponibili su https://tiger-ai-lab.github.io/OmniEdit/
La capacità di comprendere e rispondere a domande su documenti può essere utile in molte applicazioni aziendali e pratiche. Tuttavia, i documenti spesso contengono contenuti multimodali lunghi e diversificati come testi, figure e tabelle, che richiedono molto tempo agli esseri umani per essere letti attentamente. Pertanto, c'è un urgente bisogno di sviluppare metodi efficaci e automatizzati per aiutare gli esseri umani in questo compito. In questo lavoro, presentiamo M-LongDoc, un benchmark di 851 campioni, e un framework automatizzato per valutare le prestazioni di modelli multimodali di grandi dimensioni. Proponiamo inoltre un approccio di taratura consapevole del recupero per la lettura efficiente ed efficace di documenti multimodali. Rispetto ai lavori esistenti, il nostro benchmark è costituito da documenti più recenti e lunghi con centinaia di pagine, richiedendo anche soluzioni aperte e non solo risposte estrattive. Al meglio delle nostre conoscenze, il nostro framework di addestramento è il primo a affrontare direttamente l'impostazione di recupero per documenti multimodali lunghi. Per consentire la taratura dei modelli open-source, costruiamo un corpus di addestramento in modo completamente automatico per il compito di domanda-risposta su tali documenti. Gli esperimenti mostrano che il nostro approccio di taratura raggiunge un miglioramento relativo del 4,6% per la correttezza delle risposte del modello, rispetto ai modelli open-source di base. I nostri dati, codice e modelli sono disponibili su https://multimodal-documents.github.io.
I nuovi benchmark di valutazione LLM sono importanti per allinearsi con lo sviluppo rapido dei Large Language Models (LLM). In questo lavoro, presentiamo il Chinese SimpleQA, il primo benchmark cinese completo per valutare l'abilità di factualità dei modelli linguistici nel rispondere a domande brevi, e il Chinese SimpleQA ha principalmente cinque proprietà (cioè, Cinese, Diversificato, Di alta qualità, Statico, Facile da valutare). In particolare, ci concentriamo sulla lingua cinese su 6 argomenti principali con 99 sottotematiche diverse. In secondo luogo, conduciamo un processo di controllo di qualità completo per ottenere domande e risposte di alta qualità, dove le risposte di riferimento sono statiche e non possono essere modificate nel tempo. Terzo, seguendo il SimpleQA, le domande e risposte sono molto brevi, e il processo di valutazione è facile da valutare basandosi sull'API di OpenAI. Basandoci sul Chinese SimpleQA, effettuiamo una valutazione completa sulle abilità di factualità dei LLM esistenti. Infine, speriamo che il Chinese SimpleQA possa guidare gli sviluppatori a comprendere meglio le abilità di factualità cinesi dei loro modelli e facilitare la crescita dei modelli fondamentali.
Introduciamo Edify Image, una famiglia di modelli di diffusione capaci di generare contenuti d'immagine fotorealistici con precisione pixel-perfect. Edify Image utilizza modelli di diffusione nello spazio dei pixel a cascata addestrati utilizzando un innovativo processo di diffusione laplaciana, in cui i segnali d'immagine a diverse bande di frequenza vengono attenuati a velocità variabili. Edify Image supporta una vasta gamma di applicazioni, tra cui la sintesi testo-immagine, l'upsampling 4K, i ControlNets, la generazione di panorami HDR a 360 gradi e il fine-tuning per la personalizzazione delle immagini.
I metodi di watermarking delle immagini non sono progettati per gestire aree con watermark piccole. Questo limita le applicazioni in scenari reali in cui parti dell'immagine possono provenire da diverse fonti o essere state modificate. Introduciamo un modello di deep learning per il watermarking localizzato delle immagini, chiamato Watermark Anything Model (WAM). L'inseritore WAM modifica in modo impercettibile l'immagine di input, mentre l'estratore suddivide l'immagine ricevuta in aree con watermark e aree senza watermark e recupera uno o più messaggi nascosti dalle aree individuate come con watermark. I modelli vengono addestrati congiuntamente a bassa risoluzione e senza vincoli percettivi, per poi essere post-addestrati per l'impercettibilità e i multi-watermark. Gli esperimenti mostrano che WAM è competitivo con i metodi all'avanguardia in termini di impercettibilità e robustezza, specialmente contro l'inpainting e lo splicing, anche su immagini ad alta risoluzione. Inoltre, offre nuove capacità: WAM può individuare aree con watermark in immagini spliced ed estrarre distinti messaggi a 32 bit con meno di 1 bit di errore da diverse piccole regioni - non più grandi del 10% della superficie dell'immagine - anche per immagini di dimensioni ridotte come 256x256.
La rapida evoluzione delle librerie software rappresenta una sfida significativa per i modelli di generazione di codice, che devono adattarsi a frequenti aggiornamenti delle versioni pur mantenendo la compatibilità con le versioni precedenti. I benchmark esistenti per il completamento del codice spesso trascurano questo aspetto dinamico, e quello che lo considera si basa su compiti statici di previsione del codice senza valutazione basata sull'esecuzione, offrendo una prospettiva limitata sull'usabilità pratica di un modello. Per affrontare questa lacuna, presentiamo \GitChameleon{}, un nuovo set di dati curato manualmente composto da 116 problemi di completamento del codice Python, ognuno condizionato a specifiche versioni di librerie e accompagnato da test di unità eseguibili. \GitChameleon{} è progettato per valutare rigorosamente la capacità dei moderni grandi modelli di linguaggio (LLM) di generare codice specifico della versione che non è solo corretto sintatticamente ma anche accurato funzionalmente all'esecuzione. Le nostre valutazioni complete rivelano che i LLM all'avanguardia faticano con questo compito; ad esempio, GPT-4o raggiunge un pass@10 di soli 39,9\% (43,7\% quando fornito con feedback sugli errori), evidenziando la complessità del problema e i limiti dei modelli attuali. Fornendo un benchmark basato sull'esecuzione che enfatizza la natura dinamica delle librerie di codice, \GitChameleon{} si configura come uno strumento critico per far avanzare lo sviluppo di modelli di generazione di codice più adattabili e affidabili. Per agevolare ulteriori esplorazioni sulla generazione di codice condizionata alla versione, rendiamo il nostro repository di codice pubblicamente accessibile su https://github.com/NizarIslah/GitChameleon.
Nel campo dei grandi modelli linguistici (LLM), la capacità dei modelli di seguire accuratamente le istruzioni è fondamentale poiché sempre più agenti e applicazioni fanno uso dei LLM per la costruzione, dove la complessità delle istruzioni sta aumentando rapidamente. Tuttavia, da un lato, esiste solo una certa quantità di dati per valutare istruzioni complesse; d'altra parte, non ci sono algoritmi dedicati per migliorare la capacità di seguire istruzioni complesse. A questo scopo, questo articolo introduce TRACE, un benchmark per migliorare e valutare la capacità di seguire istruzioni complesse, che consiste in 120K dati di addestramento e 1K dati di valutazione. Inoltre, proponiamo il metodo di allineamento IOPO (Ottimizzazione delle Preferenze Input-Output) che tiene conto delle coppie di preferenze di input e output, dove i LLM si allineano non solo rapidamente con le preferenze di risposta ma esplorano anche meticolosamente le preferenze delle istruzioni. Estesi esperimenti su dataset sia in-domain che out-of-domain confermano l'efficacia di IOPO, mostrando miglioramenti del 8,15% e 2,18% sui dati in-domain e del 6,29% e 3,13% sui dati out-of-domain rispetto a SFT e DPO rispettivamente.
La modellazione autoregressiva ha avuto un enorme successo nel campo dell'elaborazione del linguaggio naturale (NLP). Di recente, i modelli autoregressivi sono emersi come un'area significativa di interesse nella visione artificiale, dove eccellono nella produzione di contenuti visivi di alta qualità. I modelli autoregressivi nell'NLP operano tipicamente su token di sotto-parole. Tuttavia, la strategia di rappresentazione nella visione artificiale può variare a diversi livelli, ovvero a livello di pixel, a livello di token o a livello di scala, riflettendo la natura diversificata e gerarchica dei dati visivi rispetto alla struttura sequenziale del linguaggio. Questa panoramica esamina in modo esaustivo la letteratura sui modelli autoregressivi applicati alla visione. Per migliorare la leggibilità per i ricercatori provenienti da diversi ambiti di ricerca, iniziamo con la rappresentazione preliminare delle sequenze e la modellazione nella visione. Successivamente, suddividiamo i quadri fondamentali dei modelli autoregressivi visivi in tre sottocategorie generali, tra cui modelli basati su pixel, basati su token e basati su scala in base alla strategia di rappresentazione. Esploriamo poi le interconnessioni tra i modelli autoregressivi e altri modelli generativi. Inoltre, presentiamo una categorizzazione sfaccettata dei modelli autoregressivi nella visione artificiale, inclusa la generazione di immagini, la generazione di video, la generazione 3D e la generazione multimodale. Approfondiamo anche le loro applicazioni in diversi settori, inclusi settori emergenti come l'IA incorporata e l'IA medica 3D, con circa 250 riferimenti correlati. Infine, evidenziamo le sfide attuali dei modelli autoregressivi nella visione con suggerimenti su possibili direzioni di ricerca. Abbiamo inoltre creato un repository su Github per organizzare gli articoli inclusi in questa panoramica su: https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.
Questo articolo indaga la razionalità dei grandi modelli linguistici (LLM) nei contesti decisionali strategici, in particolare all'interno del quadro della teoria dei giochi. Valutiamo diversi LLM all'avanguardia attraverso una gamma di giochi con informazioni complete e incomplete. I nostri risultati rivelano che i LLM deviano frequentemente da strategie razionali, soprattutto all'aumentare della complessità del gioco con matrici di payoff più ampie o alberi sequenziali più profondi. Per affrontare queste limitazioni, progettiamo diversi flussi di lavoro teorici che guidano i processi di ragionamento e decisionali dei LLM. Questi flussi di lavoro mirano a potenziare la capacità dei modelli di calcolare gli equilibri di Nash e prendere decisioni razionali, anche in condizioni di incertezza e informazioni incomplete. I risultati sperimentali dimostrano che l'adozione di questi flussi di lavoro migliora significativamente la razionalità e la robustezza dei LLM nei compiti di teoria dei giochi. In particolare, con il flusso di lavoro, i LLM mostrano miglioramenti significativi nell'identificare strategie ottimali, raggiungere allocazioni quasi ottimali in scenari di negoziazione e ridurre la suscettibilità all'esposizione durante le negoziazioni. Inoltre, esploriamo le considerazioni meta-strategiche su se sia razionale per gli agenti adottare tali flussi di lavoro, riconoscendo che la decisione di utilizzare o rinunciare al flusso di lavoro costituisce di per sé una questione di teoria dei giochi. La nostra ricerca contribuisce a una comprensione più approfondita delle capacità decisionali dei LLM in contesti strategici e fornisce spunti per potenziarne la razionalità attraverso flussi di lavoro strutturati. I risultati hanno implicazioni per lo sviluppo di agenti AI più robusti e strategicamente solidi capaci di navigare ambienti interattivi complessi. Il codice e i dati che supportano questo studio sono disponibili su https://github.com/Wenyueh/game_theory.
Comprendere e manipolare i meccanismi di generazione causale nei modelli linguistici è essenziale per controllarne il comportamento. Lavori precedenti si sono basati principalmente su tecniche come la chirurgia della rappresentazione - ad esempio, ablazioni del modello o manipolazione di sottospazi lineari legati a concetti specifici - per intervenire su questi modelli. Per comprendere con precisione l'impatto delle interventi, è utile esaminare i controfattuali - ad esempio, come sarebbe apparsa una data frase se fosse stata generata dal modello seguendo un intervento specifico. Sottolineiamo che il ragionamento controfattuale è concettualmente distinto dagli interventi, come articolato nella gerarchia causale di Pearl. Sulla base di questa osservazione, proponiamo un framework per generare veri controfattuali di stringhe riformulando i modelli linguistici come Modelli di Equazioni Strutturali Generalizzate utilizzando il trucco Gumbel-max. Ciò ci consente di modellare la distribuzione congiunta su stringhe originali e i loro controfattuali risultanti dalla stessa istanziazione del rumore di campionamento. Sviluppiamo un algoritmo basato sul campionamento Gumbel a posteriori che ci permette di inferire le variabili latenti di rumore e generare controfattuali di stringhe osservate. I nostri esperimenti dimostrano che l'approccio produce controfattuali significativi mostrando al contempo che le tecniche di intervento comunemente utilizzate hanno considerevoli effetti collaterali indesiderati.
La generazione del movimento umano è un'area di ricerca all'avanguardia nella visione artificiale generativa, con applicazioni promettenti nella creazione di video, nello sviluppo di giochi e nella manipolazione robotica. L'architettura Mamba recente mostra risultati promettenti nel modellare in modo efficiente sequenze lunghe e complesse, tuttavia due significativi sfide rimangono: In primo luogo, l'applicazione diretta di Mamba alla generazione estesa di movimento è inefficace, poiché la capacità limitata della memoria implicita porta a decadimento della memoria. In secondo luogo, Mamba fatica con la fusione multimodale rispetto ai Transformers e manca di allineamento con le query testuali, spesso confondendo le direzioni (sinistra o destra) o omettendo parti di query testuali più lunghe. Per affrontare queste sfide, il nostro articolo presenta tre contributi chiave: In primo luogo, introduciamo KMM, una nuova architettura caratterizzata da Key frame Masking Modeling, progettata per potenziare il focus di Mamba sulle azioni chiave nei segmenti di movimento. Questo approccio affronta il problema del decadimento della memoria e rappresenta un metodo pionieristico nella personalizzazione della mascheratura strategica a livello di frame negli SSM. Inoltre, abbiamo progettato un paradigma di apprendimento contrastivo per affrontare il problema della fusione multimodale in Mamba e migliorare l'allineamento tra movimento e testo. Infine, abbiamo condotto ampi esperimenti sul dataset di riferimento, BABEL, raggiungendo prestazioni all'avanguardia con una riduzione di oltre il 57% nell'FID e del 70% dei parametri rispetto ai metodi di riferimento precedenti. Visita il sito del progetto: https://steve-zeyu-zhang.github.io/KMM
Gli algoritmi di ottimizzazione della sicurezza sono comunemente utilizzati per ottimizzare i modelli linguistici al fine di ridurre le uscite dannose, ma i meccanismi interni esatti di come questi modelli raggiungano questo obiettivo rimangono poco chiari. Nello studio dell'ottimizzazione diretta delle preferenze (DPO) per la riduzione della tossicità, le spiegazioni attuali affermano che il DPO funziona attenuando i neuroni MLP più tossici per apprendere un offset per evitare le regioni tossiche nel flusso residuo. Tuttavia, mediante l'ablazione dei neuroni più tossici e l'applicazione di patch di attivazione, troviamo che questa spiegazione è incompleta. Proiettando i cambiamenti di attivazione dei neuroni su una sonda di tossicità, scopriamo che solo il 31,8\% della riduzione della tossicità proviene dai neuroni tossici attenuati. Invece, il DPO riduce la tossicità accumulando effetti attraverso più gruppi di neuroni, riducendo sia la scrittura nella direzione tossica che promuovendo l'anti-tossicità nel flusso residuo. Inoltre, il DPO fornisce aggiustamenti rumorosi alle attivazioni dei neuroni, con molti neuroni che aumentano effettivamente la tossicità. Ciò indica che il DPO è un processo di bilanciamento tra effetti opposti dei neuroni per ottenere la riduzione della tossicità.
I grandi modelli linguistici (LLM) hanno dimostrato un notevole successo nel trattamento del linguaggio naturale (NLP) e hanno mostrato risultati promettenti in altri ambiti come la generazione di sequenze proteiche. Tuttavia, rimangono differenze significative tra i LLM utilizzati per l'NLP, che gestiscono efficacemente molteplici compiti e sono disponibili in dimensioni ridotte, e i modelli linguistici proteici che sono spesso specializzati per compiti specifici e esistono solo in dimensioni più grandi. In questo lavoro, presentiamo due piccoli modelli linguistici proteici, basati su Llama-3-8B e Phi-3-mini, capaci di generare sia proteine in modo incontrollato che controllato. Per il compito di generazione incontrollata, il nostro miglior modello raggiunge un punteggio medio pLDDT di 69,75, dimostrando una prestazione robusta nella generazione di strutture proteiche valide. Per il compito di generazione controllata, in cui il modello genera proteine in base alle proprietà specificate nel prompt, otteniamo un notevole TM-Score medio di 0,84, indicando un'elevata similarità strutturale con le proteine target. Abbiamo selezionato 10 proprietà, tra cui sei classi di enzimi, per ampliare le capacità dei precedenti modelli linguistici proteici. Il nostro approccio utilizza la tecnica Low-Rank Adaptor (LoRA), riducendo i parametri addestrabili al solo 4% delle dimensioni del modello originale, riducendo i requisiti computazionali. Utilizzando un sottoinsieme del dataset UniRef50 e modelli ridotti, abbiamo ridotto il tempo complessivo di addestramento del 70% senza compromettere le prestazioni. In particolare, Phi-3-mini ha ridotto i parametri addestrabili del 60%, diminuendo il costo di addestramento del 30% rispetto a Llama 3. Di conseguenza, Phi-3 ha ottenuto un TM-Score comparabile di 0,81, dimostrando che modelli più piccoli possono eguagliare le prestazioni di quelli più grandi, come Llama 3. Dimostriamo inoltre il dispiegamento dei nostri modelli sul chip ad alta efficienza energetica ET-SoC-1, migliorando significativamente il TPS/W di un fattore 3.
La costruzione di un correttore di errori post-riconoscimento generale pone una domanda cruciale: come possiamo addestrare in modo più efficace un modello su una vasta miscela di dataset di dominio? La risposta risiederebbe nel comprendere le caratteristiche specifiche del dataset e assimilare le loro conoscenze in un unico modello. Metodi precedenti raggiungono questo obiettivo attraverso l'utilizzo di modelli di linguaggio di correzione separati, con un significativo aumento dei parametri. In questo lavoro, presentiamo il Mixture-of-Experts come soluzione, sottolineando che i MoE sono molto più di uno strumento di scalabilità. Proponiamo un MoE di correzione multi-task, dove addestriamo gli esperti a diventare un "esperto" di dataset da speech-to-text, language-to-text e vision-to-text apprendendo a instradare i token di ciascun dataset al relativo esperto mappato. Gli esperimenti sulla classifica Open ASR mostrano che esploriamo un nuovo stato dell'arte ottenendo una riduzione media relativa del 5,0% del tasso di errore di parola (WER) e miglioramenti sostanziali nei punteggi BLEU per compiti di speech e traduzione. Nell'valutazione zero-shot, NeKo supera GPT-3.5 e Claude-Opus con una riduzione relativa del WER del 15,5% al 27,6% nel benchmark Hyporadise. NeKo si comporta in modo competitivo nella correzione grammaticale e post-OCR come modello multi-task.
Con l'aumentare della diffusione dei grandi modelli linguistici nel settore finanziario, c'è un urgente bisogno di un metodo standardizzato per valutarne in modo completo le prestazioni. Tuttavia, i benchmark finanziari esistenti spesso soffrono di una limitata copertura linguistica e di compiti, nonché di sfide come dataset di bassa qualità e scarsa adattabilità per la valutazione dei LLM. Per affrontare tali limitazioni, proponiamo "Golden Touchstone", il primo completo benchmark bilingue per i LLM finanziari, che incorpora dataset rappresentativi sia in cinese che in inglese su otto principali compiti di NLP finanziario. Sviluppato da un'ampia raccolta di dati open source e dalle esigenze specifiche dell'industria, questo benchmark include una varietà di compiti finanziari mirati a valutare approfonditamente le capacità di comprensione e generazione del linguaggio dei modelli. Attraverso un'analisi comparativa dei principali modelli sul benchmark, come GPT-4o Llama3, FinGPT e FinMA, riveliamo i loro punti di forza e le limitazioni nel trattare informazioni finanziarie complesse. Inoltre, abbiamo reso open source Touchstone-GPT, un LLM finanziario addestrato attraverso un continuo pre-addestramento e sintonizzazione istruita finanziariamente, che dimostra ottime prestazioni sul benchmark bilingue ma ha comunque limitazioni in compiti specifici. Questa ricerca fornisce non solo ai grandi modelli linguistici finanziari uno strumento di valutazione pratico, ma guida anche lo sviluppo e l'ottimizzazione della ricerca futura. Il codice sorgente per Golden Touchstone e i pesi del modello di Touchstone-GPT sono stati resi pubblicamente disponibili su https://github.com/IDEA-FinAI/Golden-Touchstone, contribuendo all'evoluzione in corso dei FinLLM e promuovendo ulteriori ricerche in questa area critica.