HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

17 papers found

MJ-Bench: Il tuo modello di ricompensa multimodale è davvero un buon giudice per la generazione di testo-immagine?
MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?

Jul 5

ByZhaorun Chen, Yichao Du, Zichen Wen, Yiyang Zhou, Chenhang Cui, Zhenzhen Weng, Haoqin Tu, Chaoqi Wang, Zhengwei Tong, Qinglan Huang, Canyu Chen, Qinghao Ye, Zhihong Zhu, Yuqing Zhang, Jiawei Zhou, Zhuokai Zhao, Rafael Rafailov, Chelsea Finn, Huaxiu Yao

Mentre i modelli di generazione di immagini da testo come DALLE-3 e Stable Diffusion si stanno diffondendo rapidamente, spesso incontrano sfide come allucinazioni, bias e la produzione di output di bassa qualità o non sicuri. Per affrontare efficacemente questi problemi, è cruciale allineare questi modelli con comportamenti desiderati basandosi sul feedback di un giudice multimodale. Nonostante la loro importanza, i giudici multimodali attuali vengono spesso valutati in modo inadeguato riguardo alle loro capacità e limitazioni, il che può portare a disallineamenti e risultati di fine-tuning non sicuri. Per risolvere questo problema, introduciamo MJ-Bench, un nuovo benchmark che incorpora un dataset di preferenze completo per valutare i giudici multimodali nel fornire feedback per i modelli di generazione di immagini secondo quattro prospettive chiave: allineamento, sicurezza, qualità dell'immagine e bias. Nello specifico, valutiamo una vasta gamma di giudici multimodali, inclusi modelli di punteggio basati su CLIP di dimensioni ridotte, modelli di linguaggio visivo open-source (ad esempio, la famiglia LLaVA) e modelli di linguaggio visivo closed-source (ad esempio, GPT-4o, Claude 3) su ciascuna sottocategoria scomposta del nostro dataset di preferenze. Gli esperimenti rivelano che i modelli closed-source forniscono generalmente un feedback migliore, con GPT-4o che supera gli altri giudici in media. Rispetto ai modelli open-source, i modelli di punteggio di dimensioni ridotte possono fornire un feedback migliore riguardo all'allineamento testo-immagine e alla qualità dell'immagine, mentre i modelli di linguaggio visivo forniscono un feedback più accurato riguardo alla sicurezza e al bias di generazione grazie alle loro capacità di ragionamento più avanzate. Ulteriori studi sulla scala del feedback rivelano che i giudici multimodali possono generalmente fornire un feedback più accurato e stabile in linguaggio naturale (scala Likert) rispetto alle scale numeriche. In particolare, le valutazioni umane su modelli fine-tuned end-to-end utilizzando feedback separati da questi giudici multimodali forniscono conclusioni simili, confermando ulteriormente l'efficacia di MJ-Bench. Tutti i dati, il codice e i modelli sono disponibili su https://huggingface.co/MJ-Bench.

LLaMAX: Ampliare gli orizzonti linguistici dei modelli linguistici di grandi dimensioni potenziando le capacità di traduzione oltre 100 lingue
LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages

Jul 8

ByYinquan Lu, Wenhao Zhu, Lei Li, Yu Qiao, Fei Yuan

I modelli linguistici di grandi dimensioni (LLM) dimostrano capacità di traduzione notevoli nei compiti che coinvolgono lingue ad alta risorsa, ma le loro prestazioni nelle lingue a bassa risorsa sono limitate dalla carenza di dati multilingue durante la pre-addestramento. Per affrontare questo problema, abbiamo dedicato 35.000 ore di GPU A100-SXM4-80GB per condurre un esteso pre-addestramento multilingue continuo sui modelli della serie LLaMA, abilitando il supporto alla traduzione per oltre 100 lingue. Attraverso un'analisi approfondita delle strategie di addestramento, come l'espansione del vocabolario e l'aumento dei dati, abbiamo sviluppato LLaMAX. In modo significativo, senza sacrificare la sua capacità di generalizzazione, LLaMAX raggiunge prestazioni di traduzione notevolmente superiori rispetto agli LLM open-source esistenti (con un miglioramento di oltre 10 punti spBLEU) e si colloca allo stesso livello di un modello di traduzione specializzato (M2M-100-12B) nel benchmark Flores-101. Esperimenti estensivi indicano che LLaMAX può servire come un solido modello di base multilingue. Il codice~\url{https://github.com/CONE-MT/LLaMAX/.} e i modelli~\url{https://huggingface.co/LLaMAX/.} sono pubblicamente disponibili.

Trasformatore di Memoria Associativa Ricorrente
Associative Recurrent Memory Transformer

Jul 5

ByIvan Rodkin, Yuri Kuratov, Aydar Bulatov, Mikhail Burtsev

Questo articolo affronta la sfida di creare un'architettura neurale per sequenze molto lunghe che richieda un tempo costante per elaborare nuove informazioni ad ogni passo temporale. Il nostro approccio, Associative Recurrent Memory Transformer (ARMT), si basa sull'auto-attenzione dei transformer per il contesto locale e sulla ricorrenza a livello di segmento per la memorizzazione di informazioni specifiche del compito distribuite su un contesto lungo. Dimostriamo che ARMT supera le alternative esistenti nei compiti di recupero associativo e stabilisce un nuovo record di prestazioni nel recente benchmark multi-task a lungo contesto BABILong, rispondendo a domande su singoli fatti su 50 milioni di token con un'accuratezza del 79,9%. Il codice sorgente per l'addestramento e la valutazione è disponibile su GitHub.

Apprendimento dell'Editing di Immagini Centrato su Azioni e Ragionamento da Video e Simulazioni
Learning Action and Reasoning-Centric Image Editing from Videos and Simulations

Jul 3

ByBenno Krojer, Dheeraj Vattikonda, Luis Lara, Varun Jampani, Eva Portelance, Christopher Pal, Siva Reddy

Un modello di editing di immagini dovrebbe essere in grado di eseguire modifiche diverse, che vanno dalla sostituzione di oggetti, alla modifica di attributi o stile, fino all'esecuzione di azioni o movimenti, che richiedono molteplici forme di ragionamento. Gli attuali modelli di editing guidati da istruzioni generali presentano significative carenze nelle modifiche centrate su azioni e ragionamento. Cambiamenti di oggetti, attributi o stile possono essere appresi da dataset visivamente statici. D'altra parte, dati di alta qualità per modifiche centrate su azioni e ragionamento sono scarsi e devono provenire da fonti completamente diverse che coprono, ad esempio, dinamiche fisiche, temporalità e ragionamento spaziale. A tal fine, abbiamo curato meticolosamente il dataset AURORA (Action-Reasoning-Object-Attribute), una raccolta di dati di addestramento di alta qualità, annotati manualmente e selezionati da video e motori di simulazione. Ci concentriamo su un aspetto chiave dei dati di addestramento di qualità: le triplette (immagine sorgente, prompt, immagine target) contengono un singolo cambiamento visivo significativo descritto dal prompt, ovvero cambiamenti veramente minimi tra le immagini sorgente e target. Per dimostrare il valore del nostro dataset, valutiamo un modello fine-tuned su AURORA su un nuovo benchmark curato da esperti (AURORA-Bench) che copre 8 diverse attività di editing. Il nostro modello supera significativamente i precedenti modelli di editing secondo il giudizio di valutatori umani. Per le valutazioni automatiche, abbiamo riscontrato importanti difetti nelle metriche precedenti e sconsigliamo il loro uso per compiti di editing semanticamente complessi. Invece, proponiamo una nuova metrica automatica che si concentra sulla comprensione discriminativa. Speriamo che i nostri sforzi: (1) la cura di un dataset di addestramento di qualità e di un benchmark di valutazione, (2) lo sviluppo di valutazioni critiche, e (3) il rilascio di un modello all'avanguardia, possano alimentare ulteriori progressi nel campo dell'editing generale di immagini.

ANOLE: Un Modello Multimodale Nativo, Autoregressivo e Aperto per la Generazione Intervallata di Immagini e Testi
ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation

Jul 8

ByEthan Chern, Jiadi Su, Yan Ma, Pengfei Liu

I precedenti modelli multimodali di grandi dimensioni (LMM) open-source hanno affrontato diverse limitazioni: (1) spesso mancano di integrazione nativa, richiedendo adattatori per allineare le rappresentazioni visive con modelli linguistici di grandi dimensioni (LLM) pre-addestrati; (2) molti sono limitati alla generazione unimodale; (3) sebbene alcuni supportino la generazione multimodale, si basano su modelli di diffusione separati per la modellazione e la generazione visiva. Per mitigare queste limitazioni, presentiamo Anole, un modello multimodale di grandi dimensioni aperto, autoregressivo e nativo per la generazione intervallata di immagini e testo. Abbiamo costruito Anole a partire da Chameleon di Meta AI, adottando una strategia di fine-tuning innovativa che è sia efficiente in termini di dati che di parametri. Anole dimostra capacità di generazione multimodale di alta qualità e coerente. Abbiamo reso open-source il nostro modello, il framework di addestramento e i dati di regolazione delle istruzioni.

Valutazione delle Finestre Contestuali dei Modelli Linguistici: Un Test della "Memoria di Lavoro" e Correzione al Momento dell'Inferenza
Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction

Jul 4

ByAmanda Dsouza, Christopher Glaze, Changho Shin, Frederic Sala

I grandi modelli linguistici sono ampiamente utilizzati in applicazioni del mondo reale, spesso incaricati di ragionare su grandi volumi di documenti. Uno sviluppo entusiasmante in questo ambito è rappresentato da modelli che vantano capacità di contesto esteso, con alcuni in grado di gestire oltre 2 milioni di token. Tuttavia, le capacità di questi modelli con contesto lungo rimangono incerte nei sistemi di produzione, motivando la necessità di valutare le loro prestazioni su casi d'uso reali. Affrontiamo questa sfida proponendo SWiM, un framework di valutazione che supera i limiti dei test standard. Testando il framework su otto modelli con contesto lungo, scopriamo che anche modelli potenti come GPT-4 e Claude 3 Opus vedono un calo delle prestazioni quando le informazioni si trovano al centro della finestra di contesto (effetto "lost-in-the-middle"). Inoltre, oltre al nostro benchmark, proponiamo il voto mediano, un approccio semplice ma efficace che non richiede addestramento e aiuta a mitigare questo effetto, generando risposte più volte, ogni volta permutando casualmente i documenti nel contesto, e selezionando la risposta mediana. Valutiamo il voto mediano su task di QA con singolo documento, ottenendo un miglioramento dell'accuratezza fino al 24%.

UltraEdit: Modifica Fine-Grana delle Immagini su Larga Scala Basata su Istruzioni
UltraEdit: Instruction-based Fine-Grained Image Editing at Scale

Jul 7

ByHaozhe Zhao, Xiaojian Ma, Liang Chen, Shuzheng Si, Rujie Wu, Kaikai An, Peiyu Yu, Minjia Zhang, Qing Li, Baobao Chang

Questo articolo presenta UltraEdit, un dataset su larga scala (circa 4 milioni di campioni di editing) generato automaticamente per l'editing di immagini basato su istruzioni. La nostra idea chiave è affrontare i limiti dei dataset esistenti per l'editing di immagini come InstructPix2Pix e MagicBrush, e fornire un approccio sistematico per produrre campioni di editing massicci e di alta qualità. UltraEdit offre diversi vantaggi distintivi: 1) Presenta una gamma più ampia di istruzioni di editing sfruttando la creatività dei modelli linguistici di grandi dimensioni (LLM) insieme a esempi di editing contestuali forniti da valutatori umani; 2) Le sue fonti di dati si basano su immagini reali, inclusi fotografie e opere d'arte, che offrono una maggiore diversità e riducono i bias rispetto ai dataset generati esclusivamente da modelli testo-immagine; 3) Supporta anche l'editing basato su regioni, potenziato da annotazioni regionali di alta qualità prodotte automaticamente. I nostri esperimenti dimostrano che i modelli di editing basati su diffusione addestrati su UltraEdit stabiliscono nuovi record sui benchmark MagicBrush ed Emu-Edit. La nostra analisi conferma ulteriormente il ruolo cruciale delle ancore di immagini reali e dei dati di editing basati su regioni. Il dataset, il codice e i modelli sono disponibili su https://ultra-editing.github.io.

Tailor3D: Personalizzazione e Generazione di Asset 3D con Immagini a Doppio Lato
Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images

Jul 8

ByZhangyang Qi, Yunhan Yang, Mengchen Zhang, Long Xing, Xiaoyang Wu, Tong Wu, Dahua Lin, Xihui Liu, Jiaqi Wang, Hengshuang Zhao

I recenti progressi nella generazione di contenuti 3D basata su intelligenza artificiale (3D AIGC) hanno mostrato promettenti risultati nella creazione diretta di oggetti 3D a partire da testo e immagini, offrendo significativi risparmi nei costi per l'animazione e il design di prodotti. Tuttavia, la modifica dettagliata e la personalizzazione degli asset 3D rimangono una sfida di lunga data. In particolare, i metodi di generazione 3D mancano della capacità di seguire istruzioni altamente dettagliate con la stessa precisione delle loro controparti per la creazione di immagini 2D. Immagina di poter ottenere un giocattolo tramite 3D AIGC, ma con accessori e vestiti indesiderati. Per affrontare questa sfida, proponiamo una nuova pipeline chiamata Tailor3D, che crea rapidamente asset 3D personalizzati a partire da immagini modificabili su entrambi i lati. Il nostro obiettivo è emulare la capacità di un sarto di modificare localmente gli oggetti o di eseguire un trasferimento di stile complessivo. A differenza della creazione di asset 3D da più viste, l'uso di immagini su entrambi i lati elimina i conflitti nelle aree sovrapposte che si verificano quando si modificano singole viste. Nello specifico, il processo inizia modificando la vista frontale, poi genera la vista posteriore dell'oggetto attraverso la diffusione multi-vista. Successivamente, procede a modificare le viste posteriori. Infine, viene proposto un Dual-sided LRM per cucire insieme in modo fluido le caratteristiche 3D frontali e posteriori, simile a un sarto che cuce insieme il davanti e il retro di un indumento. Il Dual-sided LRM corregge le imperfette consistenze tra le viste frontali e posteriori, migliorando le capacità di modifica e riducendo il carico di memoria, integrandole in modo fluido in una rappresentazione 3D unificata con il LoRA Triplane Transformer. I risultati sperimentali dimostrano l'efficacia di Tailor3D in vari compiti di generazione e modifica 3D, inclusi il riempimento generativo 3D e il trasferimento di stile. Offre una soluzione user-friendly ed efficiente per la modifica di asset 3D, con ogni passo di modifica che richiede solo pochi secondi per essere completato.

InverseCoder: Sfruttare il Potere dei Modelli Linguistici di Codice Ottimizzati per Istruzioni con Inverse-Instruct
InverseCoder: Unleashing the Power of Instruction-Tuned Code LLMs with Inverse-Instruct

Jul 8

ByYutong Wu, Di Huang, Wenxuan Shi, Wei Wang, Lingzhe Gao, Shihao Liu, Ziyuan Nan, Kaizhao Yuan, Rui Zhang, Xishan Zhang, Zidong Du, Qi Guo, Yewen Pu, Dawei Yin, Xing Hu, Yunji Chen

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) open-source per il codice hanno dimostrato notevoli capacità di programmazione attraverso il fine-tuning sui dati generati da potenti LLM closed-source come GPT-3.5 e GPT-4 per il tuning delle istruzioni. Questo articolo esplora come migliorare ulteriormente un LLM per il codice con tuning delle istruzioni generando dati da sé stesso piuttosto che interrogando LLM closed-source. La nostra osservazione chiave è il disallineamento tra la traduzione di linguaggi formali e informali: tradurre un linguaggio formale (cioè, il codice) in un linguaggio informale (cioè, il linguaggio naturale) è più semplice rispetto al contrario. Sulla base di questa osservazione, proponiamo INVERSE-INSTRUCT, che sintetizza le istruzioni dai frammenti di codice invece del contrario. Nello specifico, dato un corpus di tuning delle istruzioni per il codice e il risultante LLM per il codice con tuning delle istruzioni, chiediamo al LLM per il codice di generare ulteriori istruzioni di alta qualità per il corpus originale attraverso la sintesi del codice e l'autovalutazione. Successivamente, eseguiamo il fine-tuning del LLM di base sulla combinazione del corpus originale e di quello autogenerato, ottenendo un LLM con tuning delle istruzioni più potente. Presentiamo una serie di LLM per il codice denominati InverseCoder, che superano le prestazioni degli LLM per il codice originali su un'ampia gamma di benchmark, inclusa la generazione di codice Python da testo, la programmazione multilingue e la generazione di codice per la scienza dei dati.

Generazione Composizionale di Video come Equalizzazione del Flusso
Compositional Video Generation as Flow Equalization

Jun 10

ByXingyi Yang, Xinchao Wang

I modelli di diffusione su larga scala per la generazione di video da testo (Text-to-Video, T2V) hanno recentemente dimostrato una capacità senza precedenti di trasformare descrizioni in linguaggio naturale in video straordinari e fotorealistici. Nonostante i risultati promettenti, rimane una sfida significativa: questi modelli faticano a comprendere appieno le interazioni compositive complesse tra più concetti e azioni. Questo problema si manifesta quando alcune parole influenzano in modo dominante il video finale, oscurando altri concetti. Per affrontare questo problema, introduciamo Vico, un framework generico per la generazione compositiva di video che garantisce esplicitamente che tutti i concetti siano rappresentati correttamente. Nel suo nucleo, Vico analizza come i token di input influenzano il video generato e regola il modello per impedire che un singolo concetto domini. Nello specifico, Vico estrae i pesi di attenzione da tutti i livelli per costruire un grafo di attenzione spazio-temporale, e poi stima l'influenza come il flusso massimo dal token di testo sorgente al token di video target. Sebbene il calcolo diretto del flusso di attenzione nei modelli di diffusione sia tipicamente infattibile, abbiamo ideato un'approssimazione efficiente basata su flussi di sottografi e impiegato un'implementazione veloce e vettorizzata, che rende il calcolo del flusso gestibile e differenziabile. Aggiornando il rumore latente per bilanciare questi flussi, Vico cattura interazioni complesse e produce di conseguenza video che aderiscono strettamente alle descrizioni testuali. Applichiamo il nostro metodo a più modelli di video basati su diffusione per la generazione compositiva di video T2V e l'editing video. I risultati empirici dimostrano che il nostro framework migliora significativamente la ricchezza compositiva e l'accuratezza dei video generati. Visita il nostro sito web all'indirizzo~https://adamdad.github.io/vico/{https://adamdad.github.io/vico/}.

Allucinazione Multi-Oggetto nei Modelli Visione-Linguaggio
Multi-Object Hallucination in Vision-Language Models

Jul 8

ByXuweiyi Chen, Ziqiao Ma, Xuejun Zhang, Sihan Xu, Shengyi Qian, Jianing Yang, David F. Fouhey, Joyce Chai

I grandi modelli linguistici visivi (LVLM) spesso soffrono di allucinazioni oggettuali, producendo oggetti non presenti nelle immagini fornite. Mentre gli attuali benchmark per le allucinazioni oggettuali si concentrano principalmente sulla presenza di una singola classe di oggetti piuttosto che su entità individuali, questo lavoro indaga sistematicamente le allucinazioni multi-oggetto, esaminando come i modelli percepiscono erroneamente (ad esempio, inventano oggetti inesistenti o si distraggono) quando sono chiamati a concentrarsi su più oggetti contemporaneamente. Introduciamo la Valutazione basata su Riconoscimento Oggettuale (ROPE), un protocollo di valutazione automatizzato che considera la distribuzione delle classi di oggetti all'interno di una singola immagine durante il test e utilizza prompt visivi di riferimento per eliminare ambiguità. Con studi empirici completi e analisi dei potenziali fattori che portano alle allucinazioni multi-oggetto, abbiamo scoperto che (1) i LVLM soffrono di più allucinazioni quando si concentrano su più oggetti rispetto a un singolo oggetto. (2) La distribuzione delle classi di oggetti testate influisce sui comportamenti di allucinazione, indicando che i LVLM potrebbero seguire scorciatoie e correlazioni spurie. (3) I comportamenti allucinatori sono influenzati da fattori specifici dei dati, salienza e frequenza, e da comportamenti intrinseci del modello. Speriamo di permettere ai LVLM di riconoscere e ragionare su più oggetti che spesso si presentano in scene visive realistiche, fornire intuizioni e quantificare i progressi verso la mitigazione di questi problemi.

PAS: Sistema Plug-and-Play di Aumento dei Prompt Efficace nei Dati
PAS: Data-Efficient Plug-and-Play Prompt Augmentation System

Jul 8

ByMiao Zheng, Hao Liang, Fan Yang, Haoze Sun, Tianpeng Li, Lingchu Xiong, Yan Zhang, Yozhen Wu, Kun Li, Yanjun Sheng, Mingan Lin, Tao Zhang, Guosheng Dong, Yujing Qiao, Kun Fang, Weipeng Chen, Bin Cui, Wentao Zhang, Zenan Zhou

Negli ultimi anni, l'ascesa dei Large Language Models (LLM) ha stimolato una crescente domanda di sistemi AI plug-and-play. Tra le varie tecniche di intelligenza artificiale, l'ingegneria dei prompt si distingue per la sua particolare rilevanza. Tuttavia, gli utenti spesso incontrano difficoltà nella scrittura dei prompt a causa della curva di apprendimento ripida e del significativo investimento di tempo richiesto, e i modelli esistenti di ingegneria automatica dei prompt (APE) possono risultare di difficile utilizzo. Per affrontare questo problema, proponiamo PAS, un sistema APE plug-and-play basato su LLM. PAS utilizza LLM addestrati su dataset di prompt complementari generati automaticamente e di alta qualità, ottenendo prestazioni eccezionali. In benchmark completi, PAS raggiunge risultati state-of-the-art (SoTA) rispetto ai precedenti modelli APE, con un miglioramento medio di 6,09 punti. Inoltre, PAS è altamente efficiente, raggiungendo prestazioni SoTA con soli 9000 punti dati. In aggiunta, PAS può generare autonomamente dati di aumento dei prompt senza richiedere ulteriore lavoro umano. La sua flessibilità gli permette anche di essere compatibile con tutti gli LLM esistenti e applicabile a un'ampia gamma di task. PAS eccelle nelle valutazioni umane, sottolineando la sua idoneità come plug-in per gli utenti. Questa combinazione di alte prestazioni, efficienza e flessibilità rende PAS un sistema prezioso per migliorare l'usabilità e l'efficacia degli LLM attraverso un'ingegneria dei prompt ottimizzata.

Addestramento di Esperti per Compiti Specifici tramite Distillazione Basata su Recupero
Training Task Experts through Retrieval Based Distillation

Jul 7

ByJiaxin Ge, Xueying Jia, Vijay Viswanathan, Hongyin Luo, Graham Neubig

Uno dei metodi più affidabili per creare modelli utilizzabili per compiti specializzati è ottenere una quantità adeguata di dati di alta qualità specifici per il task. Tuttavia, per compiti specializzati, spesso tali dataset non esistono. I metodi esistenti affrontano questo problema generando tali dati da modelli linguistici di grandi dimensioni (LLM) e poi distillando tale conoscenza in modelli più piccoli. Tuttavia, questi metodi sono limitati dalla qualità dell'output degli LLM e tendono a generare dati ripetitivi o errati. In questo lavoro, presentiamo la Distillazione Basata su Recupero (ReBase), un metodo che prima recupera dati da fonti online ricche e poi li trasforma in dati specifici per il dominio. Questo metodo migliora notevolmente la diversità dei dati. Inoltre, ReBase genera ragionamenti a catena di pensiero (Chain-of-Thought) e distilla la capacità di ragionamento degli LLM. Testiamo il nostro metodo su 4 benchmark e i risultati mostrano che il nostro metodo migliora significativamente le prestazioni fino al 7,8% su SQuAD, 1,37% su MNLI e 1,94% su BigBench-Hard.

Comprendere la dipendenza dalle caratteristiche visive attraverso la lente della complessità
Understanding Visual Feature Reliance through the Lens of Complexity

Jul 8

ByThomas Fel, Louis Bethune, Andrew Kyle Lampinen, Thomas Serre, Katherine Hermann

Studi recenti suggeriscono che il bias induttivo dei modelli di deep learning verso il favorire caratteristiche più semplici possa essere una delle fonti dell'apprendimento tramite scorciatoie. Tuttavia, c'è stata un'attenzione limitata nel comprendere la complessità delle innumerevoli caratteristiche che i modelli apprendono. In questo lavoro, introduciamo una nuova metrica per quantificare la complessità delle caratteristiche, basata sulla V-informazione e che cattura se una caratteristica richiede trasformazioni computazionali complesse per essere estratta. Utilizzando questa metrica di V-informazione, analizziamo le complessità di 10.000 caratteristiche, rappresentate come direzioni nel penultimo strato, che sono state estratte da un modello visivo standard addestrato su ImageNet. Il nostro studio affronta quattro domande chiave: in primo luogo, ci chiediamo come appaiono le caratteristiche in funzione della complessità e troviamo uno spettro di caratteristiche da semplici a complesse presenti all'interno del modello. In secondo luogo, ci chiediamo quando le caratteristiche vengono apprese durante l'addestramento. Scopriamo che le caratteristiche più semplici dominano all'inizio dell'addestramento, mentre quelle più complesse emergono gradualmente. In terzo luogo, indaghiamo dove all'interno della rete fluiscono le caratteristiche semplici e complesse, e troviamo che le caratteristiche più semplici tendono a bypassare la gerarchia visiva attraverso connessioni residue. In quarto luogo, esploriamo la connessione tra la complessità delle caratteristiche e la loro importanza nel guidare la decisione della rete. Scopriamo che le caratteristiche complesse tendono a essere meno importanti. Sorprendentemente, le caratteristiche importanti diventano accessibili negli strati più iniziali durante l'addestramento, come un processo di sedimentazione, permettendo al modello di costruire su questi elementi fondamentali.

PartCraft: Creazione di Oggetti Creativi tramite Parti
PartCraft: Crafting Creative Objects by Parts

Jul 5

ByKam Woh Ng, Xiatian Zhu, Yi-Zhe Song, Tao Xiang

Questo articolo promuove il controllo creativo nell'IA generativa visiva consentendo agli utenti di "selezionare". Allontanandoci dai metodi tradizionali basati su testo o schizzi, per la prima volta permettiamo agli utenti di scegliere concetti visivi per parti per le loro attività creative. Il risultato è una generazione fine che cattura con precisione i concetti visivi selezionati, garantendo un risultato complessivamente fedele e plausibile. Per raggiungere questo obiettivo, analizziamo prima gli oggetti in parti attraverso il clustering non supervisionato di feature. Successivamente, codifichiamo le parti in token testuali e introduciamo una perdita di attenzione normalizzata basata sull'entropia che opera su di essi. Questo design della perdita consente al nostro modello di apprendere conoscenze topologiche generiche sulla composizione delle parti degli oggetti e di generalizzare ulteriormente a nuove composizioni di parti per garantire che la generazione appaia complessivamente fedele. Infine, utilizziamo un encoder a collo di bottiglia per proiettare i token delle parti. Questo non solo migliora la fedeltà ma accelera anche l'apprendimento, sfruttando conoscenze condivise e facilitando lo scambio di informazioni tra le istanze. I risultati visivi nell'articolo e nel materiale supplementare dimostrano il potere convincente di PartCraft nel creare creazioni altamente personalizzate e innovative, esemplificate dagli uccelli "affascinanti" e creativi. Il codice è rilasciato su https://github.com/kamwoh/partcraft.

LLMAEL: I grandi modelli linguistici sono ottimi amplificatori di contesto per il collegamento di entità
LLMAEL: Large Language Models are Good Context Augmenters for Entity Linking

Jul 4

ByAmy Xin, Yunjia Qi, Zijun Yao, Fangwei Zhu, Kaisheng Zeng, Xu Bin, Lei Hou, Juanzi Li

I modelli di Entity Linking (EL) sono ben addestrati a mappare le menzioni alle corrispondenti entità in base a un determinato contesto. Tuttavia, i modelli EL faticano a disambiguare le entità di coda lunga a causa dei loro dati di addestramento limitati. Nel frattempo, i grandi modelli linguistici (LLM) sono più robusti nell'interpretare menzioni insolite. Tuttavia, a causa della mancanza di un addestramento specializzato, gli LLM hanno difficoltà a generare ID di entità corretti. Inoltre, addestrare un LLM per eseguire EL è costoso. Basandoci su queste intuizioni, introduciamo LLM-Augmented Entity Linking (LLMAEL), un approccio plug-and-play per migliorare il linking di entità attraverso l'aumento dei dati basato su LLM. Sfruttiamo gli LLM come amplificatori di contesto informati, generando descrizioni centrate sulle menzioni come input aggiuntivo, preservando al contempo i tradizionali modelli EL per l'elaborazione specifica del compito. Esperimenti su 6 dataset standard dimostrano che la versione base di LLMAEL supera i modelli EL di riferimento nella maggior parte dei casi, mentre la versione fine-tuned di LLMAEL stabilisce nuovi risultati state-of-the-art su tutti e 6 i benchmark.

ANAH-v2: Scalabilità dell'Annotazione delle Allucinazioni Analitiche nei Modelli Linguistici di Grande Dimensione
ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models

Jul 5

ByYuzhe Gu, Ziwei Ji, Wenwei Zhang, Chengqi Lyu, Dahua Lin, Kai Chen

I grandi modelli linguistici (LLM) manifestano allucinazioni in compiti di risposta a domande di lunga durata attraverso vari domini e ampie applicazioni. Gli attuali dataset per il rilevamento e la mitigazione delle allucinazioni sono limitati in termini di domini e dimensioni, e faticano a scalare a causa degli elevati costi di manodopera e dell'affidabilità insufficiente degli annotatori di allucinazioni esistenti. Per facilitare il controllo scalabile delle allucinazioni degli LLM, questo articolo introduce un framework di auto-addestramento iterativo che scala simultaneamente e progressivamente il dataset di annotazione delle allucinazioni e migliora l'accuratezza dell'annotatore di allucinazioni. Basato sull'algoritmo Expectation Maximization (EM), in ogni iterazione, il framework applica prima una pipeline di annotazione delle allucinazioni per annotare un dataset scalato e poi addestra un annotatore di allucinazioni più accurato sul dataset. Questo nuovo annotatore di allucinazioni viene adottato nella pipeline di annotazione delle allucinazioni utilizzata per l'iterazione successiva. I risultati sperimentali estesi dimostrano che l'annotatore di allucinazioni finalmente ottenuto, con soli 7B parametri, supera le prestazioni di GPT-4 e ottiene nuovi risultati all'avanguardia nel rilevamento delle allucinazioni su HaluEval e HalluQA tramite inferenza zero-shot. Tale annotatore non solo può valutare i livelli di allucinazione di vari LLM su un dataset su larga scala, ma aiuta anche a mitigare le allucinazioni delle generazioni degli LLM, con la metrica Natural Language Inference (NLI) che aumenta dal 25% al 37% su HaluEval.

MJ-Bench: Il tuo modello di ricompensa multimodale è davvero un buon giudice per la generazione di testo-immagine?
MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?

Jul 5