HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

19 papers found

I dataset FineWeb: Filtrare il web per ottenere i migliori dati testuali su larga scala
The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale

Jun 25

ByGuilherme Penedo, Hynek Kydlíček, Loubna Ben allal, Anton Lozhkov, Margaret Mitchell, Colin Raffel, Leandro Von Werra, Thomas Wolf

Le prestazioni di un modello linguistico su larga scala (LLM) dipendono fortemente dalla qualità e dalla dimensione del suo dataset di pre-addestramento. Tuttavia, i dataset di pre-addestramento per LLM open-source all'avanguardia come Llama 3 e Mixtral non sono pubblicamente disponibili, e si sa molto poco su come siano stati creati. In questo lavoro, presentiamo FineWeb, un dataset di 15 trilioni di token derivato da 96 snapshot di Common Crawl, che produce LLM con prestazioni migliori rispetto ad altri dataset di pre-addestramento open. Per approfondire la comprensione su come curare al meglio dataset di pre-addestramento di alta qualità, documentiamo e analizziamo attentamente tutte le scelte progettuali utilizzate in FineWeb, inclusi studi approfonditi sulle strategie di deduplicazione e filtraggio. Inoltre, introduciamo FineWeb-Edu, una raccolta di 1,3 trilioni di token di testo educativo filtrato da FineWeb. Gli LLM pre-addestrati su FineWeb-Edu mostrano prestazioni significativamente migliori su benchmark intensivi di conoscenza e ragionamento come MMLU e ARC. Insieme ai nostri dataset, rendiamo pubblicamente disponibile il nostro codice di curatela dei dati e tutti i modelli addestrati durante i nostri esperimenti di ablazione.

YouDream: Generazione di animali 3D da testo con controllo anatomico e coerenza
YouDream: Generating Anatomically Controllable Consistent Text-to-3D Animals

Jun 24

BySandeep Mishra, Oindrila Saha, Alan C. Bovik

La generazione 3D guidata da modelli di diffusione testo-immagine consente la creazione di asset visivamente accattivanti. Tuttavia, i metodi precedenti esplorano la generazione basata su immagini o testo. I confini della creatività sono limitati da ciò che può essere espresso attraverso le parole o dalle immagini che possono essere reperite. Presentiamo YouDream, un metodo per generare animali di alta qualità con controllo anatomico. YouDream è guidato da un modello di diffusione testo-immagine controllato da viste 2D di una posa 3D preesistente. Il nostro metodo genera animali 3D che non è possibile creare utilizzando i precedenti metodi di generazione testo-3D. Inoltre, il nostro metodo è in grado di preservare la coerenza anatomica negli animali generati, un'area in cui i precedenti approcci testo-3D spesso incontrano difficoltà. Inoltre, progettiamo una pipeline completamente automatizzata per generare animali comunemente trovati. Per evitare la necessità di intervento umano per creare una posa 3D, proponiamo un LLM multi-agente che adatta pose da una libreria limitata di pose 3D di animali per rappresentare l'animale desiderato. Uno studio condotto sugli esiti di YouDream dimostra la preferenza per i modelli di animali generati dal nostro metodo rispetto ad altri. I risultati del turntable e il codice sono disponibili su https://youdream3d.github.io/.

Sbloccare le capacità di apprendimento continuo nei modelli linguistici
Unlocking Continual Learning Abilities in Language Models

Jun 25

ByWenyu Du, Shuang Cheng, Tongxu Luo, Zihan Qiu, Zeyu Huang, Ka Chun Cheung, Reynold Cheng, Jie Fu

I modelli linguistici (LM) dimostrano prestazioni impressionanti e capacità di generalizzazione. Tuttavia, gli LM affrontano la persistente sfida del dimenticanza catastrofica, che mina la loro sostenibilità a lungo termine nell'apprendimento continuo (CL). Gli approcci esistenti solitamente affrontano il problema incorporando dati di vecchi compiti o bias induttivi specifici per compito negli LM. Tuttavia, i dati vecchi e le informazioni accurate sui compiti sono spesso non disponibili o costosi da raccogliere, ostacolando la disponibilità degli attuali approcci CL per gli LM. Per superare questa limitazione, introduciamo MIGU (MagnItude-based Gradient Updating for continual learning), un metodo senza rehearsal e senza etichette di compito che aggiorna solo i parametri del modello con grandi magnitudini dell'output nei livelli lineari degli LM. MIGU si basa sulla nostra osservazione che la distribuzione della magnitudine normalizzata L1 dell'output nei livelli lineari degli LM è diversa quando i modelli LM elaborano dati di compiti diversi. Imponendo questo semplice vincolo sul processo di aggiornamento del gradiente, possiamo sfruttare i comportamenti intrinseci degli LM, sbloccando così le loro innate capacità di CL. I nostri esperimenti dimostrano che MIGU è universalmente applicabile a tutte e tre le architetture LM (T5, RoBERTa e Llama2), fornendo prestazioni all'avanguardia o comparabili in contesti di fine-tuning continuo e pre-training continuo su quattro benchmark CL. Ad esempio, MIGU porta a un miglioramento medio dell'accuratezza del 15,2% rispetto ai baseline convenzionali di fine-tuning efficiente dei parametri in un benchmark CL a 15 compiti. MIGU può anche integrarsi perfettamente con tutti e tre i tipi esistenti di CL per migliorare ulteriormente le prestazioni. Il codice è disponibile all'indirizzo https://github.com/wenyudu/MIGU{this https URL}.

Allineamento dei Modelli di Diffusione con la Percezione Condizionata dal Rumore
Aligning Diffusion Models with Noise-Conditioned Perception

Jun 25

ByAlexander Gambashidze, Anton Kulikov, Yuriy Sosnin, Ilya Makarov

I recenti progressi nell'ottimizzazione delle preferenze umane, inizialmente sviluppati per i Modelli Linguistici (LM), hanno mostrato risultati promettenti per i Modelli di Diffusione testo-immagine, migliorando l'allineamento con le istruzioni, l'attrattiva visiva e le preferenze degli utenti. A differenza dei LM, i Modelli di Diffusione ottimizzano tipicamente nello spazio dei pixel o dello spazio VAE, che non si allinea bene con la percezione umana, portando a un addestramento più lento e meno efficiente durante la fase di allineamento delle preferenze. Proponiamo di utilizzare un obiettivo percettivo nello spazio di embedding U-Net del modello di diffusione per affrontare questi problemi. Il nostro approccio prevede il fine-tuning di Stable Diffusion 1.5 e XL utilizzando l'Ottimizzazione Diretta delle Preferenze (DPO), l'Ottimizzazione delle Preferenze Contrastive (CPO) e il fine-tuning supervisionato (SFT) all'interno di questo spazio di embedding. Questo metodo supera significativamente le implementazioni standard nello spazio latente in varie metriche, inclusa la qualità e il costo computazionale. Per SDXL, il nostro approccio fornisce una preferenza generale del 60,8%, un'attrattiva visiva del 62,2% e un allineamento alle istruzioni del 52,1% rispetto all'originale SDXL-DPO open-source sul dataset PartiPrompts, riducendo significativamente il calcolo. Il nostro approccio non solo migliora l'efficienza e la qualità dell'allineamento delle preferenze umane per i modelli di diffusione, ma è anche facilmente integrabile con altre tecniche di ottimizzazione. Il codice di addestramento e i pesi LoRA saranno disponibili qui: https://huggingface.co/alexgambashidze/SDXL\_NCP-DPO\_v0.1

DiffusionPDE: Risoluzione Generativa di PDE in Condizioni di Osservazione Parziale
DiffusionPDE: Generative PDE-Solving Under Partial Observation

Jun 25

ByJiahe Huang, Guandao Yang, Zichen Wang, Jeong Joon Park

Introduciamo un framework generale per risolvere equazioni differenziali alle derivate parziali (PDE) utilizzando modelli generativi di diffusione. In particolare, ci concentriamo sugli scenari in cui non disponiamo della conoscenza completa della scena necessaria per applicare i risolutori classici. La maggior parte degli approcci esistenti per PDE diretti o inversi si comportano in modo insoddisfacente quando le osservazioni sui dati o i coefficienti sottostanti sono incompleti, un'ipotesi comune per le misurazioni del mondo reale. In questo lavoro, proponiamo DiffusionPDE, che può simultaneamente completare le informazioni mancanti e risolvere una PDE modellando la distribuzione congiunta degli spazi delle soluzioni e dei coefficienti. Dimostriamo che i priori generativi appresi portano a un framework versatile per risolvere con precisione un'ampia gamma di PDE in condizioni di osservazione parziale, superando significativamente i metodi all'avanguardia sia nella direzione diretta che inversa.

APIGen: Pipeline Automatico per la Generazione di Dataset Verificabili e Diversificati per il Richiamo di Funzioni
APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets

Jun 26

ByZuxin Liu, Thai Hoang, Jianguo Zhang, Ming Zhu, Tian Lan, Shirley Kokane, Juntao Tan, Weiran Yao, Zhiwei Liu, Yihao Feng, Rithesh Murthy, Liangwei Yang, Silvio Savarese, Juan Carlos Niebles, Huan Wang, Shelby Heinecke, Caiming Xiong

Il progresso dei modelli di agenti per il richiamo di funzioni richiede dataset diversificati, affidabili e di alta qualità. Questo articolo presenta APIGen, una pipeline automatizzata per la generazione di dati progettata per sintetizzare dataset verificabili e di alta qualità per applicazioni di richiamo di funzioni. Utilizziamo APIGen e raccogliamo 3.673 API eseguibili in 21 diverse categorie per generare dataset di richiamo di funzioni in modo scalabile e strutturato. Ogni dato nel nostro dataset viene verificato attraverso tre fasi gerarchiche: controllo del formato, esecuzione effettiva delle funzioni e verifica semantica, garantendone l'affidabilità e la correttezza. Dimostriamo che i modelli addestrati con i nostri dataset curati, anche con soli 7 miliardi di parametri, possono raggiungere prestazioni all'avanguardia sul Berkeley Function-Calling Benchmark, superando diversi modelli GPT-4. Inoltre, il nostro modello da 1 miliardo di parametri ottiene prestazioni eccezionali, superando GPT-3.5-Turbo e Claude-3 Haiku. Rilasciamo un dataset contenente 60.000 voci di alta qualità, con l'obiettivo di far progredire il campo dei domini degli agenti per il richiamo di funzioni. Il dataset è disponibile su Huggingface: https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k e sulla homepage del progetto: https://apigen-pipeline.github.io/.

LongIns: Un Esame Basato su Istruzioni a Lungo Contesto per i Modelli Linguistici di Grande Dimensione
LongIns: A Challenging Long-context Instruction-based Exam for LLMs

Jun 25

ByShawn Gavin, Tuney Zheng, Jiaheng Liu, Quehry Que, Noah Wang, Jian Yang, Chenchen Zhang, Wenhao Huang, Wenhu Chen, Ge Zhang

Le capacità di contesto esteso dei grandi modelli linguistici (LLM) sono state un argomento di grande interesse negli ultimi anni. Per valutare le prestazioni degli LLM in diversi scenari, sono emersi vari benchmark di valutazione. Tuttavia, poiché la maggior parte di questi benchmark si concentra sull'identificazione di informazioni chiave per rispondere a domande, che richiede principalmente la capacità di recupero degli LLM, questi benchmark possono rappresentare solo parzialmente le prestazioni di ragionamento degli LLM a partire da grandi quantità di informazioni. Nel frattempo, sebbene gli LLM spesso dichiarino di avere finestre di contesto di 32k, 128k, 200k o addirittura più lunghe, questi benchmark non riescono a rivelare la lunghezza effettivamente supportata da questi LLM. Per affrontare questi problemi, proponiamo il dataset benchmark LongIns, un esame impegnativo basato su istruzioni a contesto esteso per gli LLM, costruito a partire dai dataset di istruzioni esistenti. Nello specifico, nel nostro LongIns introduciamo tre impostazioni di valutazione: Istruzione Globale & Compito Singolo (GIST), Istruzione Locale & Compito Singolo (LIST) e Istruzione Locale & Compiti Multipli (LIMT). Basandoci su LongIns, eseguiamo valutazioni complete sugli LLM esistenti e otteniamo le seguenti importanti osservazioni: (1). Il GPT-4, che è il migliore in classifica con una lunghezza di contesto di 128k, ha prestazioni scarse sulla finestra di contesto di valutazione di 16k nel nostro LongIns. (2). Per la capacità di ragionamento multi-hop di molti LLM esistenti, sono ancora necessari sforzi significativi sotto finestre di contesto brevi (meno di 4k).

MotionBooth: Generazione Personalizzata di Video da Testo con Consapevolezza del Movimento
MotionBooth: Motion-Aware Customized Text-to-Video Generation

Jun 25

ByJianzong Wu, Xiangtai Li, Yanhong Zeng, Jiangning Zhang, Qianyu Zhou, Yining Li, Yunhai Tong, Kai Chen

In questo lavoro presentiamo MotionBooth, un framework innovativo progettato per animare soggetti personalizzati con un controllo preciso sui movimenti sia dell'oggetto che della telecamera. Sfruttando poche immagini di un oggetto specifico, ottimizziamo in modo efficiente un modello text-to-video per catturare accuratamente la forma e gli attributi dell'oggetto. Il nostro approccio introduce una perdita per la regione del soggetto e una perdita per la preservazione del video per migliorare le prestazioni di apprendimento del soggetto, insieme a una perdita di cross-attention basata su token del soggetto per integrare il soggetto personalizzato con i segnali di controllo del movimento. Inoltre, proponiamo tecniche senza addestramento per gestire i movimenti del soggetto e della telecamera durante l'inferenza. In particolare, utilizziamo la manipolazione delle mappe di cross-attention per governare il movimento del soggetto e introduciamo un modulo innovativo di spostamento latente per il controllo del movimento della telecamera. MotionBooth eccelle nel preservare l'aspetto dei soggetti mentre controlla simultaneamente i movimenti nei video generati. Valutazioni quantitative e qualitative estensive dimostrano la superiorità e l'efficacia del nostro metodo. La pagina del progetto è disponibile all'indirizzo https://jianzongwu.github.io/projects/motionbooth.

MG-LLaVA: Verso una Sintonizzazione delle Istruzioni Visive Multi-Granularità
MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning

Jun 25

ByXiangyu Zhao, Xiangtai Li, Haodong Duan, Haian Huang, Yining Li, Kai Chen, Hua Yang

I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno compiuto progressi significativi in vari compiti di comprensione visiva. Tuttavia, la maggior parte di questi modelli è limitata a elaborare immagini a bassa risoluzione, il che ne riduce l'efficacia nei compiti di percezione che richiedono informazioni visive dettagliate. Nel nostro studio, presentiamo MG-LLaVA, un MLLM innovativo che potenzia le capacità di elaborazione visiva del modello incorporando un flusso visivo multi-granularità, che include caratteristiche a bassa risoluzione, ad alta risoluzione e centrate sugli oggetti. Proponiamo l'integrazione di un ulteriore codificatore visivo ad alta risoluzione per catturare dettagli fini, che vengono poi fusi con le caratteristiche visive di base attraverso una rete di fusione Conv-Gate. Per affinare ulteriormente le capacità di riconoscimento degli oggetti del modello, incorporiamo caratteristiche a livello di oggetto derivate da bounding box identificate da rilevatori offline. Addestrato esclusivamente su dati multimodali pubblicamente disponibili tramite instruction tuning, MG-LLaVA dimostra abilità percettive eccezionali. Istanziamo MG-LLaVA con una vasta gamma di codificatori linguistici, che vanno da 3,8B a 34B, per valutare in modo completo le prestazioni del modello. Valutazioni estese su più benchmark dimostrano che MG-LLaVA supera gli MLLM esistenti di dimensioni parametriche comparabili, mostrando una notevole efficacia. Il codice sarà disponibile all'indirizzo https://github.com/PhoenixZ810/MG-LLaVA.

Non Lasciare Nessun Documento Indietro: Benchmarking di LLM a Lungo Contesto con QA Multi-Documento Esteso
Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA

Jun 25

ByMinzheng Wang, Longze Chen, Cheng Fu, Shengyi Liao, Xinghua Zhang, Bingli Wu, Haiyang Yu, Nan Xu, Lei Zhang, Run Luo, Yunshui Li, Min Yang, Fei Huang, Yongbin Li

Le capacità di modellazione a contesto lungo hanno attirato un'attenzione diffusa, portando all'emergere di Modelli Linguistici di Grande Dimensione (LLM) con finestre di contesto ultra-estese. Nel frattempo, i benchmark per valutare gli LLM a contesto lungo stanno gradualmente raggiungendo il passo. Tuttavia, i benchmark esistenti utilizzano testi di rumore irrilevanti per estendere artificialmente la lunghezza dei casi di test, divergendo dagli scenari reali delle applicazioni a contesto lungo. Per colmare questa lacuna, proponiamo un nuovo benchmark a contesto lungo, Loong, allineato a scenari realistici attraverso un'estesa domanda e risposta (QA) multi-documento. A differenza della tipica QA su documenti, nei casi di test di Loong, ogni documento è rilevante per la risposta finale, e ignorare qualsiasi documento porterà al fallimento della risposta. Inoltre, Loong introduce quattro tipi di attività con una gamma di lunghezze di contesto: Localizzazione del Punto Focale, Confronto, Clustering e Catena di Ragionamento, per facilitare una valutazione più realistica e completa della comprensione a contesto lungo. Esperimenti estesi indicano che i modelli linguistici a contesto lungo esistenti mostrano ancora un potenziale considerevole di miglioramento. La generazione aumentata dal recupero (RAG) ottiene prestazioni scarse, dimostrando che Loong può valutare in modo affidabile le capacità di modellazione a contesto lungo del modello.

Segmentare Qualsiasi Testo: Un Approccio Universale per la Segmentazione di Frasi Robusta, Efficiente e Adattabile
Segment Any Text: A Universal Approach for Robust, Efficient and Adaptable Sentence Segmentation

Jun 24

ByMarkus Frohmann, Igor Sterner, Ivan Vulić, Benjamin Minixhofer, Markus Schedl

La segmentazione del testo in frasi svolge un ruolo iniziale e cruciale in molti sistemi di NLP. Questo viene comunemente ottenuto utilizzando metodi basati su regole o statistici che si affidano a caratteristiche lessicali come la punteggiatura. Sebbene alcuni lavori recenti non si basino più esclusivamente sulla punteggiatura, osserviamo che nessun metodo precedente riesce a raggiungere tutti i seguenti obiettivi: (i) robustezza alla mancanza di punteggiatura, (ii) efficace adattabilità a nuovi domini e (iii) alta efficienza. Introduciamo un nuovo modello - Segment any Text (SaT) - per risolvere questo problema. Per migliorare la robustezza, proponiamo un nuovo schema di pre-addestramento che garantisce una minore dipendenza dalla punteggiatura. Per affrontare l'adattabilità, introduciamo una fase aggiuntiva di fine-tuning efficiente in termini di parametri, stabilendo prestazioni all'avanguardia in domini distinti come versi di testi musicali e documenti legali. Nel frattempo, introduciamo modifiche architetturali che portano a un guadagno triplo in velocità rispetto allo stato dell'arte precedente e risolvono la dipendenza spuria dal contesto lontano nel futuro. Infine, introduciamo una variante del nostro modello con fine-tuning su una miscela diversificata e multilingue di dati segmentati in frasi, che funge da sostituto diretto e miglioramento per gli strumenti di segmentazione esistenti. Nel complesso, i nostri contributi forniscono un approccio universale per segmentare qualsiasi testo. Il nostro metodo supera tutte le baseline - inclusi potenti LLM - su 8 corpora che coprono domini e lingue diverse, specialmente in situazioni praticamente rilevanti in cui il testo è mal formattato. I nostri modelli e il codice, inclusa la documentazione, sono disponibili su https://huggingface.co/segment-any-text sotto licenza MIT.

Sulle trasformazioni tra Modello di Ricompensa, Aggiornamento dei Parametri e Prompt In-Contesto
On the Transformations across Reward Model, Parameter Update, and In-Context Prompt

Jun 24

ByDeng Cai, Huayang Li, Tingchen Fu, Siheng Li, Weiwen Xu, Shuaiyi Li, Bowen Cao, Zhisong Zhang, Xinting Huang, Leyang Cui, Yan Wang, Lemao Liu, Taro Watanabe, Shuming Shi

Nonostante le capacità generali dei grandi modelli linguistici pre-addestrati (LLM), essi necessitano ancora di ulteriori adattamenti per servire al meglio le applicazioni pratiche. In questo articolo, dimostriamo l'intercambiabilità di tre strumenti di adattamento popolari e distinti: l'aggiornamento dei parametri, la modellazione delle ricompense e il prompting in-context. Questa intercambiabilità stabilisce un framework triangolare con sei direzioni di trasformazione, ognuna delle quali facilita una varietà di applicazioni. Il nostro lavoro offre una visione olistica che unifica numerosi studi esistenti e suggerisce potenziali direzioni di ricerca. Immaginiamo il nostro lavoro come una mappa utile per la ricerca futura sugli LLM.

FreeTraj: Controllo delle Traiettorie Senza Ottimizzazione nei Modelli di Diffusione Video
FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models

Jun 24

ByHaonan Qiu, Zhaoxi Chen, Zhouxia Wang, Yingqing He, Menghan Xia, Ziwei Liu

Il modello di diffusione ha dimostrato una notevole capacità nella generazione di video, il che ha ulteriormente suscitato interesse nell'introdurre il controllo della traiettoria nel processo di generazione. Mentre i lavori esistenti si concentrano principalmente su metodi basati sull'addestramento (ad esempio, adattatori condizionali), sosteniamo che il modello di diffusione stesso consente un controllo decente sul contenuto generato senza richiedere alcun addestramento. In questo studio, introduciamo un framework senza necessità di tuning per ottenere la generazione di video con traiettorie controllabili, imponendo una guida sia sulla costruzione del rumore che sul calcolo dell'attenzione. Nello specifico, 1) mostriamo prima alcuni fenomeni istruttivi e analizziamo come i rumori iniziali influenzano la traiettoria del movimento del contenuto generato. 2) Successivamente, proponiamo FreeTraj, un approccio senza tuning che consente il controllo della traiettoria modificando il campionamento del rumore e i meccanismi di attenzione. 3) Inoltre, estendiamo FreeTraj per facilitare la generazione di video più lunghi e più grandi con traiettorie controllabili. Dotati di questi progetti, gli utenti hanno la flessibilità di fornire traiettorie manualmente o di optare per traiettorie generate automaticamente dal pianificatore di traiettorie LLM. Esperimenti estensivi convalidano l'efficacia del nostro approccio nel migliorare la controllabilità della traiettoria dei modelli di diffusione video.

DialSim: Un Simulatore in Tempo Reale per Valutare la Comprensione a Lungo Termine del Dialogo negli Agenti Conversazionali
DialSim: A Real-Time Simulator for Evaluating Long-Term Dialogue Understanding of Conversational Agents

Jun 19

ByJiho Kim, Woosog Chay, Hyeonji Hwang, Daeun Kyung, Hyunseung Chung, Eunbyeol Cho, Yohan Jo, Edward Choi

I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) hanno notevolmente migliorato le capacità degli agenti conversazionali, rendendoli applicabili in vari ambiti (ad esempio, l'educazione). Nonostante i loro avanzamenti, la valutazione di questi agenti spesso trascura le complessità delle conversazioni del mondo reale, come le interazioni in tempo reale, i dialoghi tra più parti e le dipendenze contestuali estese. Per colmare questa lacuna, introduciamo DialSim, un simulatore di dialoghi in tempo reale. In questo simulatore, a un agente viene assegnato il ruolo di un personaggio di serie TV popolari, richiedendogli di rispondere a domande spontanee utilizzando informazioni dai dialoghi precedenti e di distinguere tra informazioni note e sconosciute. Le caratteristiche chiave di DialSim includono la valutazione della capacità dell'agente di rispondere entro un limite di tempo ragionevole, la gestione di dialoghi a lungo termine tra più parti e la gestione di contesti avversari (ad esempio, lo scambio di nomi di personaggi) per mettere alla prova la dipendenza dell'agente dalle conoscenze pre-addestrate. Abbiamo utilizzato questo simulatore per valutare gli ultimi agenti conversazionali e analizzarne i limiti. I nostri esperimenti evidenziano sia i punti di forza che le debolezze di questi agenti, fornendo spunti preziosi per futuri miglioramenti nel campo dell'IA conversazionale. DialSim è disponibile all'indirizzo https://github.com/jiho283/Simulator.

Image Conductor: Controllo di Precisione per la Sintesi Video Interattiva
Image Conductor: Precision Control for Interactive Video Synthesis

Jun 21

ByYaowei Li, Xintao Wang, Zhaoyang Zhang, Zhouxia Wang, Ziyang Yuan, Liangbin Xie, Yuexian Zou, Ying Shan

La produzione cinematografica e di animazione richiede spesso tecniche sofisticate per coordinare le transizioni della telecamera e i movimenti degli oggetti, tipicamente coinvolgendo una cattura nel mondo reale ad alta intensità di lavoro. Nonostante i progressi nell'IA generativa per la creazione di video, ottenere un controllo preciso sul movimento per la generazione interattiva di asset video rimane una sfida. A tal fine, proponiamo Image Conductor, un metodo per il controllo preciso delle transizioni della telecamera e dei movimenti degli oggetti per generare asset video da una singola immagine. Viene proposta una strategia di addestramento ben calibrata per separare i movimenti distinti della telecamera e degli oggetti attraverso pesi LoRA della telecamera e pesi LoRA degli oggetti. Per affrontare ulteriormente le variazioni cinematografiche derivanti da traiettorie mal poste, introduciamo una tecnica di guida senza telecamera durante l'inferenza, migliorando i movimenti degli oggetti mentre eliminiamo le transizioni della telecamera. Inoltre, sviluppiamo una pipeline di curatela dei dati di movimento video orientata alla traiettoria per l'addestramento. Esperimenti quantitativi e qualitativi dimostrano la precisione e il controllo fine del nostro metodo nella generazione di video controllabili nel movimento da immagini, avanzando l'applicazione pratica della sintesi video interattiva. Pagina del progetto disponibile all'indirizzo https://liyaowei-stu.github.io/project/ImageConductor/.

Grass: Addestramento Efficiente di LLM a Basso Consumo di Memoria con Gradienti Strutturalmente Sparsi
Grass: Compute Efficient Low-Memory LLM Training with Structured Sparse Gradients

Jun 25

ByAashiq Muhamed, Oscar Li, David Woodruff, Mona Diab, Virginia Smith

L'addestramento e il fine-tuning di grandi modelli linguistici (LLM) sono spesso limitati dalla memoria GPU disponibile. Sebbene i metodi di ottimizzazione basati su proiezione esistenti affrontino questo problema proiettando i gradienti in un sottospazio a dimensione ridotta per diminuire la memoria degli stati dell'ottimizzatore, essi si basano tipicamente su matrici di proiezione dense, che possono introdurre sovraccarichi computazionali e di memoria. In questo lavoro, proponiamo Grass (GRAdient Structured Sparsification), un approccio innovativo che sfrutta proiezioni sparse per trasformare i gradienti in aggiornamenti strutturati e sparsi. Questo design non solo riduce significativamente l'uso della memoria per gli stati dell'ottimizzatore, ma minimizza anche l'impronta di memoria dei gradienti, i costi computazionali e di comunicazione, portando a sostanziali miglioramenti della produttività. Esperimenti estesi su compiti di pre-addestramento e fine-tuning dimostrano che Grass raggiunge prestazioni competitive rispetto all'addestramento a rango pieno e ai metodi basati su proiezione esistenti. In particolare, Grass consente il pre-addestramento in mezza precisione di un modello LLaMA da 13B parametri su una singola GPU A100 da 40GB—un risultato impossibile per i metodi precedenti—e produce un miglioramento fino a 2 volte della produttività su un sistema a 8 GPU. Il codice è disponibile all'indirizzo https://github.com/aashiqmuhamed/GRASS.

Allineamento di Sicurezza Cross-Modalità
Cross-Modality Safety Alignment

Jun 21

BySiyin Wang, Xingsong Ye, Qinyuan Cheng, Junwen Duan, Shimin Li, Jinlan Fu, Xipeng Qiu, Xuanjing Huang

Man mano che l'Intelligenza Artificiale Generale (AGI) si integra sempre più in vari aspetti della vita umana, garantire la sicurezza e l'allineamento etico di tali sistemi è di fondamentale importanza. Gli studi precedenti si concentrano principalmente su minacce a singola modalità, che potrebbero non essere sufficienti data la natura integrata e complessa delle interazioni cross-modalità. Introduciamo una nuova sfida di allineamento della sicurezza chiamata Safe Inputs but Unsafe Output (SIUO) per valutare l'allineamento della sicurezza cross-modalità. Nello specifico, considera casi in cui le singole modalità sono sicure indipendentemente, ma potrebbero potenzialmente portare a output non sicuri o non etici se combinate. Per indagare empiricamente questo problema, abbiamo sviluppato il SIUO, un benchmark cross-modalità che comprende 9 domini critici di sicurezza, come autolesionismo, attività illegali e violazioni della privacy. I nostri risultati rivelano vulnerabilità di sicurezza significative sia nei LVLM closed-source che open-source, come GPT-4V e LLaVA, evidenziando l'inadeguatezza dei modelli attuali nell'interpretare e rispondere in modo affidabile a scenari complessi e reali.

Controllo Multi-proprietà dei Modelli Linguistici di Grande Scala con Composizione Dinamica delle Attivazioni
Multi-property Steering of Large Language Models with Dynamic Activation Composition

Jun 25

ByDaniel Scalena, Gabriele Sarti, Malvina Nissim

I metodi di steering delle attivazioni si sono dimostrati efficaci nel condizionare la generazione dei modelli linguistici intervenendo in modo additivo sulle rappresentazioni intermedie dei modelli. Tuttavia, la valutazione di queste tecniche è stata finora limitata a singole proprietà di condizionamento e contesti sintetici. In questo lavoro, conduciamo una valutazione completa di varie strategie di steering delle attivazioni, evidenziando la natura dipendente dalla proprietà dei parametri ottimali per garantire un effetto robusto durante la generazione. Per affrontare questo problema, proponiamo la Composizione Dinamica delle Attivazioni, un approccio basato sulla teoria dell'informazione per modulare l'intensità dello steering di una o più proprietà durante la generazione. I nostri esperimenti sullo steering multi-proprietà dimostrano che il nostro metodo mantiene con successo un elevato condizionamento minimizzando l'impatto del condizionamento sulla fluidità della generazione.

I grandi modelli linguistici presuppongono che le persone siano più razionali di quanto non siamo in realtà.
Large Language Models Assume People are More Rational than We Really are

Jun 24

ByRyan Liu, Jiayi Geng, Joshua C. Peterson, Ilia Sucholutsky, Thomas L. Griffiths

Affinché i sistemi di IA comunichino efficacemente con le persone, devono comprendere come prendiamo decisioni. Tuttavia, le decisioni umane non sono sempre razionali, quindi i modelli interni impliciti del processo decisionale umano nei Large Language Models (LLMs) devono tenerne conto. Le precedenti evidenze empiriche sembrano suggerire che questi modelli impliciti siano accurati: gli LLMs offrono proxy credibili del comportamento umano, agendo come ci aspetteremmo che gli umani farebbero nelle interazioni quotidiane. Tuttavia, confrontando il comportamento e le previsioni degli LLMs con un ampio dataset di decisioni umane, scopriamo che in realtà non è così: quando simulano e prevedono le scelte delle persone, una serie di LLMs all'avanguardia (GPT-4o & 4-Turbo, Llama-3-8B & 70B, Claude 3 Opus) presuppongono che le persone siano più razionali di quanto non siano realmente. Nello specifico, questi modelli deviano dal comportamento umano e si allineano più strettamente a un classico modello di scelta razionale: la teoria del valore atteso. È interessante notare che anche le persone tendono a presumere che gli altri siano razionali quando interpretano il loro comportamento. Di conseguenza, quando confrontiamo le inferenze che gli LLMs e le persone traggono dalle decisioni altrui utilizzando un altro dataset psicologico, scopriamo che queste inferenze sono altamente correlate. Pertanto, i modelli impliciti di decisione degli LLMs sembrano allinearsi con l'aspettativa umana che gli altri agiranno razionalmente, piuttosto che con il modo in cui le persone agiscono realmente.

Segmentare Qualsiasi Testo: Un Approccio Universale per la Segmentazione di Frasi Robusta, Efficiente e Adattabile
Segment Any Text: A Universal Approach for Robust, Efficient and Adaptable Sentence Segmentation

Jun 24

ByMarkus Frohmann, Igor Sterner, Ivan Vulić, Benjamin Minixhofer, Markus Schedl