HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

11 papers found

EXAONE 3.0 Modello Linguistico con 7,8 Miliardi di Parametri Ottimizzato per Istruzioni
EXAONE 3.0 7.8B Instruction Tuned Language Model

Aug 7

ByLG AI Research, Soyoung An, Kyunghoon Bae, Eunbi Choi, Stanley Jungkyu Choi, Yemuk Choi, Seokhee Hong, Yeonjung Hong, Junwon Hwang, Hyojin Jeon, Gerrard Jeongwon Jo, Hyunjik Jo, Jiyeon Jung, Yountae Jung, Euisoon Kim, Hyosang Kim, Joonkee Kim, Seonghwan Kim, Soyeon Kim, Sunkyoung Kim, Yireun Kim, Youchul Kim, Edward Hwayoung Lee, Haeju Lee, Honglak Lee, Jinsik Lee, Kyungmin Lee, Moontae Lee, Seungjun Lee, Woohyung Lim, Sangha Park, Sooyoun Park, Yongmin Park, Boseong Seo, Sihoon Yang, Heuiyeen Yeen, Kyungjae Yoo, Hyeongu Yun

Presentiamo EXAONE 3.0, un modello linguistico ottimizzato per istruzioni, il primo modello aperto della famiglia di Large Language Models (LLM) sviluppato da LG AI Research. Tra le diverse dimensioni del modello, rilasciamo pubblicamente il modello da 7,8 miliardi di parametri ottimizzato per istruzioni, con l'obiettivo di promuovere la ricerca aperta e l'innovazione. Attraverso valutazioni estese su un'ampia gamma di benchmark pubblici e interni, EXAONE 3.0 dimostra prestazioni altamente competitive nel mondo reale, con capacità di seguire istruzioni, rispetto ad altri modelli aperti all'avanguardia di dimensioni simili. La nostra analisi comparativa mostra che EXAONE 3.0 eccelle in particolare nella lingua coreana, raggiungendo al contempo prestazioni convincenti in compiti generali e ragionamenti complessi. Con la sua forte efficacia nel mondo reale e la competenza bilingue, speriamo che EXAONE continui a contribuire ai progressi nell'Expert AI. Il nostro modello EXAONE 3.0 ottimizzato per istruzioni è disponibile all'indirizzo https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct.

Optimus-1: Agenti Potenziati da Memoria Multimodale Ibrida Eccellono in Compiti a Lungo Termine
Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks

Aug 7

ByZaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Dongmei Jiang, Liqiang Nie

Costruire un agente a scopo generale è una visione di lunga data nel campo dell'intelligenza artificiale. Gli agenti esistenti hanno compiuto progressi notevoli in molti domini, ma continuano a incontrare difficoltà nel completare compiti a lungo termine in un mondo aperto. Attribuiamo ciò alla mancanza di conoscenza del mondo e di esperienza multimodale necessarie per guidare gli agenti attraverso una varietà di compiti a lungo termine. In questo articolo, proponiamo un modulo di Memoria Multimodale Ibrida per affrontare le suddette sfide. Esso 1) trasforma la conoscenza in un Grafo di Conoscenza Diretto Gerarchico che consente agli agenti di rappresentare e apprendere esplicitamente la conoscenza del mondo, e 2) riassume le informazioni storiche in un Pool di Esperienza Multimodale Astratta che fornisce agli agenti ricchi riferimenti per l'apprendimento in contesto. Sulla base del modulo di Memoria Multimodale Ibrida, viene costruito un agente multimodale, Optimus-1, dotato di un Pianificatore Guidato dalla Conoscenza e di un Riflettore Guidato dall'Esperienza, contribuendo a una migliore pianificazione e riflessione di fronte a compiti a lungo termine in Minecraft. I risultati sperimentali estesi dimostrano che Optimus-1 supera significativamente tutti gli agenti esistenti su benchmark di compiti a lungo termine impegnativi e mostra prestazioni quasi a livello umano in molti compiti. Inoltre, introduciamo vari Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) come backbone di Optimus-1. I risultati sperimentali mostrano che Optimus-1 esibisce una forte generalizzazione con l'aiuto del modulo di Memoria Multimodale Ibrida, superando il baseline GPT-4V in molti compiti.

Raggiungere Prestazioni Competitive a Livello Umano nel Tennis Tavolo Robotico
Achieving Human Level Competitive Robot Table Tennis

Aug 7

ByDavid B. D'Ambrosio, Saminda Abeyruwan, Laura Graesser, Atil Iscen, Heni Ben Amor, Alex Bewley, Barney J. Reed, Krista Reymann, Leila Takayama, Yuval Tassa, Krzysztof Choromanski, Erwin Coumans, Deepali Jain, Navdeep Jaitly, Natasha Jaques, Satoshi Kataoka, Yuheng Kuang, Nevena Lazic, Reza Mahjourian, Sherry Moore, Kenneth Oslund, Anish Shankar, Vikas Sindhwani, Vincent Vanhoucke, Grace Vesom, Peng Xu, Pannag R. Sanketi

Raggiungere velocità e prestazioni di livello umano in compiti del mondo reale rappresenta una stella polare per la comunità di ricerca robotica. Questo lavoro compie un passo verso tale obiettivo e presenta il primo agente robotico appreso che raggiunge prestazioni di livello amatoriale umano nel ping pong competitivo. Il ping pong è uno sport fisicamente impegnativo che richiede ai giocatori umani anni di allenamento per raggiungere un livello avanzato di competenza. In questo articolo, contribuiamo con (1) un'architettura di policy gerarchica e modulare composta da (i) controller di basso livello con i loro descrittori di abilità dettagliati che modellano le capacità dell'agente e aiutano a colmare il divario sim-to-real e (ii) un controller di alto livello che sceglie le abilità di basso livello, (2) tecniche per abilitare il trasferimento sim-to-real zero-shot, inclusa un'approccio iterativo per definire la distribuzione dei compiti che è radicata nel mondo reale e definisce un curriculum automatico, e (3) adattamento in tempo reale a avversari mai visti. Le prestazioni della policy sono state valutate attraverso 29 partite robot vs. umano, di cui il robot ha vinto il 45% (13/29). Tutti gli umani erano giocatori mai visti e il loro livello di abilità variava da principiante a livello torneo. Mentre il robot ha perso tutte le partite contro i giocatori più avanzati, ha vinto il 100% delle partite contro i principianti e il 55% delle partite contro i giocatori intermedi, dimostrando prestazioni solide di livello amatoriale umano. I video delle partite possono essere visualizzati su https://sites.google.com/view/competitive-robot-table-tennis.

CodexGraph: Collegare i Modelli Linguistici di Grande Scala e i Repository di Codice attraverso Database di Grafi del Codice
CodexGraph: Bridging Large Language Models and Code Repositories via Code Graph Databases

Aug 7

ByXiangyan Liu, Bo Lan, Zhiyuan Hu, Yang Liu, Zhicheng Zhang, Wenmeng Zhou, Fei Wang, Michael Shieh

I Large Language Model (LLM) eccellono in compiti di codice autonomi come HumanEval e MBPP, ma faticano a gestire interi repository di codice. Questa sfida ha stimolato la ricerca su come migliorare l'interazione tra LLM e codebase su scala di repository. Le soluzioni attuali si basano su recupero basato sulla similarità o su strumenti e API manuali, ciascuno con notevoli limiti. Il recupero basato sulla similarità spesso ha una bassa richiamo in compiti complessi, mentre gli strumenti e le API manuali sono tipicamente specifici per il compito e richiedono conoscenze specialistiche, riducendo la loro generalizzabilità attraverso diversi compiti di codice e applicazioni reali. Per mitigare queste limitazioni, introduciamo \framework, un sistema che integra agenti LLM con interfacce di database grafici estratti da repository di codice. Sfruttando le proprietà strutturali dei database grafici e la flessibilità del linguaggio di query grafiche, \framework consente all'agente LLM di costruire ed eseguire query, permettendo un recupero contestuale preciso e consapevole della struttura del codice, nonché la navigazione del codice. Valutiamo \framework utilizzando tre benchmark: CrossCodeEval, SWE-bench e EvoCodeBench. Inoltre, sviluppiamo cinque applicazioni di codifica del mondo reale. Con uno schema unificato di database grafici, \framework dimostra prestazioni competitive e potenziale sia in ambienti accademici che reali, mostrando la sua versatilità ed efficacia nell'ingegneria del software. La nostra demo dell'applicazione è disponibile qui: https://github.com/modelscope/modelscope-agent/tree/master/apps/codexgraph_agent.

WalledEval: Un Kit Completo per la Valutazione della Sicurezza dei Modelli Linguistici di Grande Dimensione
WalledEval: A Comprehensive Safety Evaluation Toolkit for Large Language Models

Aug 7

ByPrannaya Gupta, Le Qi Yau, Hao Han Low, I-Shiang Lee, Hugo Maximus Lim, Yu Xin Teoh, Jia Hng Koh, Dar Win Liew, Rishabh Bhardwaj, Rajat Bhardwaj, Soujanya Poria

WalledEval è un toolkit completo per il test della sicurezza dell'IA, progettato per valutare i modelli linguistici di grandi dimensioni (LLM). Supporta una vasta gamma di modelli, inclusi sia quelli a peso aperto che quelli basati su API, e offre oltre 35 benchmark di sicurezza che coprono aree come la sicurezza multilingue, la sicurezza esagerata e le iniezioni di prompt. Il framework supporta sia il benchmarking degli LLM che quello dei giudici e incorpora mutatori personalizzati per testare la sicurezza contro varie mutazioni di stile testuale, come il tempo futuro e la parafrasi. Inoltre, WalledEval introduce WalledGuard, un nuovo strumento di moderazione dei contenuti piccolo e performante, e SGXSTest, un benchmark per valutare la sicurezza esagerata in contesti culturali. Rendiamo WalledEval disponibile pubblicamente all'indirizzo https://github.com/walledai/walledevalA.

Splatting 3D Compatto per Campi di Radianza Statici e Dinamici
Compact 3D Gaussian Splatting for Static and Dynamic Radiance Fields

Aug 7

ByJoo Chan Lee, Daniel Rho, Xiangyu Sun, Jong Hwan Ko, Eunbyung Park

Il 3D Gaussian splatting (3DGS) è emerso recentemente come una rappresentazione alternativa che sfrutta una rappresentazione basata su Gaussiane 3D e introduce un rendering volumetrico approssimato, raggiungendo una velocità di rendering molto elevata e una qualità dell'immagine promettente. Inoltre, studi successivi hanno esteso con successo il 3DGS a scene 3D dinamiche, dimostrandone la vasta gamma di applicazioni. Tuttavia, un significativo svantaggio emerge poiché il 3DGS e i metodi che ne derivano richiedono un numero sostanziale di Gaussiane per mantenere l'alta fedeltà delle immagini renderizzate, il che comporta un elevato consumo di memoria e spazio di archiviazione. Per affrontare questo problema critico, poniamo particolare enfasi su due obiettivi chiave: ridurre il numero di punti Gaussiani senza sacrificare le prestazioni e comprimere gli attributi delle Gaussiane, come il colore dipendente dalla vista e la covarianza. A tal fine, proponiamo una strategia di maschera apprendibile che riduce significativamente il numero di Gaussiane mantenendo alte prestazioni. Inoltre, proponiamo una rappresentazione compatta ma efficace del colore dipendente dalla vista utilizzando un campo neurale basato su griglia piuttosto che affidandoci alle armoniche sferiche. Infine, apprendiamo codebook per rappresentare in modo compatto gli attributi geometrici e temporali mediante quantizzazione vettoriale residua. Con tecniche di compressione del modello come la quantizzazione e la codifica entropica, dimostriamo costantemente una riduzione dello spazio di archiviazione di oltre 25x e una velocità di rendering migliorata rispetto al 3DGS per scene statiche, mantenendo la qualità della rappresentazione della scena. Per le scene dinamiche, il nostro approccio raggiunge un'efficienza di archiviazione superiore a 12x e conserva una ricostruzione di alta qualità rispetto ai metodi esistenti all'avanguardia. Il nostro lavoro fornisce un framework completo per la rappresentazione di scene 3D, raggiungendo alte prestazioni, addestramento rapido, compattezza e rendering in tempo reale. La pagina del nostro progetto è disponibile all'indirizzo https://maincold2.github.io/c3dgs/.

Openstory++: Un Dataset e Benchmark su larga scala per lo Storytelling Visivo Open-domain con Consapevolezza delle Istanze
Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling

Aug 7

ByZilyu Ye, Jinxiu Liu, Ruotian Peng, Jinjin Cao, Zhiyang Chen, Yiyang Zhang, Ziwei Xuan, Mingyuan Zhou, Xiaoqian Shen, Mohamed Elhoseiny, Qi Liu, Guo-Jun Qi

I recenti modelli di generazione di immagini eccellono nella creazione di immagini di alta qualità a partire da brevi descrizioni. Tuttavia, non riescono a mantenere la coerenza di più istanze tra le immagini quando si confrontano con contesti lunghi. Questa incoerenza è in gran parte dovuta all'assenza, nei dataset di addestramento esistenti, di etichette dettagliate per le caratteristiche delle istanze. Per affrontare questi problemi, introduciamo Openstory++, un dataset su larga scala che combina annotazioni aggiuntive a livello di istanza con immagini e testo. Inoltre, sviluppiamo una metodologia di addestramento che enfatizza la generazione di immagini e testo centrata sulle entità, garantendo che i modelli imparino a intrecciare efficacemente informazioni visive e testuali. Nello specifico, Openstory++ semplifica il processo di estrazione di fotogrammi chiave da video di dominio aperto, impiegando modelli visione-linguaggio per generare descrizioni che vengono poi perfezionate da un modello linguistico di grandi dimensioni per garantire la continuità narrativa. Supera i precedenti dataset offrendo una risorsa di dominio aperto più ampia, che incorpora descrizioni automatiche, immagini ad alta risoluzione ottimizzate per il conteggio delle istanze e ampie sequenze di fotogrammi per la coerenza temporale. Inoltre, presentiamo Cohere-Bench, un framework di benchmark pionieristico per valutare i compiti di generazione di immagini quando viene fornito un contesto multimodale lungo, inclusa la capacità di mantenere coerenti lo sfondo, lo stile e le istanze nel contesto dato. Rispetto ai benchmark esistenti, il nostro lavoro colma lacune critiche nella generazione multimodale, promuovendo lo sviluppo di modelli in grado di generare e interpretare abilmente narrazioni complesse in ambienti di dominio aperto. Gli esperimenti condotti all'interno di Cohere-Bench confermano la superiorità di Openstory++ nel favorire modelli di narrazione visiva di alta qualità, migliorando la loro capacità di affrontare compiti di generazione in dominio aperto. Ulteriori dettagli sono disponibili all'indirizzo https://openstorypp.github.io/.

Speech-MASSIVE: Un Dataset Multilingue di Voce per SLU e Oltre
Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond

Aug 7

ByBeomseok Lee, Ioan Calapodescu, Marco Gaido, Matteo Negri, Laurent Besacier

Presentiamo Speech-MASSIVE, un dataset multilingue per il Comprensione del Linguaggio Parlato (Spoken Language Understanding, SLU) che comprende la controparte vocale di una porzione del corpus testuale MASSIVE. Speech-MASSIVE copre 12 lingue appartenenti a diverse famiglie linguistiche e eredita da MASSIVE le annotazioni per i task di previsione dell'intento e di riempimento degli slot. La nostra estensione è motivata dalla scarsità di dataset SLU massicciamente multilingue e dalla crescente necessità di dataset vocali versatili per valutare modelli di base (LLM, encoder vocali) attraverso lingue e task diversi. Forniamo un dataset multimodale, multitask e multilingue e riportiamo i baseline SLU utilizzando sia architetture a cascata che end-to-end in vari scenari di addestramento (zero-shot, few-shot e fine-tuning completo). Inoltre, dimostriamo l'idoneità di Speech-MASSIVE per il benchmarking di altri task come la trascrizione vocale, l'identificazione della lingua e la traduzione vocale. Il dataset, i modelli e il codice sono disponibili pubblicamente all'indirizzo: https://github.com/hlt-mt/Speech-MASSIVE.

RayGauss: Ray Casting Basato su Gaussiane Volumetriche per la Sintesi Fotorealistica di Nuove Visualizzazioni
RayGauss: Volumetric Gaussian-Based Ray Casting for Photorealistic Novel View Synthesis

Aug 6

ByHugo Blanc, Jean-Emmanuel Deschaud, Alexis Paljic

I metodi basati su rendering volumetrico differenziabile hanno compiuto progressi significativi nella sintesi di nuove viste. Da un lato, approcci innovativi hanno sostituito la rete Neural Radiance Fields (NeRF) con strutture parametrizzate localmente, consentendo rendering di alta qualità in tempi ragionevoli. Dall'altro, alcune tecniche hanno utilizzato lo splatting differenziabile al posto del ray casting di NeRF per ottimizzare rapidamente i campi di radianza mediante kernel gaussiani, permettendo un adattamento fine alla scena. Tuttavia, il ray casting differenziabile di kernel distribuiti irregolarmente è stato poco esplorato, mentre lo splatting, nonostante permetta tempi di rendering rapidi, è suscettibile ad artefatti chiaramente visibili. Il nostro lavoro colma questa lacuna fornendo una formulazione fisicamente consistente della radianza emessa c e della densità {\sigma}, scomposte con funzioni gaussiane associate a Gaussiane Sferiche/Armoniche per una rappresentazione cromatica a tutte le frequenze. Introduciamo inoltre un metodo che abilita il ray casting differenziabile di Gaussiane distribuite irregolarmente, utilizzando un algoritmo che integra i campi di radianza strato per strato e sfrutta una struttura BVH. Ciò consente al nostro approccio di adattarsi finemente alla scena evitando gli artefatti dello splatting. Di conseguenza, otteniamo una qualità di rendering superiore rispetto allo stato dell'arte, mantenendo tempi di addestramento ragionevoli e raggiungendo velocità di inferenza di 25 FPS sul dataset Blender. Pagina del progetto con video e codice: https://raygauss.github.io/

Decomposizione Rapida degli Sprite da Grafiche Animate
Fast Sprite Decomposition from Animated Graphics

Aug 7

ByTomoyuki Suzuki, Kotaro Kikuchi, Kota Yamaguchi

Questo articolo presenta un approccio per scomporre grafiche animate in sprite, un insieme di elementi o livelli di base. Il nostro approccio si basa sull'ottimizzazione dei parametri degli sprite per adattarli al video raster. Per migliorare l'efficienza, assumiamo texture statiche per gli sprite al fine di ridurre lo spazio di ricerca, prevenendo al contempo artefatti mediante un modello a priori delle texture. Per accelerare ulteriormente l'ottimizzazione, introduciamo l'inizializzazione dei parametri degli sprite utilizzando un modello pre-addestrato per la segmentazione di oggetti video e l'input dell'utente tramite annotazioni su singoli fotogrammi. Per il nostro studio, abbiamo costruito il dataset Crello Animation da un servizio di design online e definito metriche quantitative per misurare la qualità degli sprite estratti. Gli esperimenti dimostrano che il nostro metodo supera significativamente i baseline per compiti di scomposizione simili in termini di compromesso qualità/efficienza.

Affrontare la Musica: Affrontare la Separazione della Voce Cantata nell'Audio Cinematografico Separazione delle Fonti
Facing the Music: Tackling Singing Voice Separation in Cinematic Audio Source Separation

Aug 7

ByKarn N. Watcharasupat, Chih-Wei Wu, Iroro Orife

La separazione delle sorgenti audio cinematografiche (CASS) è un sottotask relativamente nuovo nell'ambito della separazione delle sorgenti audio. Un tipico setup del CASS è un problema a tre tracce, con l'obiettivo di separare la miscela nella traccia del dialogo (DX), nella traccia musicale (MX) e nella traccia degli effetti (FX). Tuttavia, nella pratica esistono diversi casi limite, poiché alcune sorgenti sonore non si adattano perfettamente a nessuna di queste tre tracce, rendendo necessario l'uso di tracce ausiliarie aggiuntive nella produzione. Un caso limite molto comune è la voce cantata nell'audio cinematografico, che può appartenere alla DX o alla MX, a seconda del contesto cinematografico. In questo lavoro, dimostriamo un'estensione molto semplice dei modelli Bandit con decoder dedicato e Banquet con decoder singolo basato su query a un problema a quattro tracce, trattando il dialogo non musicale, la musica strumentale, la voce cantata e gli effetti come tracce separate. È interessante notare che il modello Banquet basato su query ha superato il modello Bandit con decoder dedicato. Abbiamo ipotizzato che ciò sia dovuto a un migliore allineamento delle feature al collo di bottiglia, imposto dallo strato FiLM indipendente dalla banda. Il dataset e l'implementazione del modello saranno resi disponibili su https://github.com/kwatcharasupat/source-separation-landing.

Openstory++: Un Dataset e Benchmark su larga scala per lo Storytelling Visivo Open-domain con Consapevolezza delle Istanze
Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling

Aug 7

ByZilyu Ye, Jinxiu Liu, Ruotian Peng, Jinjin Cao, Zhiyang Chen, Yiyang Zhang, Ziwei Xuan, Mingyuan Zhou, Xiaoqian Shen, Mohamed Elhoseiny, Qi Liu, Guo-Jun Qi