Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo EXAONE 3.0, un modello linguistico ottimizzato per istruzioni, il primo modello aperto della famiglia di Large Language Models (LLM) sviluppato da LG AI Research. Tra le diverse dimensioni del modello, rilasciamo pubblicamente il modello da 7,8 miliardi di parametri ottimizzato per istruzioni, con l'obiettivo di promuovere la ricerca aperta e l'innovazione. Attraverso valutazioni estese su un'ampia gamma di benchmark pubblici e interni, EXAONE 3.0 dimostra prestazioni altamente competitive nel mondo reale, con capacità di seguire istruzioni, rispetto ad altri modelli aperti all'avanguardia di dimensioni simili. La nostra analisi comparativa mostra che EXAONE 3.0 eccelle in particolare nella lingua coreana, raggiungendo al contempo prestazioni convincenti in compiti generali e ragionamenti complessi. Con la sua forte efficacia nel mondo reale e la competenza bilingue, speriamo che EXAONE continui a contribuire ai progressi nell'Expert AI. Il nostro modello EXAONE 3.0 ottimizzato per istruzioni è disponibile all'indirizzo https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct.
Costruire un agente a scopo generale è una visione di lunga data nel campo dell'intelligenza artificiale. Gli agenti esistenti hanno compiuto progressi notevoli in molti domini, ma continuano a incontrare difficoltà nel completare compiti a lungo termine in un mondo aperto. Attribuiamo ciò alla mancanza di conoscenza del mondo e di esperienza multimodale necessarie per guidare gli agenti attraverso una varietà di compiti a lungo termine. In questo articolo, proponiamo un modulo di Memoria Multimodale Ibrida per affrontare le suddette sfide. Esso 1) trasforma la conoscenza in un Grafo di Conoscenza Diretto Gerarchico che consente agli agenti di rappresentare e apprendere esplicitamente la conoscenza del mondo, e 2) riassume le informazioni storiche in un Pool di Esperienza Multimodale Astratta che fornisce agli agenti ricchi riferimenti per l'apprendimento in contesto. Sulla base del modulo di Memoria Multimodale Ibrida, viene costruito un agente multimodale, Optimus-1, dotato di un Pianificatore Guidato dalla Conoscenza e di un Riflettore Guidato dall'Esperienza, contribuendo a una migliore pianificazione e riflessione di fronte a compiti a lungo termine in Minecraft. I risultati sperimentali estesi dimostrano che Optimus-1 supera significativamente tutti gli agenti esistenti su benchmark di compiti a lungo termine impegnativi e mostra prestazioni quasi a livello umano in molti compiti. Inoltre, introduciamo vari Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) come backbone di Optimus-1. I risultati sperimentali mostrano che Optimus-1 esibisce una forte generalizzazione con l'aiuto del modulo di Memoria Multimodale Ibrida, superando il baseline GPT-4V in molti compiti.
Raggiungere velocità e prestazioni di livello umano in compiti del mondo reale rappresenta una stella polare per la comunità di ricerca robotica. Questo lavoro compie un passo verso tale obiettivo e presenta il primo agente robotico appreso che raggiunge prestazioni di livello amatoriale umano nel ping pong competitivo. Il ping pong è uno sport fisicamente impegnativo che richiede ai giocatori umani anni di allenamento per raggiungere un livello avanzato di competenza. In questo articolo, contribuiamo con (1) un'architettura di policy gerarchica e modulare composta da (i) controller di basso livello con i loro descrittori di abilità dettagliati che modellano le capacità dell'agente e aiutano a colmare il divario sim-to-real e (ii) un controller di alto livello che sceglie le abilità di basso livello, (2) tecniche per abilitare il trasferimento sim-to-real zero-shot, inclusa un'approccio iterativo per definire la distribuzione dei compiti che è radicata nel mondo reale e definisce un curriculum automatico, e (3) adattamento in tempo reale a avversari mai visti. Le prestazioni della policy sono state valutate attraverso 29 partite robot vs. umano, di cui il robot ha vinto il 45% (13/29). Tutti gli umani erano giocatori mai visti e il loro livello di abilità variava da principiante a livello torneo. Mentre il robot ha perso tutte le partite contro i giocatori più avanzati, ha vinto il 100% delle partite contro i principianti e il 55% delle partite contro i giocatori intermedi, dimostrando prestazioni solide di livello amatoriale umano. I video delle partite possono essere visualizzati su https://sites.google.com/view/competitive-robot-table-tennis.
I Large Language Model (LLM) eccellono in compiti di codice autonomi come HumanEval e MBPP, ma faticano a gestire interi repository di codice. Questa sfida ha stimolato la ricerca su come migliorare l'interazione tra LLM e codebase su scala di repository. Le soluzioni attuali si basano su recupero basato sulla similarità o su strumenti e API manuali, ciascuno con notevoli limiti. Il recupero basato sulla similarità spesso ha una bassa richiamo in compiti complessi, mentre gli strumenti e le API manuali sono tipicamente specifici per il compito e richiedono conoscenze specialistiche, riducendo la loro generalizzabilità attraverso diversi compiti di codice e applicazioni reali. Per mitigare queste limitazioni, introduciamo \framework, un sistema che integra agenti LLM con interfacce di database grafici estratti da repository di codice. Sfruttando le proprietà strutturali dei database grafici e la flessibilità del linguaggio di query grafiche, \framework consente all'agente LLM di costruire ed eseguire query, permettendo un recupero contestuale preciso e consapevole della struttura del codice, nonché la navigazione del codice. Valutiamo \framework utilizzando tre benchmark: CrossCodeEval, SWE-bench e EvoCodeBench. Inoltre, sviluppiamo cinque applicazioni di codifica del mondo reale. Con uno schema unificato di database grafici, \framework dimostra prestazioni competitive e potenziale sia in ambienti accademici che reali, mostrando la sua versatilità ed efficacia nell'ingegneria del software. La nostra demo dell'applicazione è disponibile qui: https://github.com/modelscope/modelscope-agent/tree/master/apps/codexgraph_agent.
WalledEval è un toolkit completo per il test della sicurezza dell'IA, progettato per valutare i modelli linguistici di grandi dimensioni (LLM). Supporta una vasta gamma di modelli, inclusi sia quelli a peso aperto che quelli basati su API, e offre oltre 35 benchmark di sicurezza che coprono aree come la sicurezza multilingue, la sicurezza esagerata e le iniezioni di prompt. Il framework supporta sia il benchmarking degli LLM che quello dei giudici e incorpora mutatori personalizzati per testare la sicurezza contro varie mutazioni di stile testuale, come il tempo futuro e la parafrasi. Inoltre, WalledEval introduce WalledGuard, un nuovo strumento di moderazione dei contenuti piccolo e performante, e SGXSTest, un benchmark per valutare la sicurezza esagerata in contesti culturali. Rendiamo WalledEval disponibile pubblicamente all'indirizzo https://github.com/walledai/walledevalA.
Il 3D Gaussian splatting (3DGS) è emerso recentemente come una rappresentazione alternativa che sfrutta una rappresentazione basata su Gaussiane 3D e introduce un rendering volumetrico approssimato, raggiungendo una velocità di rendering molto elevata e una qualità dell'immagine promettente. Inoltre, studi successivi hanno esteso con successo il 3DGS a scene 3D dinamiche, dimostrandone la vasta gamma di applicazioni. Tuttavia, un significativo svantaggio emerge poiché il 3DGS e i metodi che ne derivano richiedono un numero sostanziale di Gaussiane per mantenere l'alta fedeltà delle immagini renderizzate, il che comporta un elevato consumo di memoria e spazio di archiviazione. Per affrontare questo problema critico, poniamo particolare enfasi su due obiettivi chiave: ridurre il numero di punti Gaussiani senza sacrificare le prestazioni e comprimere gli attributi delle Gaussiane, come il colore dipendente dalla vista e la covarianza. A tal fine, proponiamo una strategia di maschera apprendibile che riduce significativamente il numero di Gaussiane mantenendo alte prestazioni. Inoltre, proponiamo una rappresentazione compatta ma efficace del colore dipendente dalla vista utilizzando un campo neurale basato su griglia piuttosto che affidandoci alle armoniche sferiche. Infine, apprendiamo codebook per rappresentare in modo compatto gli attributi geometrici e temporali mediante quantizzazione vettoriale residua. Con tecniche di compressione del modello come la quantizzazione e la codifica entropica, dimostriamo costantemente una riduzione dello spazio di archiviazione di oltre 25x e una velocità di rendering migliorata rispetto al 3DGS per scene statiche, mantenendo la qualità della rappresentazione della scena. Per le scene dinamiche, il nostro approccio raggiunge un'efficienza di archiviazione superiore a 12x e conserva una ricostruzione di alta qualità rispetto ai metodi esistenti all'avanguardia. Il nostro lavoro fornisce un framework completo per la rappresentazione di scene 3D, raggiungendo alte prestazioni, addestramento rapido, compattezza e rendering in tempo reale. La pagina del nostro progetto è disponibile all'indirizzo https://maincold2.github.io/c3dgs/.
I recenti modelli di generazione di immagini eccellono nella creazione di immagini di alta qualità a partire da brevi descrizioni. Tuttavia, non riescono a mantenere la coerenza di più istanze tra le immagini quando si confrontano con contesti lunghi. Questa incoerenza è in gran parte dovuta all'assenza, nei dataset di addestramento esistenti, di etichette dettagliate per le caratteristiche delle istanze. Per affrontare questi problemi, introduciamo Openstory++, un dataset su larga scala che combina annotazioni aggiuntive a livello di istanza con immagini e testo. Inoltre, sviluppiamo una metodologia di addestramento che enfatizza la generazione di immagini e testo centrata sulle entità, garantendo che i modelli imparino a intrecciare efficacemente informazioni visive e testuali. Nello specifico, Openstory++ semplifica il processo di estrazione di fotogrammi chiave da video di dominio aperto, impiegando modelli visione-linguaggio per generare descrizioni che vengono poi perfezionate da un modello linguistico di grandi dimensioni per garantire la continuità narrativa. Supera i precedenti dataset offrendo una risorsa di dominio aperto più ampia, che incorpora descrizioni automatiche, immagini ad alta risoluzione ottimizzate per il conteggio delle istanze e ampie sequenze di fotogrammi per la coerenza temporale. Inoltre, presentiamo Cohere-Bench, un framework di benchmark pionieristico per valutare i compiti di generazione di immagini quando viene fornito un contesto multimodale lungo, inclusa la capacità di mantenere coerenti lo sfondo, lo stile e le istanze nel contesto dato. Rispetto ai benchmark esistenti, il nostro lavoro colma lacune critiche nella generazione multimodale, promuovendo lo sviluppo di modelli in grado di generare e interpretare abilmente narrazioni complesse in ambienti di dominio aperto. Gli esperimenti condotti all'interno di Cohere-Bench confermano la superiorità di Openstory++ nel favorire modelli di narrazione visiva di alta qualità, migliorando la loro capacità di affrontare compiti di generazione in dominio aperto. Ulteriori dettagli sono disponibili all'indirizzo https://openstorypp.github.io/.
Presentiamo Speech-MASSIVE, un dataset multilingue per il Comprensione del Linguaggio Parlato (Spoken Language Understanding, SLU) che comprende la controparte vocale di una porzione del corpus testuale MASSIVE. Speech-MASSIVE copre 12 lingue appartenenti a diverse famiglie linguistiche e eredita da MASSIVE le annotazioni per i task di previsione dell'intento e di riempimento degli slot. La nostra estensione è motivata dalla scarsità di dataset SLU massicciamente multilingue e dalla crescente necessità di dataset vocali versatili per valutare modelli di base (LLM, encoder vocali) attraverso lingue e task diversi. Forniamo un dataset multimodale, multitask e multilingue e riportiamo i baseline SLU utilizzando sia architetture a cascata che end-to-end in vari scenari di addestramento (zero-shot, few-shot e fine-tuning completo). Inoltre, dimostriamo l'idoneità di Speech-MASSIVE per il benchmarking di altri task come la trascrizione vocale, l'identificazione della lingua e la traduzione vocale. Il dataset, i modelli e il codice sono disponibili pubblicamente all'indirizzo: https://github.com/hlt-mt/Speech-MASSIVE.
I metodi basati su rendering volumetrico differenziabile hanno compiuto progressi significativi nella sintesi di nuove viste. Da un lato, approcci innovativi hanno sostituito la rete Neural Radiance Fields (NeRF) con strutture parametrizzate localmente, consentendo rendering di alta qualità in tempi ragionevoli. Dall'altro, alcune tecniche hanno utilizzato lo splatting differenziabile al posto del ray casting di NeRF per ottimizzare rapidamente i campi di radianza mediante kernel gaussiani, permettendo un adattamento fine alla scena. Tuttavia, il ray casting differenziabile di kernel distribuiti irregolarmente è stato poco esplorato, mentre lo splatting, nonostante permetta tempi di rendering rapidi, è suscettibile ad artefatti chiaramente visibili. Il nostro lavoro colma questa lacuna fornendo una formulazione fisicamente consistente della radianza emessa c e della densità {\sigma}, scomposte con funzioni gaussiane associate a Gaussiane Sferiche/Armoniche per una rappresentazione cromatica a tutte le frequenze. Introduciamo inoltre un metodo che abilita il ray casting differenziabile di Gaussiane distribuite irregolarmente, utilizzando un algoritmo che integra i campi di radianza strato per strato e sfrutta una struttura BVH. Ciò consente al nostro approccio di adattarsi finemente alla scena evitando gli artefatti dello splatting. Di conseguenza, otteniamo una qualità di rendering superiore rispetto allo stato dell'arte, mantenendo tempi di addestramento ragionevoli e raggiungendo velocità di inferenza di 25 FPS sul dataset Blender. Pagina del progetto con video e codice: https://raygauss.github.io/
Questo articolo presenta un approccio per scomporre grafiche animate in sprite, un insieme di elementi o livelli di base. Il nostro approccio si basa sull'ottimizzazione dei parametri degli sprite per adattarli al video raster. Per migliorare l'efficienza, assumiamo texture statiche per gli sprite al fine di ridurre lo spazio di ricerca, prevenendo al contempo artefatti mediante un modello a priori delle texture. Per accelerare ulteriormente l'ottimizzazione, introduciamo l'inizializzazione dei parametri degli sprite utilizzando un modello pre-addestrato per la segmentazione di oggetti video e l'input dell'utente tramite annotazioni su singoli fotogrammi. Per il nostro studio, abbiamo costruito il dataset Crello Animation da un servizio di design online e definito metriche quantitative per misurare la qualità degli sprite estratti. Gli esperimenti dimostrano che il nostro metodo supera significativamente i baseline per compiti di scomposizione simili in termini di compromesso qualità/efficienza.
La separazione delle sorgenti audio cinematografiche (CASS) è un sottotask relativamente nuovo nell'ambito della separazione delle sorgenti audio. Un tipico setup del CASS è un problema a tre tracce, con l'obiettivo di separare la miscela nella traccia del dialogo (DX), nella traccia musicale (MX) e nella traccia degli effetti (FX). Tuttavia, nella pratica esistono diversi casi limite, poiché alcune sorgenti sonore non si adattano perfettamente a nessuna di queste tre tracce, rendendo necessario l'uso di tracce ausiliarie aggiuntive nella produzione. Un caso limite molto comune è la voce cantata nell'audio cinematografico, che può appartenere alla DX o alla MX, a seconda del contesto cinematografico. In questo lavoro, dimostriamo un'estensione molto semplice dei modelli Bandit con decoder dedicato e Banquet con decoder singolo basato su query a un problema a quattro tracce, trattando il dialogo non musicale, la musica strumentale, la voce cantata e gli effetti come tracce separate. È interessante notare che il modello Banquet basato su query ha superato il modello Bandit con decoder dedicato. Abbiamo ipotizzato che ciò sia dovuto a un migliore allineamento delle feature al collo di bottiglia, imposto dallo strato FiLM indipendente dalla banda. Il dataset e l'implementazione del modello saranno resi disponibili su https://github.com/kwatcharasupat/source-separation-landing.