Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren het EXAONE 3.0 instructie-afgestemde taalmodel, het eerste open model in de familie van Large Language Models (LLMs) ontwikkeld door LG AI Research. Onder de verschillende modelgroottes maken we het 7.8B instructie-afgestemde model publiekelijk beschikbaar om open onderzoek en innovatie te bevorderen. Door middel van uitgebreide evaluaties over een breed scala aan publieke en interne benchmarks, toont EXAONE 3.0 een zeer competitieve prestaties in de praktijk met instructie-volgende capaciteiten in vergelijking met andere state-of-the-art open modellen van vergelijkbare grootte. Onze vergelijkende analyse laat zien dat EXAONE 3.0 vooral uitblinkt in het Koreaans, terwijl het overtuigende prestaties levert in algemene taken en complex redeneren. Met zijn sterke effectiviteit in de praktijk en tweetalige vaardigheden, hopen we dat EXAONE blijft bijdragen aan de vooruitgang in Expert AI. Ons EXAONE 3.0 instructie-afgestemde model is beschikbaar op https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct.
Het bouwen van een algemeen toepasbare agent is een lang gekoesterde visie in het veld van kunstmatige intelligentie. Bestaande agents hebben opmerkelijke vooruitgang geboekt in veel domeinen, maar ze hebben nog steeds moeite met het voltooien van langetermijntaken in een open wereld. Wij schrijven dit toe aan het ontbreken van de nodige wereldkennis en multimodale ervaring die agents kunnen begeleiden bij een verscheidenheid aan langetermijntaken. In dit artikel stellen we een Hybride Multimodale Geheugenmodule voor om de bovenstaande uitdagingen aan te pakken. Deze module 1) transformeert kennis in een Hiërarchisch Gerichte Kennisdiagram dat agents in staat stelt om wereldkennis expliciet te representeren en te leren, en 2) vat historische informatie samen in een Geabstraheerde Multimodale Ervaringspool die agents rijke referenties biedt voor in-context leren. Bovenop de Hybride Multimodale Geheugenmodule wordt een multimodale agent, Optimus-1, geconstrueerd met een toegewijde Kennisgestuurde Planner en een Ervaring-Gestuurde Reflector, wat bijdraagt aan betere planning en reflectie bij langetermijntaken in Minecraft. Uitgebreide experimentele resultaten tonen aan dat Optimus-1 alle bestaande agents aanzienlijk overtreft op uitdagende langetermijntaakbenchmarks, en bijna menselijk niveau presteert bij veel taken. Daarnaast introduceren we verschillende Multimodale Grote Taalmodellen (MLLMs) als de ruggengraat van Optimus-1. Experimentele resultaten laten zien dat Optimus-1 sterke generalisatie vertoont met behulp van de Hybride Multimodale Geheugenmodule, en de GPT-4V-baseline op veel taken overtreft.
Het bereiken van menselijke snelheid en prestaties bij taken in de echte wereld is een belangrijk streven voor de robotica-onderzoeksgemeenschap. Dit werk zet een stap in die richting en presenteert de eerste geleerde robotagent die amateurniveau menselijke prestaties bereikt in competitief tafeltennis. Tafeltennis is een fysiek veeleisende sport waarbij menselijke spelers jarenlang training nodig hebben om een gevorderd niveau van vaardigheid te bereiken. In dit artikel dragen we bij met (1) een hiërarchische en modulaire beleidsarchitectuur bestaande uit (i) laagniveau controllers met gedetailleerde vaardigheidsbeschrijvingen die de mogelijkheden van de agent modelleren en helpen de kloof tussen simulatie en realiteit te overbruggen, en (ii) een hoog niveau controller die de laagniveau vaardigheden kiest, (2) technieken voor het mogelijk maken van zero-shot sim-to-real, waaronder een iteratieve benadering voor het definiëren van de taakverdeling die is verankerd in de echte wereld en een automatisch curriculum definieert, en (3) real-time aanpassing aan onbekende tegenstanders. De beleidsprestaties werden beoordeeld via 29 robot versus mens wedstrijden, waarvan de robot 45% (13/29) won. Alle menselijke spelers waren onbekende spelers en hun vaardigheidsniveau varieerde van beginner tot toernooiniveau. Hoewel de robot alle wedstrijden verloor tegen de meest gevorderde spelers, won hij 100% van de wedstrijden tegen beginners en 55% van de wedstrijden tegen middelmatige spelers, wat solide amateurniveau menselijke prestaties aantoont. Video's van de wedstrijden zijn te bekijken op https://sites.google.com/view/competitive-robot-table-tennis.
WalledEval is een uitgebreid AI-veiligheidstestpakket ontworpen om grote taalmodellen (LLM's) te evalueren. Het ondersteunt een breed scala aan modellen, waaronder zowel open-weight als API-gebaseerde modellen, en biedt meer dan 35 veiligheidsbenchmarks die gebieden zoals meertalige veiligheid, overdreven veiligheid en promptinjecties bestrijken. Het framework ondersteunt zowel LLM- als beoordelingsbenchmarking en bevat aangepaste mutatoren om de veiligheid te testen tegen verschillende tekststijlmutaties, zoals toekomende tijd en parafrasering. Daarnaast introduceert WalledEval WalledGuard, een nieuwe, compacte en performante tool voor inhoudsmoderatie, en SGXSTest, een benchmark voor het beoordelen van overdreven veiligheid in culturele contexten. We maken WalledEval publiekelijk beschikbaar op https://github.com/walledai/walledevalA.
Grote Taalmodellen (LLMs) blinken uit in op zichzelf staande codetaken zoals HumanEval en MBPP, maar hebben moeite met het verwerken van volledige coderepositories. Deze uitdaging heeft onderzoek gestimuleerd naar het verbeteren van de interactie tussen LLMs en codebases op repositorieschaal. Huidige oplossingen zijn gebaseerd op op gelijkenis gebaseerde retrievals of handmatige tools en API's, elk met aanzienlijke nadelen. Op gelijkenis gebaseerde retrievals hebben vaak een lage recall bij complexe taken, terwijl handmatige tools en API's meestal taakspecifiek zijn en expertkennis vereisen, wat hun generaliseerbaarheid over diverse codetaken en real-world toepassingen vermindert. Om deze beperkingen te mitigeren, introduceren we \framework, een systeem dat LLM-agents integreert met graph database-interfaces die uit coderepositories zijn geëxtraheerd. Door gebruik te maken van de structurele eigenschappen van graph databases en de flexibiliteit van de graph querytaal, stelt \framework de LLM-agent in staat om queries te construeren en uit te voeren, wat precieze, code-structuurbewuste contextretrieval en codenavigatie mogelijk maakt. We evalueren \framework met behulp van drie benchmarks: CrossCodeEval, SWE-bench en EvoCodeBench. Daarnaast ontwikkelen we vijf real-world coderingsapplicaties. Met een uniform graph database-schema toont \framework competitieve prestaties en potentie in zowel academische als real-world omgevingen, wat zijn veelzijdigheid en effectiviteit in software engineering aantoont. Onze applicatiedemo is te vinden op: https://github.com/modelscope/modelscope-agent/tree/master/apps/codexgraph_agent.
3D Gaussian splatting (3DGS) is recentelijk naar voren gekomen als een alternatieve representatie die gebruikmaakt van een op 3D Gaussiaanse verdelingen gebaseerde weergave en een benaderde volumetrische rendering introduceert, waardoor zeer snelle rendersnelheden en veelbelovende beeldkwaliteit worden bereikt. Bovendien hebben vervolgstudies 3DGS met succes uitgebreid naar dynamische 3D-scènes, wat het brede toepassingsbereik ervan aantoont. Een belangrijk nadeel is echter dat 3DGS en de daaropvolgende methoden een aanzienlijk aantal Gaussiaanse verdelingen vereisen om de hoge kwaliteit van de gerenderde beelden te behouden, wat een grote hoeveelheid geheugen en opslagruimte vergt. Om dit kritieke probleem aan te pakken, leggen we specifieke nadruk op twee belangrijke doelstellingen: het verminderen van het aantal Gaussiaanse punten zonder in te leveren op prestaties, en het comprimeren van Gaussiaanse attributen, zoals het gezichtsafhankelijke kleur en covariantie. Hiertoe stellen we een leerbare maskerstrategie voor die het aantal Gaussiaanse verdelingen aanzienlijk reduceert terwijl de hoge prestaties behouden blijven. Daarnaast introduceren we een compacte maar effectieve weergave van gezichtsafhankelijke kleur door gebruik te maken van een grid-gebaseerd neuraal veld in plaats van te vertrouwen op sferische harmonischen. Tot slot leren we codeboeken om de geometrische en temporele attributen compact weer te geven door middel van restvectorkwantisatie. Met modelcompressietechnieken zoals kwantisatie en entropiecodering laten we consistent een reductie van meer dan 25x in opslagruimte en een verbeterde rendersnelheid zien in vergelijking met 3DGS voor statische scènes, terwijl de kwaliteit van de scèneweergave behouden blijft. Voor dynamische scènes bereikt onze aanpak een efficiëntie van meer dan 12x in opslagruimte en behoudt het een hoogwaardige reconstructie in vergelijking met de bestaande state-of-the-art methoden. Ons werk biedt een uitgebreid raamwerk voor 3D-scèneweergave, waarbij hoge prestaties, snelle training, compactheid en real-time rendering worden bereikt. Onze projectpagina is beschikbaar op https://maincold2.github.io/c3dgs/.
Recente modellen voor beeldgeneratie blinken uit in het creëren van hoogwaardige afbeeldingen op basis van korte beschrijvingen. Ze slagen er echter niet in om consistentie van meerdere instanties over afbeeldingen heen te behouden bij het verwerken van uitgebreide contexten. Deze inconsistentie is grotendeels te wijten aan het ontbreken van gedetailleerde labeling van instantiekenmerken in bestaande trainingsdatasets. Om deze problemen aan te pakken, introduceren we Openstory++, een grootschalige dataset die aanvullende annotaties op instantieniveau combineert met zowel afbeeldingen als tekst. Bovendien ontwikkelen we een trainingsmethodologie die zich richt op entiteitsgerichte beeld-tekstgeneratie, waardoor modellen leren om visuele en tekstuele informatie effectief te verweven. Specifiek vereenvoudigt Openstory++ het proces van sleutelframe-extractie uit open-domeinvideo's, waarbij vision-language-modellen worden ingezet om bijschriften te genereren die vervolgens worden verfijnd door een groot taalmodel voor narratieve continuïteit. Het overtreft eerdere datasets door een uitgebreidere open-domeinbron te bieden, die geautomatiseerde bijschrijving, hoogwaardige afbeeldingen afgestemd op instantieaantallen, en uitgebreide framereeksen voor temporele consistentie omvat. Daarnaast presenteren we Cohere-Bench, een baanbrekend benchmarkframework voor het evalueren van beeldgeneratietaken wanneer lange multimodale context wordt geboden, inclusief het vermogen om de achtergrond, stijl en instanties in de gegeven context coherent te houden. In vergelijking met bestaande benchmarks vult ons werk cruciale lacunes in multimodale generatie op, waardoor de ontwikkeling van modellen wordt bevorderd die complexe verhalen in open-domeinomgevingen vaardig kunnen genereren en interpreteren. Experimenten uitgevoerd binnen Cohere-Bench bevestigen de superioriteit van Openstory++ in het ontwikkelen van hoogwaardige visuele verhalende modellen, waardoor hun vermogen om open-domeingeneratietaken aan te pakken wordt verbeterd. Meer details zijn te vinden op https://openstorypp.github.io/.
Differentieerbare methoden gebaseerd op volumetrische rendering hebben aanzienlijke vooruitgang geboekt in de synthese van nieuwe gezichtspunten. Enerzijds hebben innovatieve methoden het Neural Radiance Fields (NeRF)-netwerk vervangen door lokaal geparametriseerde structuren, waardoor hoogwaardige renderings in een redelijke tijd mogelijk zijn geworden. Anderzijds hebben benaderingen differentieerbare splatting gebruikt in plaats van NeRF's ray casting om stralingsvelden snel te optimaliseren met behulp van Gaussische kernen, wat een fijne aanpassing aan de scène mogelijk maakt. Echter, differentieerbaar ray casting van onregelmatig verdeelde kernen is nauwelijks onderzocht, terwijl splatting, ondanks het mogelijk maken van snelle renderingtijden, gevoelig is voor duidelijk zichtbare artefacten. Ons werk overbrugt deze kloof door een fysisch consistente formulering te bieden van de uitgezonden straling c en dichtheid {\sigma}, ontbonden met Gaussische functies geassocieerd met Sferische Gaussians/Harmonics voor een all-frequente colorimetrische representatie. We introduceren ook een methode die differentieerbaar ray casting van onregelmatig verdeelde Gaussians mogelijk maakt met behulp van een algoritme dat stralingsvelden laag voor laag integreert en gebruikmaakt van een BVH-structuur. Hierdoor kan onze benadering zich fijn aanpassen aan de scène terwijl splatting-artefacten worden vermeden. Als resultaat behalen we een superieure renderingkwaliteit vergeleken met de state-of-the-art, terwijl we redelijke trainingstijden handhaven en inferentiesnelheden van 25 FPS bereiken op de Blender-dataset. Projectpagina met video's en code: https://raygauss.github.io/
We presenteren Speech-MASSIVE, een meertalige dataset voor Spoken Language Understanding (SLU) die de spraakvariant bevat van een deel van het MASSIVE tekstcorpus. Speech-MASSIVE beslaat 12 talen uit verschillende taalfamilies en erft van MASSIVE de annotaties voor intentievoorspelling en slotvullingstaken. Onze uitbreiding is ingegeven door het gebrek aan grootschalige meertalige SLU-datasets en de groeiende behoefte aan veelzijdige spraakdatasets om foundationmodellen (LLM's, spraakencoders) te evalueren over verschillende talen en taken heen. We bieden een multimodale, multitask, meertalige dataset en rapporteren SLU-baselines met behulp van zowel gecascadeerde als end-to-end-architecturen in diverse trainingsscenario's (zero-shot, few-shot en volledige fine-tuning). Bovendien tonen we aan dat Speech-MASSIVE geschikt is voor het benchmarken van andere taken zoals spraaktranscriptie, taalidentificatie en spraakvertaling. De dataset, modellen en code zijn publiekelijk beschikbaar op: https://github.com/hlt-mt/Speech-MASSIVE.
Dit artikel presenteert een aanpak voor het ontbinden van geanimeerde afbeeldingen in sprites, een set van basiselementen of lagen. Onze aanpak bouwt voort op de optimalisatie van spriteparameters om deze aan te passen aan de rastervideo. Voor efficiëntie nemen we statische texturen aan voor sprites om de zoekruimte te verkleinen, terwijl artefacten worden voorkomen met behulp van een texture prior model. Om de optimalisatie verder te versnellen, introduceren we de initialisatie van de spriteparameters met behulp van een vooraf getraind video-objectsegmentatiemodel en gebruikersinvoer van annotaties in enkele frames. Voor ons onderzoek hebben we de Crello Animation-dataset samengesteld vanuit een online ontwerpservice en hebben we kwantitatieve metrieken gedefinieerd om de kwaliteit van de geëxtraheerde sprites te meten. Experimenten tonen aan dat onze methode aanzienlijk beter presteert dan baseline-methoden voor vergelijkbare ontbindingstaken wat betreft de balans tussen kwaliteit en efficiëntie.
Cinematische audioscheiding (CASS) is een relatief nieuwe subtak van audioscheiding. Een typische opzet van CASS is een drie-stemmenprobleem, met als doel het mengsel te scheiden in de dialoogstem (DX), muziekstem (MX) en effectenstem (FX). In de praktijk bestaan er echter verschillende randgevallen, aangezien sommige geluidsbronnen niet netjes in een van deze drie stems passen, wat het gebruik van aanvullende hulpstems in de productie noodzakelijk maakt. Een veelvoorkomend randgeval is de zangstem in filmaudio, die afhankelijk van de cinematische context zowel in de DX als in de MX kan vallen. In dit werk demonstreren we een zeer eenvoudige uitbreiding van de dedicated-decoder Bandit en query-gebaseerde single-decoder Banquet-modellen naar een vier-stemmenprobleem, waarbij niet-muzikale dialoog, instrumentale muziek, zangstem en effecten als aparte stems worden behandeld. Interessant genoeg presteerde het query-gebaseerde Banquet-model beter dan het dedicated-decoder Bandit-model. We veronderstellen dat dit komt door een betere kenmerkuitlijning bij het knelpunt, zoals afgedwongen door de band-agnostische FiLM-laag. De dataset en modelimplementatie zullen beschikbaar worden gesteld op https://github.com/kwatcharasupat/source-separation-landing.