Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Na het succes van het in-context learning paradigma in grootschalige taal- en computervisie-modellen, ervaart het recentelijk opkomende veld van in-context reinforcement learning een snelle groei. De ontwikkeling ervan is echter geremd door het ontbreken van uitdagende benchmarks, aangezien alle experimenten zijn uitgevoerd in eenvoudige omgevingen en op kleinschalige datasets. Wij presenteren XLand-100B, een grootschalige dataset voor in-context reinforcement learning gebaseerd op de XLand-MiniGrid-omgeving, als een eerste stap om dit probleem te verlichten. Het bevat complete leerhistorieën voor bijna 30.000 verschillende taken, met 100B overgangen en 2,5B episodes. Het kostte 50.000 GPU-uren om de dataset te verzamelen, wat buiten het bereik van de meeste academische labs valt. Naast de dataset bieden we de hulpmiddelen om deze te reproduceren of verder uit te breiden. Met deze aanzienlijke inspanning streven we ernaar om onderzoek in het snelgroeiende veld van in-context reinforcement learning te democratiseren en een solide basis te bieden voor verdere schaalvergroting. De code is open-source en beschikbaar onder de Apache 2.0-licentie op https://github.com/dunno-lab/xland-minigrid-datasets.
Ondanks de ongekende successen van tekst-naar-beeld diffusiemodellen, is het verrassend moeilijk om het aantal afgebeelde objecten te beheersen met behulp van tekst. Dit is belangrijk voor diverse toepassingen, van technische documenten tot kinderboeken en het illustreren van kookrecepten. Het genereren van objecten met de juiste telling is fundamenteel uitdagend omdat het generatieve model een gevoel van afzonderlijke identiteit moet behouden voor elk exemplaar van het object, zelfs als verschillende objecten identiek lijken of overlappen, en vervolgens impliciet een globale berekening moet uitvoeren tijdens het genereren. Het is nog steeds onbekend of dergelijke representaties bestaan. Om het genereren met de juiste telling aan te pakken, identificeren we eerst kenmerken binnen het diffusiemodel die de objectidentiteitsinformatie kunnen dragen. Vervolgens gebruiken we deze om exemplaren van objecten te scheiden en te tellen tijdens het denoiseproces, en om overgeneratie en ondergeneratie te detecteren. We repareren het laatste door een model te trainen dat zowel de vorm als de locatie van een ontbrekend object voorspelt, gebaseerd op de lay-out van bestaande objecten, en laten zien hoe dit kan worden gebruikt om het denoisen te begeleiden met het juiste aantal objecten. Onze aanpak, CountGen, is niet afhankelijk van een externe bron om de objectlay-out te bepalen, maar gebruikt in plaats daarvan de prior van het diffusiemodel zelf, waardoor prompt- en seed-afhankelijke lay-outs worden gecreëerd. Geëvalueerd op twee benchmarkdatasets, blijkt dat CountGen de tellingnauwkeurigheid van bestaande baseline-methoden sterk overtreft.
We introduceren een nieuwe benchmark, ChartMimic, gericht op het beoordelen van de visueel-gestuurde codegeneratiecapaciteiten van grote multimodale modellen (LMMs). ChartMimic maakt gebruik van informatie-intensieve visuele grafieken en tekstuele instructies als invoer, waarbij LMMs de bijbehorende code voor het renderen van grafieken moeten genereren. ChartMimic omvat 1.000 door mensen samengestelde (figuur, instructie, code) tripletten, die authentieke gebruiksvoorbeelden van grafieken vertegenwoordigen zoals gevonden in wetenschappelijke artikelen uit verschillende domeinen (bijv. Natuurkunde, Informatica, Economie, etc.). Deze grafieken beslaan 18 reguliere typen en 4 geavanceerde typen, onderverdeeld in 191 subcategorieën. Bovendien stellen we multi-level evaluatiemetrics voor om een automatische en grondige beoordeling te bieden van de gegenereerde code en de gerenderde grafieken. In tegenstelling tot bestaande benchmarks voor codegeneratie, legt ChartMimic de nadruk op het evalueren van de capaciteit van LMMs om een mix van cognitieve vaardigheden te harmoniseren, waaronder visueel begrip, codegeneratie en cross-modale redenering. De evaluatie van 3 propriëtaire modellen en 11 open-weight modellen onderstreept de aanzienlijke uitdagingen die ChartMimic met zich meebrengt. Zelfs de geavanceerde GPT-4V en Claude-3-opus behalen slechts een gemiddelde score van respectievelijk 73,2 en 53,7, wat wijst op aanzienlijke ruimte voor verbetering. We verwachten dat ChartMimic de ontwikkeling van LMMs zal inspireren, en zo de voortgang richting kunstmatige algemene intelligentie zal bevorderen.
Met de snelle vooruitgang van multimodale grote taalmodellen (MLLMs) is hun evaluatie steeds uitgebreider geworden. Het begrijpen van lange multimodale inhoud, als een fundamentele vaardigheid voor toepassingen in de echte wereld, blijft echter onderbelicht. In dit werk presenteren we Needle In A Multimodal Haystack (MM-NIAH), de eerste benchmark die specifiek is ontworpen om systematisch het vermogen van bestaande MLLMs om lange multimodale documenten te begrijpen te evalueren. Onze benchmark omvat drie soorten evaluatietaken: multimodale retrievals, tellen en redeneren. In elke taak moet het model de vragen beantwoorden op basis van verschillende sleutelinformatie die verspreid is door het gegeven multimodale document. Door de toonaangevende MLLMs op MM-NIAH te evalueren, observeren we dat bestaande modellen nog aanzienlijke ruimte voor verbetering hebben bij deze taken, vooral bij visiegerichte evaluatie. We hopen dat dit werk een platform kan bieden voor verder onderzoek naar het begrijpen van lange multimodale documenten en kan bijdragen aan de vooruitgang van MLLMs. Code en benchmark zijn vrijgegeven op https://github.com/OpenGVLab/MM-NIAH.
In de afgelopen jaren zijn de invoercontextgroottes van grote taalmmodellen (LLMs) aanzienlijk toegenomen. Bestaande evaluatiemethoden hebben echter geen gelijke tred gehouden en slagen er niet in om de efficiëntie van modellen bij het verwerken van lange contexten uitgebreid te beoordelen. Om deze kloof te overbruggen, introduceren we de BABILong-benchmark, die is ontworpen om het vermogen van taalmmodellen om te redeneren over feiten die verspreid zijn over extreem lange documenten te testen. BABILong omvat een diverse set van 20 redeneertaken, waaronder feitenketens, eenvoudige inductie, deductie, tellen en het verwerken van lijsten/verzamelingen. Deze taken zijn op zichzelf al uitdagend en worden nog veeleisender wanneer de benodigde feiten verspreid zijn over lange natuurlijke teksten. Onze evaluaties tonen aan dat populaire LLMs slechts 10-20\% van de context effectief benutten en dat hun prestaties sterk afnemen bij toenemende redeneercomplexiteit. Onder de alternatieven voor in-context redeneren behalen Retrieval-Augmented Generation-methoden een bescheiden nauwkeurigheid van 60\% bij het beantwoorden van vragen over enkelvoudige feiten, onafhankelijk van de contextlengte. Onder de contextuitbreidingsmethoden laten recurrent memory transformers de hoogste prestaties zien, waardoor het verwerken van lengtes tot 11 miljoen tokens mogelijk wordt. De BABILong-benchmark is uitbreidbaar tot elke lengte om de evaluatie van nieuwe, aankomende modellen met verhoogde capaciteiten te ondersteunen, en we bieden splitsingen aan tot 1 miljoen tokenlengtes.
Zuidoost-Azië (SEA) is een regio die rijk is aan taalkundige diversiteit en culturele verscheidenheid, met meer dan 1.300 inheemse talen en een bevolking van 671 miljoen mensen. De heersende AI-modellen lijden echter aan een aanzienlijk gebrek aan representatie van teksten, afbeeldingen en audio-datasets uit SEA, wat de kwaliteit van AI-modellen voor SEA-talen aantast. Het evalueren van modellen voor SEA-talen is uitdagend vanwege de schaarste aan hoogwaardige datasets, verergerd door de dominantie van Engelse trainingsdata, wat zorgen oproept over mogelijke culturele misrepresentatie. Om deze uitdagingen aan te pakken, introduceren we SEACrowd, een collaboratief initiatief dat een uitgebreide resourcehub consolideert die de hiaten in resources opvult door gestandaardiseerde corpora te bieden in bijna 1.000 SEA-talen over drie modaliteiten. Via onze SEACrowd-benchmarks beoordelen we de kwaliteit van AI-modellen voor 36 inheemse talen over 13 taken, wat waardevolle inzichten biedt in het huidige AI-landschap in SEA. Bovendien stellen we strategieën voor om grotere AI-vooruitgang te faciliteren, waardoor het potentiële nut en de gelijkheid van resources voor de toekomst van AI in SEA worden gemaximaliseerd.
Afbeelding-tekst interleaved data, bestaande uit meerdere afbeeldingen en teksten gerangschikt in een natuurlijk documentformaat, sluit aan bij het presentatieparadigma van internetdata en lijkt sterk op menselijke leesgewoonten. Recente studies hebben aangetoond dat dergelijke data multimodale in-context learning bevordert en de mogelijkheden van grote taalmodellen behoudt tijdens multimodale fine-tuning. Echter beperken de beperkte schaal en diversiteit van huidige afbeelding-tekst interleaved data de ontwikkeling van multimodale grote taalmodellen. In dit artikel introduceren we OmniCorpus, een afbeelding-tekst interleaved dataset van 10 miljard schaal. Met behulp van een efficiënte data-engine filteren en extraheren we grootschalige hoogwaardige documenten, die 8,6 miljard afbeeldingen en 1.696 miljard teksttokens bevatten. Vergeleken met tegenhangers (bijv. MMC4, OBELICS) heeft onze dataset 1) een 15 keer grotere schaal terwijl de goede data-kwaliteit behouden blijft; 2) meer diverse bronnen, waaronder zowel Engelstalige als niet-Engelstalige websites en video-gerichte websites; 3) is flexibeler, eenvoudig degradeerbaar van een afbeelding-tekst interleaved formaat naar een pure tekstcorpus en afbeelding-tekst paren. Door middel van uitgebreide analyse en experimenten valideren we de kwaliteit, bruikbaarheid en effectiviteit van de voorgestelde dataset. We hopen dat dit een solide datafundament kan bieden voor toekomstig onderzoek naar multimodale modellen. Code en data zijn vrijgegeven op https://github.com/OpenGVLab/OmniCorpus.
Smartphonegebruikers navigeren vaak tussen meerdere applicaties (apps) om taken uit te voeren, zoals het delen van inhoud tussen sociale mediaplatforms. Autonome Grafische Gebruikersinterface (GUI)-navigatieagenten kunnen de gebruikerservaring op het gebied van communicatie, entertainment en productiviteit verbeteren door workflows te stroomlijnen en handmatige interventie te verminderen. Eerdere GUI-agenten werden echter vaak getraind met datasets die eenvoudige taken bevatten die binnen één app kunnen worden voltooid, wat leidt tot slechte prestaties bij navigatie tussen apps. Om dit probleem aan te pakken, introduceren we GUI Odyssey, een uitgebreide dataset voor het trainen en evalueren van navigatieagenten tussen apps. GUI Odyssey bestaat uit 7.735 episodes van 6 mobiele apparaten, die 6 soorten taken tussen apps, 201 apps en 1,4K app-combinaties omvatten. Met behulp van GUI Odyssey ontwikkelden we OdysseyAgent, een multimodale navigatieagent tussen apps, door het Qwen-VL-model te fine-tunen met een geschiedenisresamplingmodule. Uitgebreide experimenten tonen de superieure nauwkeurigheid van OdysseyAgent aan in vergelijking met bestaande modellen. Zo overtreft OdysseyAgent het gefinetunede Qwen-VL en zero-shot GPT-4V gemiddeld met 1,44% en 55,49% in-domein nauwkeurigheid, en met 2,29% en 48,14% out-of-domein nauwkeurigheid. De dataset en code zullen worden vrijgegeven op https://github.com/OpenGVLab/GUI-Odyssey.
Recentelijk heeft Glyph-ByT5 zeer nauwkeurige visuele tekstweergaveprestaties bereikt in grafisch ontworpen afbeeldingen. Het richt zich echter nog steeds uitsluitend op Engels en presteert relatief slecht wat betreft visuele aantrekkingskracht. In dit werk pakken we deze twee fundamentele beperkingen aan door Glyph-ByT5-v2 en Glyph-SDXL-v2 te presenteren, die niet alleen nauwkeurige visuele tekstweergave ondersteunen voor 10 verschillende talen, maar ook een veel betere esthetische kwaliteit bereiken. Om dit te bereiken, leveren we de volgende bijdragen: (i) het creëren van een hoogwaardige meertalige glyph-tekst- en grafisch ontwerpdataset bestaande uit meer dan 1 miljoen glyph-tekstparen en 10 miljoen grafisch ontworpen afbeelding-tekstparen die negen andere talen omvatten, (ii) het opbouwen van een meertalige visuele paragraafbenchmark bestaande uit 1.000 prompts, met 100 voor elke taal, om de meertalige visuele spellingnauwkeurigheid te beoordelen, en (iii) het benutten van de nieuwste stapbewuste voorkeursleerbenadering om de visuele esthetische kwaliteit te verbeteren. Met de combinatie van deze technieken leveren we een krachtige aangepaste meertalige tekstencoder, Glyph-ByT5-v2, en een sterk esthetisch grafisch generatiemodel, Glyph-SDXL-v2, dat nauwkeurige spelling in 10 verschillende talen kan ondersteunen. We beschouwen ons werk als een significante vooruitgang, aangezien de nieuwste DALL-E3 en Ideogram 1.0 nog steeds moeite hebben met de meertalige visuele tekstweergavetaak.
Onlangs ontwikkelde grote taalmodellen (LLM's) zoals ChatGPT, Claude en Llama hebben indrukwekkende vaardigheden getoond en overtreffen zelfs menselijk prestatieniveau in verschillende taken. Ondanks hun succes beperken de resource-intensieve eisen van deze modellen, die aanzienlijke rekenkracht vereisen voor zowel training als inferentie, hun inzet tot hoogwaardige servers. Bovendien leiden de uitgebreide rekenvereisten van de modellen vaak tot verhoogde latentie in reactietijden. Met de groeiende behoefte aan LLM's die efficiënt op CPU's kunnen werken, is onderzoek naar lichtgewicht modellen die zijn geoptimaliseerd voor CPU-inferentie ontstaan. In dit werk introduceren we GEB-1.3B, een lichtgewicht LLM getraind op 550 miljard tokens in zowel het Chinees als het Engels. We gebruiken nieuwe trainingstechnieken, waaronder ROPE, Group-Query-Attention en FlashAttention-2, om de training te versnellen terwijl de modelprestaties behouden blijven. Daarnaast finetunen we het model met 10 miljoen voorbeelden van instructiedata om de afstemming te verbeteren. GEB-1.3B toont uitstekende prestaties op algemene benchmarks zoals MMLU, C-Eval en CMMLU, en overtreft vergelijkbare modellen zoals MindLLM-1.3B en TinyLLaMA-1.1B. Opmerkelijk is dat de FP32-versie van GEB-1.3B lovenswaardige inferentietijden op CPU's bereikt, met voortdurende inspanningen om de snelheid verder te verbeteren door geavanceerde kwantificeringstechnieken. De release van GEB-1.3B als een open-source model markeert een belangrijke bijdrage aan de ontwikkeling van lichtgewicht LLM's, wat belooft verder onderzoek en innovatie op dit gebied te stimuleren.
We stellen een trainingsvrije en robuuste oplossing voor om camerabewegingscontrole te bieden voor kant-en-klare videodiffusiemodellen. In tegenstelling tot eerder werk vereist onze methode geen gesuperviseerde finetuning op datasets met camerabewegingsannotaties of zelfgesuperviseerde training via data-augmentatie. In plaats daarvan kan deze direct worden gebruikt met de meeste vooraf getrainde videodiffusiemodellen en camerabestuurbare video's genereren met een enkele afbeelding of tekstprompt als invoer. De inspiratie voor ons werk komt voort uit de lay-outprior die tussenliggende latenties hebben ten opzichte van gegenereerde resultaten, waardoor het herschikken van ruisachtige pixels in deze latenties ook de uitvoerinhoud zal herverdelen. Aangezien camerabeweging ook kan worden gezien als een vorm van pixelherschikking veroorzaakt door perspectiefverandering, kunnen video's worden gereorganiseerd volgens specifieke camerabewegingen als hun ruisachtige latenties dienovereenkomstig veranderen. Op basis hiervan stellen we onze methode CamTrol voor, die robuuste camerabesturing mogelijk maakt voor videodiffusiemodellen. Dit wordt bereikt via een tweestapsproces. Eerst modelleren we de herschikking van de afbeeldingslay-out door expliciete camerabeweging in de 3D-puntenwolkruimte. Vervolgens genereren we video's met camerabeweging door gebruik te maken van de lay-outprior van ruisachtige latenties gevormd door een reeks herschikte afbeeldingen. Uitgebreide experimenten hebben de robuustheid van onze methode aangetoond bij het beheersen van camerabewegingen in gegenereerde video's. Bovendien laten we zien dat onze methode indrukwekkende resultaten kan produceren bij het genereren van 3D-rotatievideo's met dynamische inhoud. Projectpagina op https://lifedecoder.github.io/CamTrol/.
Conversationele LLM's functioneren als blackbox-systemen, waardoor gebruikers moeten gissen naar de redenen achter de output die ze zien. Dit gebrek aan transparantie is potentieel problematisch, vooral gezorgen over bias en waarheidsgetrouwheid. Om dit probleem aan te pakken, presenteren we een end-to-end prototype dat interpreteerbaarheidstechnieken verbindt met user experience design, met als doel chatbots transparanter te maken. We beginnen met het tonen van bewijs dat een prominent open-source LLM een "gebruikersmodel" heeft: door de interne staat van het systeem te onderzoeken, kunnen we gegevens extraheren die verband houden met de leeftijd, het geslacht, het opleidingsniveau en de sociaaleconomische status van een gebruiker. Vervolgens beschrijven we het ontwerp van een dashboard dat het chatbot-interface begeleidt en dit gebruikersmodel in realtime weergeeft. Het dashboard kan ook worden gebruikt om het gebruikersmodel en het gedrag van het systeem te beheren. Tot slot bespreken we een studie waarin gebruikers met het geïnstrumenteerde systeem converseerden. Onze resultaten suggereren dat gebruikers het waarderen om interne staten te zien, wat hen hielp bevooroordeeld gedrag bloot te leggen en hun gevoel van controle vergrootte. Deelnemers deden ook waardevolle suggesties die wijzen op toekomstige richtingen voor zowel ontwerp- als machine learning-onderzoek. De projectpagina en videodemo van ons TalkTuner-systeem zijn beschikbaar op https://bit.ly/talktuner-project-page.
Recente vooruitgang in tekst-naar-video (T2V) technologie, zoals gedemonstreerd door modellen zoals Gen2, Pika en Sora, heeft de toepasbaarheid en populariteit ervan aanzienlijk vergroot. Ondanks deze vooruitgang blijft het evalueren van deze modellen een aanzienlijke uitdaging. Voornamelijk vanwege de beperkingen van automatische metrieken wordt handmatige evaluatie vaak beschouwd als een superieure methode voor het beoordelen van T2V-generatie. Bestaande handmatige evaluatieprotocollen kampen echter met problemen op het gebied van reproduceerbaarheid, betrouwbaarheid en praktische haalbaarheid. Om deze uitdagingen aan te pakken, introduceert dit artikel het Text-to-Video Human Evaluation (T2VHE) protocol, een uitgebreid en gestandaardiseerd protocol voor T2V-modellen. Het T2VHE-protocol omvat goed gedefinieerde metrieken, grondige training van annotators en een effectieve dynamische evaluatiemodule. Experimentele resultaten tonen aan dat dit protocol niet alleen hoogwaardige annotaties waarborgt, maar ook de evaluatiekosten met bijna 50% kan verlagen. We zullen de volledige opzet van het T2VHE-protocol open source maken, inclusief het complete protocolwerkproces, de details van de dynamische evaluatiecomponent en de code van de annotatie-interface. Dit zal gemeenschappen helpen om meer verfijnde menselijke beoordelingsprotocollen op te zetten.
Graphical User Interface (GUI)-automatisering biedt aanzienlijk potentieel om de menselijke productiviteit te verbeteren door assistentie te bieden bij computertaken. Bestaande taakformuleringen richten zich voornamelijk op eenvoudige taken die kunnen worden gespecificeerd met een enkele, taalgebonden instructie, zoals "Voeg een nieuwe dia toe." In dit werk introduceren we VideoGUI, een nieuwe multimodale benchmark die is ontworpen om GUI-assistenten te evalueren op visueel gerichte GUI-taken. Onze benchmark, afkomstig uit hoogwaardige webinstructievideo's, richt zich op taken die professionele en nieuwe software (bijv. Adobe Photoshop of Stable Diffusion WebUI) en complexe activiteiten (bijv. videobewerking) omvatten. VideoGUI evalueert GUI-assistenten via een hiërarchisch proces, waardoor specifieke niveaus waarop ze mogelijk falen kunnen worden geïdentificeerd: (i) hoogwaardige planning: reconstrueer procedurele subtaken vanuit visuele condities zonder taalgebonden beschrijvingen; (ii) middenniveau planning: genereer sequenties van precieze actiebeschrijvingen op basis van visuele toestand (d.w.z. schermafbeelding) en doelen; (iii) uitvoering van atomische acties: voer specifieke acties uit, zoals het nauwkeurig klikken op aangewezen elementen. Voor elk niveau ontwerpen we evaluatiemetrics over individuele dimensies om duidelijke signalen te bieden, zoals individuele prestaties in klikken, slepen, typen en scrollen voor de uitvoering van atomische acties. Onze evaluatie op VideoGUI toont aan dat zelfs het state-of-the-art grote multimodale model GPT4o slecht presteert op visueel gerichte GUI-taken, met name voor hoogwaardige planning.
Grote taalmodelen kunnen hun trainingsgegevens onthouden en herhalen, wat privacy- en auteursrechtenrisico's met zich meebrengt. Om memorisering te verminderen, introduceren we een subtiele aanpassing aan het next-token trainingsdoel, die we de goldfish loss noemen. Tijdens de training wordt een willekeurig geselecteerde subset van tokens uitgesloten van de loss-berekening. Deze weggelaten tokens worden niet onthouden door het model, wat letterlijke reproductie van een complete reeks tokens uit de trainingsset voorkomt. We voeren uitgebreide experimenten uit met het trainen van miljardenschalige Llama-2-modellen, zowel vooraf getraind als vanaf nul getraind, en tonen aanzienlijke verminderingen in extracteerbare memorisering aan, met weinig tot geen impact op downstream benchmarks.
Hoewel diffusiemodellen indrukwekkende prestaties hebben getoond bij het genereren van 2D-beelden/video's, blijft diffusiegebaseerde Text-to-Multi-view-Video (T2MVid)-generatie onderbelicht. De nieuwe uitdagingen die T2MVid-generatie met zich meebrengt, liggen in het ontbreken van grote hoeveelheden getitelde multi-view video's en de complexiteit van het modelleren van zo'n multidimensionale verdeling. Daarom stellen we een nieuwe diffusiegebaseerde pijplijn voor die hoogwaardige multi-view video's genereert rond een dynamisch 3D-object op basis van tekst. Specifiek splitsen we het T2MVid-probleem op in viewpoint-ruimte en tijdcomponenten. Deze factorisatie stelt ons in staat om lagen van geavanceerde, vooraf getrainde multi-view beeld- en 2D-videodiffusiemodellen te combineren en te hergebruiken om multi-view consistentie en temporele samenhang te waarborgen voor de gegenereerde multi-view video's, waardoor de trainingskosten aanzienlijk worden verlaagd. We introduceren verder alignatiemodules om de latente ruimtes van lagen uit de vooraf getrainde multi-view en 2D-videodiffusiemodellen uit te lijnen, waardoor de onverenigbaarheid van de hergebruikte lagen wordt aangepakt die ontstaat door het domeingat tussen 2D- en multi-view data. Ter ondersteuning van dit en toekomstig onderzoek dragen we verder een getiteld multi-view videodataset bij. Experimentele resultaten tonen aan dat onze methode hoogwaardige multi-view video's genereert, met levendige bewegingen, temporele samenhang en multi-view consistentie, gegeven een verscheidenheid aan tekstprompts.
In dit werk onderzoeken we hoe een robotsysteem kan worden gebouwd dat meerdere 3D-manipulatietaken kan uitvoeren op basis van taal instructies. Om nuttig te zijn in industriële en huishoudelijke domeinen, moet zo'n systeem in staat zijn nieuwe taken te leren met weinig demonstraties en deze nauwkeurig op te lossen. Eerdere werken, zoals PerAct en RVT, hebben dit probleem bestudeerd, maar ze hebben vaak moeite met taken die hoge precisie vereisen. Wij onderzoeken hoe we deze systemen effectiever, preciezer en sneller kunnen maken. Door een combinatie van architectonische en systeemniveau verbeteringen, stellen we RVT-2 voor, een multitask 3D-manipulatiemodel dat 6x sneller traint en 2x sneller inferentie uitvoert dan zijn voorganger RVT. RVT-2 behaalt een nieuwe state-of-the-art op RLBench, waarbij het slagingspercentage wordt verbeterd van 65% naar 82%. RVT-2 is ook effectief in de echte wereld, waar het taken die hoge precisie vereisen, zoals het oppakken en inpluggen van stekkers, kan leren met slechts 10 demonstraties. Visuele resultaten, code en het getrainde model zijn beschikbaar op: https://robotic-view-transformer-2.github.io/.
Nieuwe weergave akoestische synthese (NVAS) heeft als doel binauraal audio te renderen vanuit elk doelstandpunt, gegeven een mono-audio die wordt uitgezonden door een geluidsbron in een 3D-scène. Bestaande methoden hebben NeRF-gebaseerde impliciete modellen voorgesteld om visuele aanwijzingen te gebruiken als voorwaarde voor het synthetiseren van binauraal audio. Echter, naast de lage efficiëntie die voortkomt uit zware NeRF-rendering, hebben deze methoden allemaal een beperkt vermogen om de gehele scèneomgeving te karakteriseren, zoals ruimtegeometrie, materiaaleigenschappen en de ruimtelijke relatie tussen de luisteraar en de geluidsbron. Om deze problemen aan te pakken, stellen we een nieuw Audio-Visueel Gaussian Splatting (AV-GS) model voor. Om een materiaal- en geometriebewuste voorwaarde te verkrijgen voor audiosynthese, leren we een expliciete puntgebaseerde scèneweergave met een audio-geleidingsparameter op lokaal geïnitialiseerde Gaussische punten, waarbij rekening wordt gehouden met de ruimtelijke relatie tussen de luisteraar en de geluidsbron. Om het visuele scènemodel audio-adaptief te maken, stellen we een strategie voor puntverdichting en -snoei voor om de Gaussische punten optimaal te verdelen, met de per-punt bijdrage in geluidsvoortplanting (bijvoorbeeld meer punten nodig voor textuurloze wandoppervlakken omdat ze de geluidsbaanafbuiging beïnvloeden). Uitgebreide experimenten valideren de superioriteit van onze AV-GS ten opzichte van bestaande alternatieven op de real-world RWAS en de simulatiegebaseerde SoundSpaces datasets.
Het bereiken van hoog-resolutie novel view synthesis (HRNVS) vanuit laag-resolutie invoerbeelden is een uitdagende taak vanwege het gebrek aan hoog-resolutie data. Eerdere methoden optimaliseren een hoog-resolutie Neural Radiance Field (NeRF) vanuit laag-resolutie invoerbeelden, maar lijden onder een trage renderingsnelheid. In dit werk baseren we onze methode op 3D Gaussian Splatting (3DGS) vanwege zijn vermogen om hoogwaardige beelden te produceren met een snellere renderingsnelheid. Om het gebrek aan data voor hogere-resolutie synthese te verlichten, stellen we voor om gebruik te maken van bestaande 2D diffusie-priors door de 2D kennis te destilleren naar 3D met Score Distillation Sampling (SDS). Echter, het direct toepassen van SDS op Gaussiaanse 3D super-resolutie leidt tot ongewenste en redundante 3D Gaussiaanse primitieven, vanwege de willekeurigheid die wordt geïntroduceerd door generatieve priors. Om dit probleem te verlichten, introduceren we twee eenvoudige maar effectieve technieken om stochastische verstoringen veroorzaakt door SDS te verminderen. Specifiek 1) verkleinen we het bereik van de diffusie-tijdstap in SDS met een afkoelingsstrategie; 2) verwijderen we willekeurig redundante Gaussiaanse primitieven tijdens verdichting. Uitgebreide experimenten hebben aangetoond dat onze voorgestelde GaussainSR hoogwaardige resultaten kan bereiken voor HRNVS met alleen laag-resolutie invoer op zowel synthetische als real-world datasets. Projectpagina: https://chchnii.github.io/GaussianSR/
We presenteren MaskLID, een eenvoudige maar effectieve methode voor taalidentificatie (LID) bij codewisseling (CS). MaskLID vereist geen training en is ontworpen om huidige hoogpresterende LID's op zinsniveau aan te vullen. LID's op zinsniveau zijn classificatoren die getraind zijn op eentalige teksten om enkele labels te leveren, waarbij typisch een softmax-laag wordt gebruikt om scores om te zetten in waarschijnlijkheden. In gevallen waarin een zin echter is samengesteld in zowel L1- als L2-talen, retourneert de LID-classificatie vaak alleen het dominante label L1. Om deze beperking aan te pakken, gebruikt MaskLID een strategie om tekstkenmerken die geassocieerd zijn met L1 te maskeren, waardoor de LID de tekst in de volgende ronde als L2 kan classificeren. Deze methode gebruikt de LID zelf om de kenmerken te identificeren die gemaskeerd moeten worden en is niet afhankelijk van externe bronnen. In dit werk onderzoeken we het gebruik van MaskLID voor twee open-source LID's (GlotLID en OpenLID), die beide gebaseerd zijn op de FastText-architectuur. Code en een demo zijn beschikbaar op https://github.com/cisnlp/MaskLID.
Dit overzichtsartikel biedt een uitgebreid overzicht van onderzoeksrichtingen op het gebied van grote taalmmodellen (LLM's) voor Indiase talen. Indiase talen zijn de talen die worden gesproken op het Indiase subcontinent, waaronder India, Pakistan, Bangladesh, Sri Lanka, Nepal en Bhutan, onder andere. Deze talen hebben een rijke culturele en linguïstische erfenis en worden wereldwijd door meer dan 1,5 miljard mensen gesproken. Met het enorme marktpotentieel en de groeiende vraag naar op natuurlijke taalverwerking (NLP) gebaseerde toepassingen in diverse talen, bieden generatieve toepassingen voor Indiase talen unieke uitdagingen en kansen voor onderzoek. Ons artikel duikt diep in de recente ontwikkelingen op het gebied van generatieve modellering voor Indiase talen, en draagt bij met een taxonomie van onderzoeksrichtingen, waarbij 84 recente publicaties worden getabelleerd. De onderzoeksrichtingen die in dit artikel worden besproken, omvatten de ontwikkeling van LLM's, het finetunen van bestaande LLM's, de ontwikkeling van corpora, benchmarking en evaluatie, evenals publicaties over specifieke technieken, tools en toepassingen. We constateerden dat onderzoekers in de publicaties de nadruk leggen op de uitdagingen die gepaard gaan met beperkte databeschikbaarheid, een gebrek aan standaardisatie en de bijzondere linguïstische complexiteit van Indiase talen. Dit werk beoogt een waardevolle bron te zijn voor onderzoekers en praktijkmensen die werkzaam zijn op het gebied van NLP, met name voor hen die zich richten op Indiase talen, en draagt bij aan de ontwikkeling van nauwkeurigere en efficiëntere LLM-toepassingen voor deze talen.