Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De afgelopen jaren zijn er opmerkelijke vooruitgangen geboekt in de prestaties van Transformer-gebaseerde Large Language Models (LLMs) in verschillende domeinen. Naarmate deze LLMs worden ingezet voor steeds complexere taken, worden ze vaak geconfronteerd met de noodzaak om langere redeneerprocessen uit te voeren of grotere contexten te begrijpen. In deze situaties wordt het falen van LLMs in lengtegeneralizatie bij lange sequenties steeds duidelijker. De meeste voorafgaande trainingsschema's beperken trainingssequenties tot een vaste lengte (zoals 2048 voor LLaMa). LLMs hebben vaak moeite om vloeiende teksten te genereren, laat staan downstream taken uit te voeren, na langere contexten, zelfs met relatieve positionele codering die is ontworpen om dit probleem aan te pakken. Veelvoorkomende oplossingen zoals finetunen op langere corpora gaan vaak gepaard met aanzienlijke hardware- en tijdskosten en vereisen een zorgvuldige ontwerp van het trainingsproces. Om het generatievermogen van bestaande LLMs efficiënter te benutten, onderzoeken we theoretisch en empirisch de belangrijkste out-of-distribution (OOD) factoren die bijdragen aan dit probleem. Geïnspireerd door deze diagnose stellen we een eenvoudige maar effectieve oplossing voor voor on-the-fly lengtegeneralizatie, LM-Infinite, die alleen een Lambda-vormig aandachtmasker en een afstandslimiet omvat en geen parameterupdates of leren vereist. We vinden het toepasbaar op een verscheidenheid aan LLMs die relatieve-positioneringscoderingmethoden gebruiken. LM-Infinite is computationeel efficiënt met O(n) tijd en ruimte, en toont consistente vloeiendheid en generatiekwaliteit tot wel 32k tokens op ArXiv en OpenWebText2 datasets, met een 2,72x versnelling in decodering. Bij downstream taken zoals passkey retrieval blijft het werken op invoer die veel langer is dan de trainingslengtes waarop standaardmodellen direct falen.
Multi-modale grote taalmodellen hebben recentelijk aanzienlijke belangstelling gekregen. Hoewel de meeste werken zich richten op visie-taal multi-modale modellen die sterke mogelijkheden bieden in het volgen van visie- en taal-instructies, stellen wij dat spraak ook een belangrijke modaliteit is waarmee mensen interacteren met de wereld. Daarom is het cruciaal dat een algemeen doel dienende assistent in staat is om multi-modale spraak- en taal-instructies te volgen. In dit werk stellen we het Large Language and Speech Model (LLaSM) voor. LLaSM is een end-to-end getraind groot multi-modale spraak-taal model met cross-modale conversatievaardigheden, dat in staat is om spraak- en taal-instructies te volgen. Onze vroege experimenten tonen aan dat LLaSM een handiger en natuurlijkere manier biedt voor mensen om te interacteren met kunstmatige intelligentie. Specifiek brengen we ook een grote Speech Instruction Following dataset uit, genaamd LLaSM-Audio-Instructions. Code en demo zijn beschikbaar op https://github.com/LinkSoul-AI/LLaSM en https://huggingface.co/spaces/LinkSoul/LLaSM. De LLaSM-Audio-Instructions dataset is beschikbaar op https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
We introduceren Jais en Jais-chat, nieuwe state-of-the-art Arabisch-gerichte foundation en instruction-tuned open generatieve grote taalmodellen (LLMs). De modellen zijn gebaseerd op de GPT-3 decoder-only architectuur en zijn voorgetraind op een mix van Arabische en Engelse teksten, inclusief broncode in verschillende programmeertalen. Met 13 miljard parameters tonen ze betere kennis en redeneervaardigheden in het Arabisch aan dan enig bestaand open Arabisch en meertalig model met een aanzienlijke marge, gebaseerd op uitgebreide evaluatie. Bovendien zijn de modellen competitief in het Engels vergeleken met Engels-gerichte open modellen van vergelijkbare grootte, ondanks dat ze op veel minder Engelse data zijn getraind. We bieden een gedetailleerde beschrijving van de training, de tuning, de veiligheidsafstemming en de evaluatie van de modellen. We brengen twee open versies van het model uit -- het foundation Jais-model en een instruction-tuned Jais-chat variant -- met als doel onderzoek naar Arabische LLMs te bevorderen. Beschikbaar op https://huggingface.co/inception-mbzuai/jais-13b-chat.
Om robots nuttig te maken buiten laboratoria en gespecialiseerde fabrieken, hebben we een manier nodig om hen snel nieuwe nuttige gedragingen aan te leren. Huidige benaderingen missen ofwel de algemeenheid om nieuwe taken aan te leren zonder taakspecifieke engineering, ofwel de data-efficiëntie om dit te doen in een tijdsbestek dat praktisch gebruik mogelijk maakt. In dit werk onderzoeken we dense tracking als een representatiemiddel om sneller en algemener te leren van demonstraties. Onze aanpak maakt gebruik van Track-Any-Point (TAP) modellen om de relevante beweging in een demonstratie te isoleren en een low-level controller te parametriseren om deze beweging te reproduceren bij veranderingen in de scèneconfiguratie. We laten zien dat dit resulteert in robuuste robotbeleidsregels die complexe objectrangschikkings-taken kunnen oplossen, zoals vormherkenning, stapelen, en zelfs volledige padvolgings-taken zoals het aanbrengen van lijm en het aan elkaar plakken van objecten, allemaal op basis van demonstraties die binnen enkele minuten kunnen worden verzameld.
WeatherBench 2 is een update van het wereldwijde, middellange-termijn (1-14 dagen) weersvoorspellingsbenchmark voorgesteld door Rasp et al. (2020), ontworpen met als doel de vooruitgang in data-gedreven weermodellering te versnellen. WeatherBench 2 bestaat uit een open-source evaluatieraamwerk, publiek beschikbare trainings-, grondwaarheids- en basislijngegevens, evenals een continu bijgewerkte website met de nieuwste metrieken en state-of-the-art modellen: https://sites.research.google/weatherbench. Dit artikel beschrijft de ontwerp principes van het evaluatieraamwerk en presenteert resultaten voor huidige state-of-the-art fysische en data-gedreven weermodellen. De metrieken zijn gebaseerd op gevestigde praktijken voor het evalueren van weersvoorspellingen bij toonaangevende operationele weerscentra. We definiëren een set hoofdscores om een overzicht te geven van de modelprestaties. Daarnaast bespreken we ook de beperkingen in de huidige evaluatieopzet en uitdagingen voor de toekomst van data-gedreven weersvoorspelling.
Het leren van strategisch robotgedrag -- zoals vereist in achtervolgings- en ontwijkingsinteracties -- onder real-world beperkingen is buitengewoon uitdagend. Het vereist het benutten van de dynamiek van de interactie en het plannen door zowel fysieke toestand als latente intentieonzekerheid. In dit artikel transformeren we dit onhanteerbare probleem naar een supervised learning-probleem, waarbij een volledig waarneembaar robotbeleid supervisie genereert voor een gedeeltelijk waarneembaar beleid. We ontdekken dat de kwaliteit van het supervisiesignaal voor het gedeeltelijk waarneembare achtervolgersbeleid afhangt van twee cruciale factoren: de balans tussen diversiteit en optimaliteit van het gedrag van de ontwijker en de sterkte van de modelaannames in het volledig waarneembare beleid. We implementeren ons beleid op een fysieke viervoetige robot met een RGB-D-camera voor achtervolgings- en ontwijkingsinteracties in de praktijk. Ondanks alle uitdagingen brengen de sensorische beperkingen creativiteit teweeg: de robot wordt gedwongen om informatie te verzamelen bij onzekerheid, intentie te voorspellen uit ruisige metingen en anticiperend te handelen om te onderscheppen. Projectwebpagina: https://abajcsy.github.io/vision-based-pursuit/