Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We ontdekken dat, simpelweg via een steekproef-en-stemmethode, de prestaties van grote taalmodellen (LLM's) schalen met het aantal geïnstantieerde agents. Bovendien is deze methode orthogonaal aan bestaande complexe methoden om LLM's verder te verbeteren, terwijl de mate van verbetering gecorreleerd is aan de taakmoeilijkheidsgraad. We voeren uitgebreide experimenten uit op een breed scala aan LLM-benchmarks om de aanwezigheid van onze bevinding te verifiëren en om de eigenschappen te bestuderen die het optreden ervan kunnen bevorderen. Onze code is openbaar beschikbaar op: https://anonymous.4open.science/r/more_agent_is_all_you_need.
We stellen het probleem van conversatiegestuurde webnavigatie voor, waarbij een digitaal agent een webbrowser bestuurt en gebruikersinstructies volgt om real-world taken op te lossen in een multi-turn dialoogstijl. Om dit probleem te ondersteunen, introduceren we WEBLINX - een grootschalige benchmark van 100K interacties over 2300 expertdemonstraties van conversatiegestuurde webnavigatie. Onze benchmark bestrijkt een breed scala aan patronen op meer dan 150 real-world websites en kan worden gebruikt om agents te trainen en te evalueren in diverse scenario's. Vanwege de omvang van de aanwezige informatie kunnen Large Language Models (LLMs) niet in real-time volledige webpagina's verwerken. Om dit knelpunt op te lossen, ontwerpen we een op retrieval geïnspireerd model dat HTML-pagina's efficiënt uitdunt door relevante elementen te rangschikken. We gebruiken de geselecteerde elementen, samen met schermafbeeldingen en actiegeschiedenis, om een verscheidenheid aan modellen te beoordelen op hun vermogen om menselijk gedrag na te bootsen bij het navigeren op het web. Onze experimenten variëren van kleine tekst-only modellen tot propriëtaire multimodale LLMs. We ontdekken dat kleinere gefinetunede decoders de beste zero-shot LLMs (inclusief GPT-4V) overtreffen, maar ook grotere gefinetunede multimodale modellen die expliciet zijn voorgetraind op schermafbeeldingen. Echter, alle gefinetunede modellen hebben moeite om te generaliseren naar onbekende websites. Onze bevindingen benadrukken de noodzaak voor grote multimodale modellen die kunnen generaliseren naar nieuwe omgevingen. Onze code, data en modellen zijn beschikbaar voor onderzoek: https://mcgill-nlp.github.io/weblinx
De ontwikkeling van kunstmatige intelligentiesystemen maakt een overgang door van het creëren van statische, taakspecifieke modellen naar dynamische, agent-gebaseerde systemen die goed presteren in een breed scala aan toepassingen. Wij stellen een Interactief Agent Foundation Model voor dat gebruikmaakt van een nieuw multi-task agent-trainingsparadigma voor het trainen van AI-agenten over een breed scala aan domeinen, datasets en taken. Ons trainingsparadigma verenigt diverse pre-trainingsstrategieën, waaronder visuele gemaskeerde auto-encoders, taalmodellering en volgende-actievoorspelling, waardoor een veelzijdig en aanpasbaar AI-raamwerk mogelijk wordt. We demonstreren de prestaties van ons raamwerk in drie afzonderlijke domeinen: Robotica, Gaming AI en Gezondheidszorg. Ons model toont zijn vermogen om betekenisvolle en contextueel relevante uitvoer te genereren in elk van deze gebieden. De kracht van onze aanpak ligt in de algemeenheid, waarbij gebruik wordt gemaakt van diverse gegevensbronnen zoals robotica-sequenties, gameplaygegevens, grootschalige videodatasets en tekstuele informatie voor effectief multimodaal en multi-task leren. Onze aanpak biedt een veelbelovende weg voor de ontwikkeling van generalistische, actie-onderneemende, multimodale systemen.
Grote Taalmodellen (LLMs) hebben een opmerkelijke vaardigheid getoond in het begrijpen en genereren van natuurlijke taal. Hun capaciteiten nemen echter af in sterk gespecialiseerde domeinen die ondervertegenwoordigd zijn in de pretrainingscorpus, zoals de natuur- en biomedische wetenschappen. Dit onderzoek verkent hoe algemene LLMs kunnen worden omgevormd tot effectieve taakoplossers voor gespecialiseerde domeinen. We introduceren een nieuw, model-agnostisch raamwerk voor het leren van aangepaste invoertags, die geparameteriseerd worden als continue vectoren die worden toegevoegd aan de embeddinglaag van het LLM, om het LLM te conditioneren. We ontwerpen twee soorten invoertags: domeintags worden gebruikt om gespecialiseerde representaties af te bakenen (bijvoorbeeld chemische formules) en domeinrelevante context te bieden; functietags worden gebruikt om specifieke functies te representeren (bijvoorbeeld het voorspellen van moleculaire eigenschappen) en instructies voor het oplossen van functies samen te vatten. We ontwikkelen een driestappenprotocol om deze tags te leren met behulp van aanvullende data en domeinkennis. Door taakdomeinen expliciet te scheiden van taakfuncties, maakt onze methode zero-shot generalisatie mogelijk naar onbekende problemen door diverse combinaties van de invoertags. Het verbetert ook de prestaties van LLMs in verschillende gespecialiseerde domeinen, zoals het voorspellen van eiwit- of chemische eigenschappen en het modelleren van geneesmiddel-doelwitinteracties, en overtreft daarbij expertsystemen die specifiek voor deze taken zijn ontworpen.
Dit technisch rapport presenteert de trainingsmethodologie en evaluatieresultaten van de open-source multilinguele E5 tekstembeddingmodellen, uitgebracht in midden 2023. Drie embeddingmodellen van verschillende groottes (klein / basis / groot) worden aangeboden, die een balans bieden tussen inferentie-efficiëntie en embeddingkwaliteit. Het trainingsproces volgt het recept van het Engelse E5-model, waarbij contrastieve voorafgaande training plaatsvindt op 1 miljard multilinguele tekstparen, gevolgd door fine-tuning op een combinatie van gelabelde datasets. Daarnaast introduceren we een nieuw instructie-getuned embeddingmodel, waarvan de prestaties gelijk zijn aan state-of-the-art, alleen-Engelse modellen van vergelijkbare groottes. Informatie over de modelrelease is te vinden op https://github.com/microsoft/unilm/tree/master/e5.
Ondanks de recente vooruitgang in gepersonaliseerde tekst-naar-beeld (P-T2I) generatieve modellen, blijft onderwerpgedreven T2I een uitdaging. De belangrijkste knelpunten zijn: 1) Intensieve trainingsresourcevereisten, 2) Hyperparametergevoeligheid die leidt tot inconsistente resultaten, en 3) Het balanceren van de complexiteit van nieuwe visuele concepten en compositie-uitlijning. We beginnen met het herhalen van de kernfilosofie van T2I diffusiemodellen om de bovenstaande beperkingen aan te pakken. Overwegend zijn hedendaagse onderwerpgedreven T2I-benaderingen gebaseerd op Latent Diffusion Models (LDMs), die T2I-mapping mogelijk maken via cross-attention lagen. Hoewel LDMs duidelijke voordelen bieden, verhoogt de afhankelijkheid van P-T2I-methoden op de latente ruimte van deze diffusiemodellen de resourcebehoeften aanzienlijk, wat leidt tot inconsistente resultaten en talrijke iteraties vereist voor een enkel gewenst beeld. Recentelijk heeft ECLIPSE een resource-efficiëntere weg getoond voor het trainen van UnCLIP-gebaseerde T2I-modellen, waardoor de noodzaak voor diffusie tekst-naar-beeld priors wordt omzeild. Hierop voortbouwend introduceren we lambda-ECLIPSE. Onze methode toont aan dat effectieve P-T2I niet noodzakelijk afhankelijk is van de latente ruimte van diffusiemodellen. lambda-ECLIPSE bereikt enkelvoudige, multi-onderwerp en edge-geleide T2I-personalisatie met slechts 34M parameters en wordt getraind in slechts 74 GPU-uren met behulp van 1,6M beeld-tekst interleaved data. Door uitgebreide experimenten stellen we ook vast dat lambda-ECLIPSE bestaande baseline-methoden overtreft in compositie-uitlijning terwijl het de concept-uitlijning prestaties behoudt, zelfs met aanzienlijk lagere resource-utilisatie.
In-context learning (ICL, ook bekend als few-shot prompting) is de standaardmethode geweest om grote taalmodellen (LLMs) aan te passen aan downstream taken, door te leren van een paar invoer-uitvoervoorbeelden. Echter, alle ICL-gebaseerde benaderingen leren alleen van correcte invoer-uitvoerparen. In dit artikel herzien we dit paradigma door meer te leren van de weinige gegeven invoer-uitvoervoorbeelden. We introduceren Learning Principles (LEAP): eerst zorgen we er opzettelijk voor dat het model fouten maakt op deze weinige voorbeelden; vervolgens reflecteren we op deze fouten en leren expliciete taakspecifieke "principes" ervan, die helpen bij het oplossen van vergelijkbare problemen en het vermijden van veelgemaakte fouten; ten slotte vragen we het model om onbekende testvragen te beantwoorden met behulp van de originele few-shot voorbeelden en deze geleerde algemene principes. We evalueren LEAP op een breed scala aan benchmarks, waaronder multi-hop vraagbeantwoording (Hotpot QA), tekstuele vraagbeantwoording (DROP), Big-Bench Hard redenering, en wiskundige problemen (GSM8K en MATH); in al deze benchmarks verbetert LEAP de sterkst beschikbare LLMs zoals GPT-3.5-turbo, GPT-4, GPT-4 turbo en Claude-2.1. Zo verbetert LEAP bijvoorbeeld de standaard few-shot prompting met GPT-4 met 7,5% in DROP, en met 3,3% in HotpotQA. Belangrijk is dat LEAP niet meer invoer of voorbeelden vereist dan de standaard few-shot prompting instellingen.
Wij stellen SPHINX-X voor, een uitgebreide Multimodaliteit Grote Taalmodel (MLLM)-serie ontwikkeld op basis van SPHINX. Om de architectuur en trainings efficiëntie te verbeteren, passen we het SPHINX-framework aan door overbodige visuele encoders te verwijderen, volledig opgevulde subafbeeldingen over te slaan met skip-tokens, en de multi-fase training te vereenvoudigen tot een een-fase all-in-one paradigma. Om het volledige potentieel van MLLMs te benutten, stellen we een uitgebreide multi-domein en multimodale dataset samen die openbaar beschikbare bronnen omvat op het gebied van taal, visie en visie-taal taken. We verrijken deze collectie verder met onze samengestelde OCR-intensieve en Set-of-Mark datasets, waardoor de diversiteit en algemeenheid worden uitgebreid. Door te trainen op verschillende basis-LLMs, waaronder TinyLlama1.1B, InternLM2-7B, LLaMA2-13B en Mixtral8x7B, verkrijgen we een spectrum van MLLMs die variëren in parameter grootte en meertalige capaciteiten. Uitgebreide benchmarking onthult een sterke correlatie tussen de multimodale prestaties en de schaal van de data en parameters. Code en modellen zijn vrijgegeven op https://github.com/Alpha-VLLM/LLaMA2-Accessory.
We introduceren SPIRIT-LM, een multimodaal basis-taalmodel dat vrijelijk tekst en spraak combineert. Ons model is gebaseerd op een vooraf getraind teksttaalmodel dat we uitbreiden naar de spraakmodaliteit door het continu te trainen op tekst- en spraakeenheden. Spraak- en tekstsequenties worden samengevoegd als een enkele set tokens en getraind met een woordniveau interleaving-methode met behulp van een klein automatisch samengesteld spraak-tekst parallel corpus. SPIRIT-LM is beschikbaar in twee versies: een BASIS-versie die semantische spraakeenheden gebruikt en een EXPRESSIEVE versie die expressiviteit modelleert met behulp van toonhoogte- en stijleenheden naast de semantische eenheden. Voor beide versies wordt de tekst gecodeerd met subwoord BPE-tokens. Het resulterende model vertoont zowel de semantische vaardigheden van tekstmodellen als de expressieve vaardigheden van spraakmodellen. Daarnaast tonen we aan dat SPIRIT-LM in staat is om nieuwe taken te leren in een few-shot manier over modaliteiten heen (d.w.z. ASR, TTS, Spraakclassificatie).
In dit artikel introduceren we een nieuw paradigma om het vermogen van objectdetectoren te verbeteren, bijvoorbeeld door het uitbreiden van categorieën of het verbeteren van de detectieprestaties, door te trainen op een synthetische dataset gegenereerd door diffusiemodellen. Specifiek integreren we een instance-level grounding head in een vooraf getraind, generatief diffusiemodel, om het uit te rusten met het vermogen om willekeurige instanties in de gegenereerde afbeeldingen te lokaliseren. De grounding head wordt getraind om de tekstembedding van categorienamen uit te lijnen met de regionale visuele kenmerken van het diffusiemodel, met behulp van supervisie van een kant-en-klare objectdetector en een nieuw zelf-trainingsschema voor (nieuwe) categorieën die niet door de detector worden gedekt. Deze verbeterde versie van het diffusiemodel, genaamd InstaGen, kan dienen als een datasynthesizer voor objectdetectie. We voeren uitgebreide experimenten uit om aan te tonen dat objectdetectoren kunnen worden verbeterd door te trainen op de synthetische dataset van InstaGen, wat superieure prestaties laat zien ten opzichte van bestaande state-of-the-art methoden in open-vocabulary (+4,5 AP) en data-schaarse (+1,2 tot 5,2 AP) scenario's.
De meeste transformer-gebaseerde video-encoders zijn beperkt tot korte temporele contexten vanwege hun kwadratische complexiteit. Hoewel diverse pogingen zijn gedaan om deze context uit te breiden, ging dit vaak ten koste van zowel conceptuele als computationale complexiteit. Wij stellen voor om in plaats daarvan bestaande vooraf getrainde video-transformers te hergebruiken door ze eenvoudigweg te fine-tunen om aandacht te besteden aan geheugens die niet-parametrisch zijn afgeleid van eerdere activaties. Door gebruik te maken van redundantiereductie breidt onze geheugen-geconsolideerde vision transformer (MC-ViT) moeiteloos zijn context ver terug in de tijd uit en vertoont hij uitstekende schaalbaarheid bij het leren van langere video's. Hiermee vestigt MC-ViT een nieuwe state-of-the-art in langetermijn-videobegrip op EgoSchema, Perception Test en Diving48, en overtreft hij methoden die profiteren van ordes van grootte meer parameters.
Vision-Language (VL) modellen hebben aanzienlijke onderzoeksaandacht gekregen, wat opmerkelijke vooruitgang heeft mogelijk gemaakt in multimodale redenering. Deze architecturen bestaan typisch uit een vision-encoder, een Large Language Model (LLM), en een projectiemodule die visuele kenmerken afstemt op de representatieruimte van het LLM. Ondanks hun succes blijft een kritische beperking bestaan: het vision-encodingproces blijft losgekoppeld van gebruikersvragen, vaak in de vorm van beeldgerelateerde vragen. Hierdoor zijn de resulterende visuele kenmerken mogelijk niet optimaal afgestemd op de vraag-specifieke elementen van de afbeelding. Om dit aan te pakken, introduceren we QA-ViT, een Question Aware Vision Transformer-benadering voor multimodale redenering, die vraagbewustzijn direct integreert in de vision-encoder. Deze integratie resulteert in dynamische visuele kenmerken die zich richten op relevante aspecten van de afbeelding in relatie tot de gestelde vraag. QA-ViT is model-agnostisch en kan efficiënt worden geïntegreerd in elke VL-architectuur. Uitgebreide experimenten tonen de effectiviteit aan van het toepassen van onze methode op verschillende multimodale architecturen, wat leidt tot consistente verbeteringen bij diverse taken en het potentieel ervan aantoont voor het verbeteren van visueel en scenetekstbegrip.
We presenteren een nieuw algoritme om distributies te optimaliseren die impliciet worden gedefinieerd door geparameteriseerde stochastische diffusies. Hierdoor kunnen we de uitkomstdistributie van steekproefprocessen aanpassen door hun parameters te optimaliseren. We introduceren een algemeen raamwerk voor eerstegraads optimalisatie van deze processen, waarbij optimalisatie- en steekproefstappen gezamenlijk in één lus worden uitgevoerd. Deze aanpak is geïnspireerd door recente vooruitgang in bilevel optimalisatie en automatische impliciete differentiatie, waarbij het steekproefproces wordt benaderd als optimalisatie over de ruimte van kansverdelingen. We bieden theoretische garanties voor de prestaties van onze methode, evenals experimentele resultaten die de effectiviteit ervan in praktijksituaties aantonen.
We tonen aan dat offline actor-critic reinforcement learning kan schalen naar grote modellen - zoals transformers - en vergelijkbare schaalwetten volgt als supervised learning. We ontdekken dat offline actor-critic algoritmen sterke, supervised, behavioral cloning-baselines kunnen overtreffen voor multi-task training op een grote dataset die zowel suboptimale als expertgedrag bevat voor 132 continue controle-taken. We introduceren een Perceiver-gebaseerd actor-critic model en verduidelijken de belangrijkste modelkenmerken die nodig zijn om offline RL te laten werken met self- en cross-attention modules. Over het algemeen concluderen we dat: i) eenvoudige offline actor-critic algoritmen een natuurlijke keuze zijn om geleidelijk af te stappen van het huidige, overheersende paradigma van behavioral cloning, en ii) het via offline RL mogelijk is om multi-task beleidsregels te leren die veel domeinen tegelijk beheersen, inclusief echte robotica-taken, vanuit suboptimale demonstraties of zelf gegenereerde data.
Het aanpassen van rijgedrag aan nieuwe omgevingen, gewoonten en wetten is een lang bestaand probleem in autonoom rijden, wat de wijdverspreide inzet van autonome voertuigen (AV's) belemmert. In dit artikel presenteren we LLaDA, een eenvoudig maar krachtig hulpmiddel dat zowel menselijke bestuurders als autonome voertuigen in staat stelt overal te rijden door hun taken en bewegingsplannen aan te passen aan de verkeersregels in nieuwe locaties. LLaDA bereikt dit door gebruik te maken van de indrukwekkende zero-shot generaliseerbaarheid van grote taalmodellen (LLM's) bij het interpreteren van de verkeersregels in het lokale rijhandboek. Door een uitgebreide gebruikersstudie tonen we aan dat de instructies van LLaDA nuttig zijn bij het ophelderen van onverwachte situaties in de praktijk. We demonstreren ook het vermogen van LLaDA om AV-bewegingsplanningsbeleid aan te passen in real-world datasets; LLaDA presteert beter dan baseline planningsbenaderingen op al onze metrieken. Bekijk onze website voor meer details: https://boyiliee.github.io/llada.