Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit artikel presenteren we OtterHD-8B, een innovatief multimodaal model dat is geëvolueerd uit Fuyu-8B en specifiek is ontworpen om hoogwaardige visuele invoer met gedetailleerde precisie te interpreteren. In tegenstelling tot conventionele modellen die beperkt worden door vaste grootte van visuele encoders, beschikt OtterHD-8B over de mogelijkheid om flexibele invoerdimensies te verwerken, wat de veelzijdigheid ervan waarborgt voor diverse inferentiebehoeften. Naast dit model introduceren we MagnifierBench, een evaluatieraamwerk dat is ontworpen om het vermogen van modellen om fijne details en ruimtelijke relaties van kleine objecten te onderscheiden, grondig te onderzoeken. Onze vergelijkende analyse toont aan dat terwijl huidige toonaangevende modellen falen op deze benchmark, OtterHD-8B, met name bij het direct verwerken van hoogwaardige invoer, zijn tegenhangers met een aanzienlijke marge overtreft. De bevindingen belichten de structurele verschillen in visuele informatieverwerking tussen verschillende modellen en de invloed die de verschillen in pre-trainingsresolutie van visuele encoders hebben op de effectiviteit van modellen binnen dergelijke benchmarks. Onze studie benadrukt de cruciale rol van flexibiliteit en hoogwaardige invoermogelijkheden in grote multimodale modellen en illustreert tevens het potentieel dat inherent is aan de eenvoud van de Fuyu-architectuur voor het verwerken van complexe visuele data.
Multi-modale Large Language Models (MLLMs) hebben indrukwekkende instructievaardigheden getoond bij diverse open-ended taken. Eerdere methoden richtten zich echter voornamelijk op het verbeteren van multi-modale capaciteiten. In dit werk introduceren we een veelzijdig multi-modale large language model, mPLUG-Owl2, dat effectief gebruikmaakt van modale samenwerking om de prestaties in zowel tekst- als multi-modale taken te verbeteren. mPLUG-Owl2 maakt gebruik van een gemodulariseerd netwerkontwerp, waarbij de taaldecoder fungeert als een universele interface voor het beheren van verschillende modaliteiten. Specifiek integreert mPLUG-Owl2 gedeelde functionele modules om modale samenwerking te vergemakkelijken en introduceert het een modaal-adaptieve module die modaal-specifieke kenmerken behoudt. Uitgebreide experimenten tonen aan dat mPLUG-Owl2 in staat is om zowel teksttaken als multi-modale taken te generaliseren en state-of-the-art prestaties te behalen met een enkel generiek model. Opmerkelijk is dat mPLUG-Owl2 het eerste MLLM-model is dat het fenomeen van modale samenwerking aantoont in zowel pure tekst- als multi-modale scenario's, waarmee het een baanbrekend pad uitzet in de ontwikkeling van toekomstige multi-modale foundation models.
Recente ontwikkelingen in Large Language Models (LLMs) hebben besluitvorming gerevolutioneerd door complexe problemen op te delen in beter beheersbare taalreeksen, aangeduid als "gedachten". Een effectief gedachtenontwerp moet rekening houden met drie belangrijke perspectieven: prestaties, efficiëntie en flexibiliteit. Bestaande gedachten kunnen echter maximaal twee van deze eigenschappen vertonen. Om deze beperkingen aan te pakken, introduceren we een nieuwe benadering voor gedachtenprompting genaamd "Everything of Thoughts" (XoT) om de wet van de "Penrose-driehoek van bestaande gedachtenparadigma's" te doorbreken. XoT maakt gebruik van vooraf getrainde reinforcement learning en Monte Carlo Tree Search (MCTS) om externe domeinkennis in gedachten te integreren, waardoor de mogelijkheden van LLMs worden verbeterd en ze in staat worden gesteld om efficiënt te generaliseren naar onbekende problemen. Door het gebruik van het MCTS-LLM collaboratieve gedachtenrevisiekader produceert deze aanpak autonoom hoogwaardige, uitgebreide cognitieve mapping met minimale LLM-interacties. Bovendien stelt XoT LLMs in staat om onbeperkt te denken, waardoor flexibele cognitieve mapping mogelijk wordt voor problemen met meerdere oplossingen.
Naarmate Large Language Models (LLMs) steeds vaker worden ingezet met verantwoordelijkheden in de echte wereld, is het belangrijk om het gedrag van deze systemen op een betrouwbare manier te kunnen specificeren en beperken. Ontwikkelaars van modellen willen mogelijk expliciete regels instellen, zoals "genereer geen beledigende inhoud", maar deze kunnen worden omzeild door jailbreaking-technieken. Het evalueren van hoe goed LLMs door ontwikkelaars opgestelde regels volgen in het licht van adversariële inputs vereist doorgaans handmatige controle, wat het monitoren en de ontwikkeling van methoden vertraagt. Om dit probleem aan te pakken, stellen we Rule-following Language Evaluation Scenarios (RuLES) voor, een programmatisch raamwerk voor het meten van het regelvolggedrag in LLMs. RuLES bestaat uit 15 eenvoudige tekstscenario's waarin het model wordt geïnstrueerd om een reeks regels in natuurlijke taal te volgen tijdens interactie met de menselijke gebruiker. Elk scenario heeft een beknopt evaluatieprogramma om te bepalen of het model regels heeft overtreden in een gesprek. Door handmatig het modelgedrag in onze scenario's te verkennen, identificeren we 6 categorieën van aanvalsstrategieën en verzamelen we twee sets testcases: één bestaande uit unieke gesprekken uit handmatige tests en één die strategieën uit de 6 categorieën systematisch implementeert. Over verschillende populaire propriëtaire en open modellen zoals GPT-4 en Llama 2, vinden we dat alle modellen kwetsbaar zijn voor een breed scala aan adversariële, handmatig gemaakte gebruikersinputs, hoewel GPT-4 het best presterende model is. Daarnaast evalueren we open modellen onder gradient-gebaseerde aanvallen en vinden we significante kwetsbaarheden. We stellen RuLES voor als een uitdagende nieuwe setting voor onderzoek naar het verkennen en verdedigen tegen zowel handmatige als automatische aanvallen op LLMs.
De akoestische eigenschappen van een ruimte zijn een resultaat van de geometrie van de ruimte, de objecten in de ruimte en hun specifieke posities. De akoestische eigenschappen van een ruimte kunnen worden gekarakteriseerd door de impulsrespons (RIR) tussen een bron en een luisterlocatie, of ruwweg worden afgeleid uit opnames van natuurlijke signalen in de ruimte. Variaties in de posities van objecten in een ruimte kunnen meetbare veranderingen in de akoestische eigenschappen van de ruimte veroorzaken, zoals gekarakteriseerd door de RIR. Bestaande datasets van RIR's variëren de posities van objecten in een omgeving niet systematisch, of bestaan alleen uit gesimuleerde RIR's. Wij presenteren SoundCam, de grootste dataset van unieke RIR's uit realistische ruimtes die tot nu toe openbaar is vrijgegeven. Deze omvat 5.000 10-kanaals metingen van impulsresponsen in de echte wereld en 2.000 10-kanaals opnames van muziek in drie verschillende ruimtes, waaronder een gecontroleerd akoestisch lab, een realistische woonkamer en een vergaderzaal, met verschillende mensen in posities verspreid door elke ruimte. We laten zien dat deze metingen kunnen worden gebruikt voor interessante taken, zoals het detecteren en identificeren van mensen, en het volgen van hun posities.
Neural MMO 2.0 is een omgeving voor massaal multi-agent onderzoek in reinforcement learning. Het belangrijkste kenmerk van deze nieuwe versie is een flexibel taaksysteem waarmee gebruikers een breed scala aan doelen en beloningssignalen kunnen definiëren. We dagen onderzoekers uit om agents te trainen die in staat zijn te generaliseren naar taken, kaarten en tegenstanders die niet tijdens de training zijn gezien. Neural MMO beschikt over procedureel gegenereerde kaarten met 128 agents in de standaardinstelling en ondersteunt tot. Versie 2.0 is een volledige herschrijving van zijn voorganger met een drievoudige prestatieverbetering en compatibiliteit met CleanRL. We brengen het platform uit als gratis en open-source software met uitgebreide documentatie beschikbaar op neuralmmo.github.io en een actieve community Discord. Om initieel onderzoek op dit nieuwe platform te stimuleren, organiseren we gelijktijdig een competitie op NeurIPS 2023.
Conventionele video-matting produceert één alpha-matte voor alle instanties die in een videoframe voorkomen, waardoor individuele instanties niet worden onderscheiden. Hoewel video-instantie-segmentatie tijdconsistente instantiemaskers biedt, zijn de resultaten onbevredigend voor matting-toepassingen, met name vanwege de toegepaste binarisering. Om dit tekort te verhelpen, stellen we Video Instance Matting~(VIM) voor, dat wil zeggen het schatten van alpha-mattes van elke instantie in elk frame van een videosequentie. Om dit uitdagende probleem aan te pakken, presenteren we MSG-VIM, een Mask Sequence Guided Video Instance Matting neuraal netwerk, als een nieuw basislijnmodel voor VIM. MSG-VIM maakt gebruik van een mix van masker-augmentaties om voorspellingen robuust te maken tegen onnauwkeurige en inconsistente maskerbegeleiding. Het integreert temporele masker- en temporele kenmerkbegeleiding om de temporele consistentie van alpha-matte-voorspellingen te verbeteren. Bovendien bouwen we een nieuwe benchmark voor VIM, genaamd VIM50, die bestaat uit 50 videoclips met meerdere menselijke instanties als voorgrondobjecten. Om prestaties op de VIM-taak te evalueren, introduceren we een geschikte metriek genaamd Video Instance-aware Matting Quality~(VIMQ). Ons voorgestelde model MSG-VIM stelt een sterke basislijn op de VIM50-benchmark en overtreft bestaande methoden met een grote marge. Het project is open-source beschikbaar op https://github.com/SHI-Labs/VIM.
Naarmate grote taalmodellen steeds vaker worden gebruikt, vormen hun mogelijke schadelijke of ongepaste reacties een bron van zorg. Dit artikel introduceert een unieke dataset met tegenvoorbeelden in de vorm van vragen, die we AttaQ noemen, ontworpen om dergelijke schadelijke of ongepaste reacties uit te lokken. We beoordelen de effectiviteit van onze dataset door de kwetsbaarheden van verschillende modellen te analyseren wanneer ze hieraan worden blootgesteld. Daarnaast introduceren we een nieuwe automatische aanpak voor het identificeren en benoemen van kwetsbare semantische regio's - semantische invoergebieden waarvoor het model waarschijnlijk schadelijke uitvoer produceert. Dit wordt bereikt door de toepassing van gespecialiseerde clusteringtechnieken die zowel de semantische gelijkenis van de invoeraanvallen als de schadelijkheid van de reacties van het model in overweging nemen. Het automatisch identificeren van kwetsbare semantische regio's verbetert de evaluatie van modelzwakheden, wat gerichte verbeteringen aan de veiligheidsmechanismen en de algehele betrouwbaarheid ervan vergemakkelijkt.
Zelfgesuperviseerd representatieleren is sterk afhankelijk van data-augmentaties om de invarianties te specificeren die in representaties zijn gecodeerd. Eerder onderzoek heeft aangetoond dat het toepassen van diverse data-augmentaties cruciaal is voor de prestaties in downstream taken, maar augmentatietechnieken blijven onderbelicht. In dit werk stellen we een nieuwe familie van lokale transformaties voor, gebaseerd op Gaussische willekeurige velden, om beeldaugmentaties te genereren voor zelfgesuperviseerd representatieleren. Deze transformaties generaliseren de goed ingeburgerde affiene en kleurtransformaties (translatie, rotatie, kleurjitter, etc.) en vergroten de ruimte van augmentaties aanzienlijk door toe te staan dat transformatieparameterwaarden per pixel variëren. De parameters worden behandeld als continue functies van ruimtelijke coördinaten en gemodelleerd als onafhankelijke Gaussische willekeurige velden. Empirische resultaten tonen de effectiviteit van de nieuwe transformaties voor zelfgesuperviseerd representatieleren. Specifiek behalen we een verbetering van 1,7% in top-1 nauwkeurigheid ten opzichte van de baseline op downstream classificatie van ImageNet, en een verbetering van 3,6% op downstream classificatie van out-of-distribution iNaturalist. Echter, vanwege de flexibiliteit van de nieuwe transformaties, zijn geleerde representaties gevoelig voor hyperparameters. Hoewel milde transformaties representaties verbeteren, observeren we dat sterke transformaties de structuur van een beeld kunnen aantasten, wat aangeeft dat het balanceren van de diversiteit en sterkte van augmentaties belangrijk is voor het verbeteren van de generalisatie van geleerde representaties.
Formele verificatie kan de correctheid van kritieke systeemsoftware aantoonbaar garanderen, maar de hoge bewijslast heeft de brede adoptie ervan lange tijd belemmerd. Recentelijk hebben Large Language Models (LLMs) succes getoond in code-analyse en -synthese. In dit artikel presenteren we een combinatie van LLMs en statische analyse om invarianten, beweringen en andere bewijsstructuren te synthetiseren voor een op Rust gebaseerd formeel verificatieframework genaamd Verus. In een few-shot setting tonen LLMs indrukwekkend logisch vermogen in het genereren van postcondities en lusinvarianten, vooral bij het analyseren van korte codefragmenten. LLMs missen echter het vermogen om contextinformatie te behouden en door te geven, een sterk punt van traditionele statische analyse. Op basis van deze observaties hebben we een prototype ontwikkeld gebaseerd op OpenAI's GPT-4-model. Ons prototype verdeelt de verificatietaak in meerdere kleinere taken, bevraagt GPT-4 iteratief en combineert de uitvoer ervan met lichte statische analyse. We hebben het prototype geëvalueerd met een ontwikkelaar in de automatiseringlus op 20 programma's die vectoren manipuleren. De resultaten tonen aan dat het de menselijke inspanning aanzienlijk vermindert bij het schrijven van instapniveau bewijscode.