Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit artikel presenteren we de bevindingen van ons Project ALPINE, wat staat voor "Autoregressive Learning for Planning In NEtworks." Project ALPINE start een theoretisch onderzoek naar de ontwikkeling van planningsvaardigheden in Transformer-gebaseerde taalmodellen via hun autoregressieve leermechanismen, met als doel mogelijke beperkingen in hun planningsvermogen te identificeren. We abstraheren planning als een netwerkpadzoektaak waarbij het doel is om een geldig pad te genereren van een gespecificeerd bronknooppunt naar een aangewezen doelknooppunt. Wat betreft expressiviteit tonen we aan dat de Transformer in staat is om padzoeken uit te voeren door de adjacency- en bereikbaarheidsmatrices in zijn gewichten in te bedden. Onze theoretische analyse van het op gradienten gebaseerde leerproces van de Transformer onthult dat de Transformer zowel de adjacency-matrix als een beperkte vorm van de bereikbaarheidsmatrix kan leren. Deze theoretische inzichten worden vervolgens gevalideerd door experimenten, die aantonen dat de Transformer inderdaad de adjacency-matrix en een onvolledige bereikbaarheidsmatrix leert, wat overeenkomt met de voorspellingen in onze theoretische analyse. Bovendien blijven onze observaties consistent wanneer we onze methodologie toepassen op een real-world planningsbenchmark, genaamd Blocksworld. Onze theoretische en empirische analyses onthullen verder een potentiële beperking van de Transformer in padzoeken: het kan bereikbaarheidsrelaties niet identificeren via transitiviteit en zou dus falen wanneer padconcatenatie nodig is om een pad te genereren. Samenvattend werpen onze bevindingen nieuw licht op hoe de interne mechanismen van autoregressief leren plannen in netwerken mogelijk maken. Deze studie kan bijdragen aan ons begrip van de algemene planningsmogelijkheden in andere gerelateerde domeinen.
We introduceren Xmodel-VLM, een geavanceerd multimodaal vision-taalmodel. Het is ontworpen voor efficiënte implementatie op consumenten-GPU-servers. Ons werk gaat direct in op een cruciaal industrieel probleem door de buitensporige servicekosten aan te pakken die de brede adoptie van grootschalige multimodale systemen belemmeren. Door middel van rigoureuze training hebben we een 1B-schaal taalmodel vanaf de grond opgebouwd, waarbij we het LLaVA-paradigma hebben gebruikt voor modale uitlijning. Het resultaat, dat we Xmodel-VLM noemen, is een lichtgewicht maar krachtig multimodaal vision-taalmodel. Uitgebreide tests op tal van klassieke multimodale benchmarks hebben aangetoond dat Xmodel-VLM, ondanks zijn kleinere omvang en snellere uitvoering, prestaties levert die vergelijkbaar zijn met die van grotere modellen. Onze modelcheckpoints en code zijn openbaar beschikbaar op GitHub via https://github.com/XiaoduoAILab/XmodelVLM.
In dit artikel onderzoeken we de mogelijkheden van latente diffusiemodellen, een familie van krachtige generatieve modellen, voor de taak van het reconstrueren van naturalistische muziek uit elektro-encefalogram (EEG)-opnames. In tegenstelling tot eenvoudigere muziek met beperkte klankkleuren, zoals MIDI-gegenereerde melodieën of monofone stukken, ligt de focus hier op complexe muziek met een diverse reeks instrumenten, stemmen en effecten, rijk aan harmonieën en klankkleuren. Deze studie vormt een eerste verkenning in het bereiken van algemene muziekreconstructie van hoge kwaliteit met behulp van niet-invasieve EEG-gegevens, waarbij een end-to-end trainingsbenadering wordt toegepast direct op ruwe data zonder de noodzaak van handmatige voorbewerking en kanaalselectie. We trainen onze modellen op de openbare NMED-T dataset en voeren een kwantitatieve evaluatie uit met voorgestelde op neurale inbedding gebaseerde metrieken. Daarnaast voeren we liedclassificatie uit op basis van de gegenereerde nummers. Ons werk draagt bij aan het lopende onderzoek naar neurale decodering en brain-computer interfaces en biedt inzichten in de haalbaarheid van het gebruik van EEG-gegevens voor de reconstructie van complexe auditieve informatie.
De systematische evaluatie en het begrip van computervisie-modellen onder verschillende omstandigheden vereisen grote hoeveelheden data met uitgebreide en aangepaste labels, wat real-world visiedatasets zelden bieden. Hoewel huidige synthetische datageneratoren een veelbelovend alternatief bieden, met name voor embodied AI-taken, schieten ze vaak tekort voor computervisie-taken vanwege lage asset- en renderingkwaliteit, beperkte diversiteit en onrealistische fysieke eigenschappen. Wij introduceren de BEHAVIOR Vision Suite (BVS), een set tools en assets om volledig aangepaste synthetische data te genereren voor de systematische evaluatie van computervisie-modellen, gebaseerd op de nieuw ontwikkelde embodied AI-benchmark, BEHAVIOR-1K. BVS ondersteunt een groot aantal instelbare parameters op scèniveau (bijv. belichting, objectplaatsing), objectniveau (bijv. gewrichtsconfiguratie, attributen zoals "gevuld" en "opgevouwen") en cameraniveau (bijv. gezichtsveld, brandpuntsafstand). Onderzoekers kunnen deze parameters tijdens de datageneratie willekeurig variëren om gecontroleerde experimenten uit te voeren. Wij demonstreren drie voorbeeldtoepassingsscenario's: het systematisch evalueren van de robuustheid van modellen over verschillende continue assen van domeinverschuiving, het evalueren van scènebegripsmodellen op dezelfde set afbeeldingen, en het trainen en evalueren van simulatie-naar-realiteit transfer voor een nieuwe visietaak: unaire en binaire toestandvoorspelling. Projectwebsite: https://behavior-vision-suite.github.io/