Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
In diesem Paper präsentieren wir die Ergebnisse unseres Projekts ALPINE, was für "Autoregressive Learning for Planning In NEtworks" steht. Das Projekt ALPINE leitet eine theoretische Untersuchung zur Entwicklung von Planungsfähigkeiten in auf Transformer basierenden Sprachmodellen durch ihre autoregressiven Lernmechanismen ein, mit dem Ziel, potenzielle Einschränkungen in ihren Planungsfähigkeiten zu identifizieren. Wir abstrahieren die Planung als eine Netzwerk-Pfadfindungsaufgabe, bei der das Ziel darin besteht, einen gültigen Pfad von einem spezifizierten Ausgangsknoten zu einem bestimmten Zielpunkt zu generieren. Hinsichtlich der Ausdrucksfähigkeit zeigen wir, dass der Transformer in der Lage ist, die Pfadfindung auszuführen, indem er die Adjazenz- und Erreichbarkeitsmatrizen in seine Gewichte einbettet. Unsere theoretische Analyse der gradientenbasierten Lerndynamik des Transformers zeigt, dass der Transformer sowohl die Adjazenzmatrix als auch eine begrenzte Form der Erreichbarkeitsmatrix erlernen kann. Diese theoretischen Erkenntnisse werden dann durch Experimente validiert, die zeigen, dass der Transformer tatsächlich die Adjazenzmatrix und eine unvollständige Erreichbarkeitsmatrix lernt, was mit den Vorhersagen unserer theoretischen Analyse übereinstimmt. Darüber hinaus bleiben unsere Beobachtungen konsistent, wenn wir unsere Methodik auf einen realen Planungs-Benchmark namens Blocksworld anwenden. Unsere theoretischen und empirischen Analysen enthüllen weiterhin eine potenzielle Einschränkung des Transformers in der Pfadfindung: Er kann keine Erreichbarkeitsbeziehungen durch Transitivität identifizieren und würde daher scheitern, wenn Pfadverkettungen erforderlich sind, um einen Pfad zu generieren. Zusammenfassend werfen unsere Ergebnisse ein neues Licht darauf, wie die internen Mechanismen des autoregressiven Lernens die Planung in Netzwerken ermöglichen. Diese Studie könnte zu unserem Verständnis der allgemeinen Planungsfähigkeiten in anderen verwandten Bereichen beitragen.
Wir stellen Xmodel-VLM vor, ein hochmodernes multimodales Vision-Sprachmodell. Es ist für eine effiziente Bereitstellung auf Consumer-GPU-Servern konzipiert. Unsere Arbeit befasst sich direkt mit einem entscheidenden Branchenproblem, indem sie sich mit den prohibitiven Servicekosten auseinandersetzt, die der breiten Akzeptanz von groß angelegten multimodalen Systemen im Wege stehen. Durch ein rigoroses Training haben wir ein Sprachmodell im Maßstab von 1B von Grund auf entwickelt, wobei wir das LLaVA-Paradigma für die Modalitätsausrichtung verwenden. Das Ergebnis, das wir Xmodel-VLM nennen, ist ein leichtgewichtiges, aber leistungsstarkes multimodales Vision-Sprachmodell. Umfangreiche Tests über zahlreiche klassische multimodale Benchmarks haben gezeigt, dass Xmodel-VLM trotz seiner geringeren Größe und schnelleren Ausführung eine Leistung bietet, die mit der größerer Modelle vergleichbar ist. Unsere Modell-Checkpoints und der Code sind öffentlich auf GitHub unter https://github.com/XiaoduoAILab/XmodelVLM verfügbar.
In diesem Artikel erforschen wir das Potenzial der Verwendung von latenten Diffusionsmodellen, einer Familie leistungsstarker generativer Modelle, für die Aufgabe der Rekonstruktion von naturalistischer Musik aus Elektroenzephalogramm (EEG)-Aufzeichnungen. Im Gegensatz zu einfacherer Musik mit begrenzten Klangfarben, wie z. B. MIDI-generierten Melodien oder monophonen Stücken, liegt der Fokus hier auf komplexer Musik mit einer vielfältigen Auswahl an Instrumenten, Stimmen und Effekten, reich an Harmonien und Klangfarben. Diese Studie stellt einen ersten Schritt dar, um eine allgemeine Musikrekonstruktion von hoher Qualität unter Verwendung nicht-invasiver EEG-Daten zu erreichen, wobei ein End-to-End-Trainingsansatz direkt auf Rohdaten ohne manuelle Vorverarbeitung und Kanalauswahl angewendet wird. Wir trainieren unsere Modelle auf dem öffentlichen NMED-T Datensatz und führen eine quantitative Evaluation durch, indem wir metrische Ansätze basierend auf neuronalen Einbettungen vorschlagen. Zusätzlich führen wir eine Song-Klassifizierung basierend auf den generierten Tracks durch. Unsere Arbeit trägt zur laufenden Forschung im Bereich neuronaler Dekodierung und Gehirn-Computer-Schnittstellen bei und bietet Einblicke in die Machbarkeit der Verwendung von EEG-Daten für die Rekonstruktion komplexer auditorischer Informationen.
Die systematische Bewertung und das Verständnis von Computer-Vision-Modellen unter sich ändernden Bedingungen erfordern große Mengen an Daten mit umfassenden und individuellen Labels, die von realen Vision-Datensätzen selten erfüllt werden. Während aktuelle synthetische Datengeneratoren eine vielversprechende Alternative bieten, insbesondere für verkörperte KI-Aufgaben, erreichen sie oft nicht das erforderliche Niveau für Computer-Vision-Aufgaben aufgrund geringer Ressourcen- und Renderqualität, begrenzter Vielfalt und unrealistischer physikalischer Eigenschaften. Wir stellen die BEHAVIOR Vision Suite (BVS) vor, ein Set von Tools und Ressourcen zur Erzeugung vollständig individueller synthetischer Daten für die systematische Bewertung von Computer-Vision-Modellen, basierend auf dem neu entwickelten verkörperten KI-Benchmark, BEHAVIOR-1K. BVS unterstützt eine große Anzahl an einstellbaren Parametern auf der Szenenebene (z.B. Beleuchtung, Objektplatzierung), der Objektebene (z.B. Gelenkkonfiguration, Attribute wie "gefüllt" und "gefaltet") und der Kamerabene (z.B. Sichtfeld, Brennweite). Forscher können diese Parameter beliebig variieren während der Datenerzeugung, um kontrollierte Experimente durchzuführen. Wir präsentieren drei Beispielanwendungsszenarien: die systematische Bewertung der Robustheit von Modellen über verschiedene kontinuierliche Achsen des Domänenwechsels, die Bewertung von Szenenverständnis-Modellen anhand desselben Bildersatzes sowie das Training und die Bewertung der Simulation-zu-Real-Übertragung für eine neuartige Vision-Aufgabe: Vorhersage von ein- und zweistufigen Zuständen. Projektwebsite: https://behavior-vision-suite.github.io/