Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Aktuelle Evaluierungen von Large Language Models (LLMs) konzentrieren sich darauf, ihre Zero-Shot/Few-Shot-Fähigkeiten für grundlegende Aufgaben der natürlichen Sprachverarbeitung sowie ihre Fähigkeit, Anweisungen in Tool-APIs zu übersetzen, zu testen. Die Bewertung von LLMs, die komplexe Tools verwenden, um mehrstufige, multimodale Anweisungen in einer komplexen multimodalen Umgebung zu erfüllen, wurde jedoch noch nicht untersucht. Um diese Lücke zu schließen, führen wir den PowerPoint Task Completion (PPTC)-Benchmark ein, um die Fähigkeit von LLMs zu bewerten, PPT-Dateien basierend auf Benutzeranweisungen zu erstellen und zu bearbeiten. Er enthält 279 mehrstufige Sitzungen, die verschiedene Themen abdecken, sowie Hunderte von Anweisungen, die multimodale Operationen beinhalten. Wir schlagen außerdem das PPTX-Match-Evaluierungssystem vor, das bewertet, ob LLMs die Anweisung basierend auf der Vorhersagedatei und nicht der Label-API-Sequenz erfüllen, wodurch es verschiedene von LLMs generierte API-Sequenzen unterstützt. Wir messen 3 geschlossene LLMs und 6 Open-Source-LLMs. Die Ergebnisse zeigen, dass GPT-4 mit einer Genauigkeit von 75,1 % im Einzelgesprächstest andere LLMs übertrifft, jedoch Schwierigkeiten hat, gesamte Sitzungen abzuschließen, und nur eine Sitzungsgenauigkeit von 6 % erreicht. Wir identifizieren drei Hauptfehlerursachen in unserem Benchmark: Fehlerakkumulation in der mehrstufigen Sitzung, die Verarbeitung langer PPT-Vorlagen und die multimodale Wahrnehmung. Diese stellen große Herausforderungen für zukünftige LLM- und Agentensysteme dar. Wir veröffentlichen die Daten, den Code und das Evaluierungssystem von PPTC unter https://github.com/gydpku/PPTC.
Wir schlagen Fast Language-Audio Pre-training (FLAP) vor, einen selbstüberwachten Ansatz, der effizient und effektiv ausgerichtete Audio- und Sprachrepräsentationen durch Maskierung, kontrastives Lernen und Rekonstruktion erlernt. Für die Effizienz verwirft FLAP zufällig Audio-Spektrogramm-Tokens und konzentriert sich ausschließlich auf die verbleibenden für die Selbstüberwachung. Durch inter-modales kontrastives Lernen lernt FLAP, gepaarte Audio- und Textrepräsentationen in einem gemeinsamen latenten Raum auszurichten. Bemerkenswert ist, dass FLAP mehrere augmentierte Ansichten durch Maskierung für den inter-modalen Kontrast nutzt und lernt, den maskierten Teil der Audio-Tokens zu rekonstruieren. Darüber hinaus nutzt FLAP große Sprachmodelle (LLMs), um die Texteingaben zu augmentieren, was zu einer verbesserten Leistung beiträgt. Diese Ansätze führen zu robusteren und informativeren Audio-Text-Repräsentationen, wodurch FLAP state-of-the-art (SoTA) Leistung bei Audio-Text-Retrieval-Aufgaben auf AudioCaps (53,0 % R@1) und Clotho (25,5 % R@1) erreicht.
Wir präsentieren EmerNeRF, einen einfachen, aber leistungsstarken Ansatz zum Lernen räumlich-zeitlicher Darstellungen dynamischer Fahrtszenen. Basierend auf neuronalen Feldern erfasst EmerNeRF gleichzeitig Szenengeometrie, Erscheinungsbild, Bewegung und Semantik durch Selbstbootstrapping. EmerNeRF stützt sich auf zwei Kernkomponenten: Erstens unterteilt es Szenen in statische und dynamische Felder. Diese Zerlegung entsteht rein durch Selbstüberwachung, wodurch unser Modell aus allgemeinen, in der Wildnis gesammelten Daten lernen kann. Zweitens parametrisiert EmerNeRF ein induziertes Strömungsfeld aus dem dynamischen Feld und verwendet dieses Strömungsfeld, um Merkmale aus mehreren Bildern weiter zu aggregieren, wodurch die Renderpräzision dynamischer Objekte verstärkt wird. Die Kopplung dieser drei Felder (statisch, dynamisch und Strömung) ermöglicht es EmerNeRF, hochdynamische Szenen eigenständig darzustellen, ohne auf Ground-Truth-Objektannotationen oder vortrainierte Modelle für dynamische Objektsegmentierung oder optische Flussabschätzung angewiesen zu sein. Unsere Methode erreicht Spitzenleistungen in der Sensorsimulation und übertrifft bisherige Methoden deutlich bei der Rekonstruktion statischer (+2,93 PSNR) und dynamischer (+3,70 PSNR) Szenen. Darüber hinaus heben wir, um die semantische Generalisierung von EmerNeRF zu stärken, 2D-Merkmale von visuellen Grundlagenmodellen in den 4D-Raum-Zeit-Bereich und adressieren eine allgemeine Positionsverzerrung in modernen Transformern, was die 3D-Wahrnehmungsleistung erheblich steigert (z. B. 37,50 % relative Verbesserung der Genauigkeit bei der Belegungsvorhersage im Durchschnitt). Schließlich erstellen wir einen vielfältigen und anspruchsvollen Datensatz mit 120 Sequenzen, um neuronale Felder unter extremen und hochdynamischen Bedingungen zu bewerten.