Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Entwicklung robuster und korrigierbarer visuomotorischer Richtlinien für die robotische Manipulation ist aufgrund des Mangels an Selbstwiederherstellungsmechanismen bei Fehlern und der Einschränkungen einfacher Sprachanweisungen zur Steuerung von Roboteraktionen eine Herausforderung. Um diese Probleme anzugehen, schlagen wir eine skalierbare Datenbereitstellungspipeline vor, die Expertendemonstrationen automatisch mit Fehlerwiederherstellungstrajektorien und fein abgestimmten Sprachannotationen für das Training erweitert. Anschließend stellen wir Rich Language-guided Failure Recovery (RACER) vor, ein Supervisor-Aktor-Framework, das Fehlerwiederherstellungsdaten mit detaillierten Sprachbeschreibungen kombiniert, um die Robotersteuerung zu verbessern. RACER umfasst ein Bildsprachmodell (VLM), das als Online-Supervisor fungiert und detaillierte sprachliche Anleitungen für Fehlerkorrekturen und Aufgabenausführung bereitstellt, sowie eine sprachkonditionierte visuomotorische Richtlinie als Akteur zur Vorhersage der nächsten Aktionen. Unsere experimentellen Ergebnisse zeigen, dass RACER den State-of-the-Art Robotic View Transformer (RVT) auf RLbench in verschiedenen Evaluierungseinstellungen übertrifft, einschließlich Standard-Langzeitaufgaben, dynamischer Zieländerungsaufgaben und Null-Schuss ungesehener Aufgaben, und eine überlegene Leistung sowohl in simulierten als auch in realen Umgebungen erzielt. Videos und Code sind verfügbar unter: https://rich-language-failure-recovery.github.io.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten in verschiedenen Bereichen und Aufgaben gezeigt, die die Grenzen unseres Wissens im Bereich des Lernens und der Kognition erweitern. Das neueste Modell, OpenAI's o1, zeichnet sich als erstes LLM mit einer internalisierten Ketten-des-Denkens-Technik aus, die Verstärkungslernstrategien verwendet. Obwohl es überraschend starke Fähigkeiten in verschiedenen allgemeinen Sprachaufgaben gezeigt hat, ist seine Leistung in spezialisierten Bereichen wie der Medizin unbekannt. Zu diesem Zweck bietet dieser Bericht eine umfassende Erkundung von o1 in verschiedenen medizinischen Szenarien und untersucht 3 Schlüsselaspekte: Verständnis, Schlussfolgerung und Mehrsprachigkeit. Insbesondere umfasst unsere Bewertung 6 Aufgaben unter Verwendung von Daten aus 37 medizinischen Datensätzen, darunter zwei neu erstellte und anspruchsvollere Frage-Antwort-Aufgaben basierend auf professionellen medizinischen Quizfragen des New England Journal of Medicine (NEJM) und The Lancet. Diese Datensätze bieten eine größere klinische Relevanz im Vergleich zu Standard-Medizin-Frage-Antwort-Benchmarks wie MedQA und lassen sich effektiver in die klinische Praxis umsetzen. Unsere Analyse von o1 legt nahe, dass die verbesserte Schlussfolgerungsfähigkeit von LLMs ihre Fähigkeit, verschiedene medizinische Anweisungen zu verstehen und komplexe klinische Szenarien zu durchdenken, erheblich verbessern kann. Besonders hervorzuheben ist, dass o1 die vorherige GPT-4 in der Genauigkeit durchschnittlich um 6,2% und 6,6% über 19 Datensätze und zwei neu erstellte komplexe QA-Szenarien übertrifft. Gleichzeitig identifizieren wir mehrere Schwächen sowohl in der Modellfähigkeit als auch in den bestehenden Bewertungsprotokollen, darunter Halluzination, inkonsistente Mehrsprachigkeit und unterschiedliche Metriken zur Bewertung. Wir veröffentlichen unsere Rohdaten und Modellausgaben unter https://ucsc-vlaa.github.io/o1_medicine/ für zukünftige Forschung.
Der Erfolg der visuellen Anleitungsoptimierung hat die Entwicklung großer Sprach- und Bildmodelle (LLVMs) beschleunigt. Gemäß den Skalierungsgesetzen für anleitungsoptimierte große Sprachmodelle (LLMs) haben LLVMs ihre Größen weiter erhöht und erreichen nun 26 Mrd., 34 Mrd. und sogar 80 Mrd. Parameter. Während diese Zunahme der Modellgröße signifikante Leistungssteigerungen gebracht hat, erfordert sie deutlich mehr Hardware-Ressourcen sowohl für das Training als auch für die Inferenz. Folglich besteht ein starker Bedarf an effizienten LLVMs, die die Leistung größerer Modelle erzielen, aber kleiner sind. Um diesen Bedarf zu decken, präsentieren wir eine neue effiziente LLVM-Familie mit Modellgrößen von 0,5 Mrd., 1,8 Mrd., 3,8 Mrd. und 7 Mrd. Parametern, Phantom, die die Lernfähigkeiten innerhalb begrenzter Strukturen signifikant verbessert. Durch vorübergehende Erhöhung der latenten versteckten Dimension während der Mehrkopf-Selbst-Aufmerksamkeit (MHSA) bereiten wir LLVMs darauf vor, viel mehr Wissensinhalte in Bezug auf Vision und Sprache im Latenten zu betrachten und zu verstehen, ohne die physischen Modellgrößen wesentlich zu erhöhen. Um ihren Vorteil zu maximieren, führen wir die Phantom-Optimierung (PO) ein, die sowohl die autoregressive überwachte Feinabstimmung (SFT) als auch ein Konzept ähnlich der direkten Präferenzoptimierung (DPO) verwendet, um korrekte Antworten effektiv zu verfolgen und falsche und mehrdeutige Antworten zu eliminieren. Phantom übertrifft zahlreiche größere LLVMs aus Open- und Closed-Source-Quellen und positioniert sich als führende Lösung im Bereich effizienter LLVMs.
Dieses Paper präsentiert einen vielseitigen Bild-zu-Bild-Visual-Assistenten, PixWizard, der für die Bildgenerierung, -manipulation und -übersetzung basierend auf freiformen Sprachanweisungen entwickelt wurde. Zu diesem Zweck behandeln wir eine Vielzahl von Visionstasks in einem vereinheitlichten Bild-Text-zu-Bild-Generierungsrahmen und kuratieren einen Omni Pixel-zu-Pixel-Anweisungsabstimmungsdatensatz. Durch die Erstellung detaillierter Anweisungsvorlagen in natürlicher Sprache schließen wir umfassend eine große Anzahl verschiedener Visionstasks ein, wie z.B. Text-zu-Bild-Generierung, Bildrestauration, Bildverankerung, dichte Bildvorhersage, Bildbearbeitung, kontrollierte Generierung, Inpainting/Outpainting und mehr. Darüber hinaus übernehmen wir Diffusion Transformers (DiT) als unser Grundlagenmodell und erweitern seine Fähigkeiten mit einem flexiblen Mechanismus für jede Auflösung, der es dem Modell ermöglicht, Bilder dynamisch basierend auf dem Seitenverhältnis des Eingabebildes zu verarbeiten, was eng mit menschlichen Wahrnehmungsprozessen übereinstimmt. Das Modell integriert auch strukturbewusste und semantikbewusste Anleitungen, um eine effektive Fusion von Informationen aus dem Eingabebild zu erleichtern. Unsere Experimente zeigen, dass PixWizard nicht nur beeindruckende generative und Verständnisfähigkeiten für Bilder mit verschiedenen Auflösungen zeigt, sondern auch vielversprechende Verallgemeinerungsfähigkeiten mit unbekannten Aufgaben und menschlichen Anweisungen aufweist. Der Code und die zugehörigen Ressourcen sind verfügbar unter https://github.com/AFeng-x/PixWizard.
Große Sprachmodelle (LLMs) haben ein signifikantes Potenzial bei der Transformation klinischer Anwendungen gezeigt. In dieser Studie untersuchen wir die Wirksamkeit von vier Techniken zur Anpassung von LLMs für klinische Anwendungsfälle: kontinuierliches Vortraining, instruktionsbasiertes Feintuning, NEFTune und Prompt-Engineering. Wir wenden diese Methoden auf die Mistral 7B und Mixtral 8x7B Modelle an, wobei wir einen umfangreichen klinischen Vortrainingsdatensatz von 50 Milliarden Tokens und einen instruktionsbasierten Feintuning-Datensatz von 500 Millionen Tokens nutzen. Unsere Bewertung über verschiedene klinische Aufgaben hinweg zeigt die Auswirkungen jeder Technik. Während kontinuierliches Vortraining über 250 Milliarden Tokens hinaus nur geringfügige Verbesserungen allein bringt, legt es eine solide Grundlage für instruktionsbasiertes Feintuning. Bemerkenswerterweise zeigt NEFTune, das hauptsächlich zur Verbesserung der Generierungsqualität entwickelt wurde, überraschenderweise zusätzliche Gewinne in unserem Benchmark. Komplexe Prompt-Engineering-Methoden steigern die Leistung weiter. Diese Ergebnisse zeigen die Bedeutung der Anpassung von Feintuning-Strategien und der Erkundung innovativer Techniken zur Optimierung der Leistung von LLMs im klinischen Bereich.
Wir behandeln das Problem der Erzeugung hochrealistischer und plausibler Spiegelreflexionen unter Verwendung von diffusionsbasierten generativen Modellen. Wir formulieren dieses Problem als eine Bild-Inpainting-Aufgabe, die eine präzisere Steuerung über die Platzierung von Spiegeln während des Generierungsprozesses ermöglicht. Um dies zu ermöglichen, erstellen wir SynMirror, einen Datensatz im großen Maßstab mit vielfältigen synthetischen Szenen, in denen Objekte vor Spiegeln platziert sind. SynMirror enthält etwa 198K Beispiele, gerendert aus 66K einzigartigen 3D-Objekten, zusammen mit ihren zugehörigen Tiefenkarten, Normalenkarten und instanzweisen Segmentierungsmasken, um relevante geometrische Eigenschaften der Szene zu erfassen. Unter Verwendung dieses Datensatzes schlagen wir eine neuartige tiefenbedingte Inpainting-Methode namens MirrorFusion vor, die hochwertige, geometrisch konsistente und fotorealistische Spiegelreflexionen erzeugt, basierend auf einem Eingabebild und einer Maske, die den Spiegelbereich darstellt. MirrorFusion übertrifft state-of-the-art Methoden auf SynMirror, wie durch umfangreiche quantitative und qualitative Analysen gezeigt wird. Unseres Wissens nach sind wir die ersten, die das anspruchsvolle Problem der Erzeugung kontrollierter und treuer Spiegelreflexionen eines Objekts in einer Szene unter Verwendung von diffusionsbasierten Modellen erfolgreich angegangen sind. SynMirror und MirrorFusion eröffnen neue Möglichkeiten für Bildbearbeitung und erweiterte Realitätsanwendungen sowohl für Praktiker als auch Forscher.
Aktuelle Arbeiten im Bereich der inversen Darstellung haben gezeigt, dass die Verwendung von Multi-View-Bildern eines Objekts vielversprechend ist, um Form, Albedo und Materialien wiederherzustellen. Die wiederhergestellten Komponenten rendern jedoch oft nicht genau unter neuen Beleuchtungsbedingungen, aufgrund der inhärenten Herausforderung, Albedo- und Materialeigenschaften aus Eingabebildern zu trennen. Um dieser Herausforderung zu begegnen, stellen wir MaterialFusion vor, eine verbesserte konventionelle 3D-Inversrendering-Pipeline, die eine 2D-Prior auf Textur- und Materialeigenschaften integriert. Wir präsentieren StableMaterial, ein 2D-Diffusionsmodell, das Multi-Lit-Daten verfeinert, um die wahrscheinlichste Albedo und Materialien aus den gegebenen Erscheinungen zu schätzen. Dieses Modell wird auf Albedo-, Material- und neu beleuchteten Bilddaten trainiert, die aus einem kuratierten Datensatz von etwa ~12K künstlerisch gestalteten synthetischen Blender-Objekten namens BlenderVault abgeleitet sind. Wir integrieren diese Diffusionspriorität in ein inverses Rendering-Framework, in dem wir Score-Distillation-Sampling (SDS) verwenden, um die Optimierung der Albedo und Materialien zu lenken und die Beleuchtungsleistung im Vergleich zu früheren Arbeiten zu verbessern. Wir validieren die Beleuchtungsleistung von MaterialFusion an 4 Datensätzen synthetischer und realer Objekte unter verschiedenen Beleuchtungsbedingungen und zeigen, dass unser diffusionsgestützter Ansatz das Erscheinungsbild rekonstruierter Objekte unter neuen Beleuchtungsbedingungen signifikant verbessert. Wir beabsichtigen, unseren BlenderVault-Datensatz öffentlich freizugeben, um weitere Forschungen auf diesem Gebiet zu unterstützen.
Die Veröffentlichung von ChatGPT im November 2022 löste ein starkes Interesse an der Nachschulung aus und führte zu einer Lawine neuer Methoden zur Präferenzoptimierung (PO). Diese Methoden behaupten eine überlegene Ausrichtung aufgrund einer besseren Übereinstimmung mit menschlichen Paarpräferenzen, die oft von LLM-Richtern gemessen werden. In dieser Arbeit versuchen wir, die folgende Frage zu beantworten - lassen sich LLM-Richterpräferenzen in Fortschritte bei anderen, konkreteren Metriken für die Ausrichtung übersetzen, und wenn nicht, warum nicht? Wir definieren eine konkrete Metrik für die Ausrichtung und stellen SOS-Bench vor, den bisher größten standardisierten, reproduzierbaren LLM-Metabenchmark. Wir stellen fest, dass (1) LLM-Beurteilungen nicht mit konkreten Maßnahmen für Sicherheit, Weltwissen und Anweisungsfolgen korrelieren; (2) LLM-Richter starke implizite Vorurteile haben, die Stil über Faktizität und Sicherheit priorisieren; und (3) die überwachte Feinabstimmung (SFT)-Phase der Nachschulung und nicht die PO-Phase den größten Einfluss auf die Ausrichtung hat, wobei Datenskalierung und Prompt-Vielfalt die treibenden Faktoren sind. Unser Code und vollständige Ergebnisse sind unter https://github.com/penfever/sos-bench verfügbar.
In diesem Paper stellen wir ein Zero-Shot Voice Transfer (VT) Modul vor, das nahtlos in ein mehrsprachiges Text-in-Sprache (TTS) System integriert werden kann, um die Stimme einer Person zwischen Sprachen zu übertragen. Unser vorgeschlagenes VT-Modul besteht aus einem Sprecher-Encoder, der Referenzsprache verarbeitet, einer Engpassschicht und Restadaptern, die mit vorhandenen TTS-Schichten verbunden sind. Wir vergleichen die Leistung verschiedener Konfigurationen dieser Komponenten und berichten über den Mean Opinion Score (MOS) und die Sprecherähnlichkeit zwischen Sprachen. Unter Verwendung einer einzigen englischen Referenzsprache pro Sprecher erreichen wir einen durchschnittlichen Ähnlichkeitswert für die Stimmenübertragung von 73% in neun Zielsprachen. Stimmliche Merkmale tragen maßgeblich zur Konstruktion und Wahrnehmung individueller Identität bei. Der Verlust der eigenen Stimme aufgrund physischer oder neurologischer Bedingungen kann zu einem tiefgreifenden Identitätsverlust führen, der die Kernidentität einer Person beeinflusst. Als Fallstudie zeigen wir, dass unser Ansatz nicht nur typische Sprache übertragen kann, sondern auch die Stimmen von Personen mit Dysarthrie wiederherstellen kann, selbst wenn nur atypische Sprachproben verfügbar sind - eine wertvolle Funktion für diejenigen, die nie typische Sprache hatten oder ihre Stimme gespeichert haben. Typische Audioaufnahmen in verschiedenen Sprachen sowie Videos, die die Stimmenwiederherstellung für Personen mit Dysarthrie demonstrieren, sind hier verfügbar (google.github.io/tacotron/publications/zero_shot_voice_transfer).
Die Entwicklung eines einzigen, vielseitigen physikbasierten Controllers, der interaktiven Charakteren in einer Vielzahl von Szenarien Leben einhaucht, stellt eine aufregende Grenze in der Charakteranimation dar. Ein idealer Controller sollte verschiedene Steuerungsmodalitäten unterstützen, wie z. B. spärliche Ziel-Keyframes, Textanweisungen und Szeneninformationen. Während in früheren Arbeiten physikalisch simulierte, szenenbewusste Steuerungsmodelle vorgeschlagen wurden, haben sich diese Systeme hauptsächlich darauf konzentriert, Controller zu entwickeln, die sich jeweils auf einen engen Satz von Aufgaben und Steuerungsmodalitäten spezialisieren. Diese Arbeit stellt MaskedMimic vor, einen neuartigen Ansatz, der die physikbasierte Charaktersteuerung als allgemeines Bewegungsinpainting-Problem formuliert. Unser Schlüsselerkenntnis besteht darin, ein einziges vereinigtes Modell zu trainieren, um Bewegungen aus teilweisen (maskierten) Bewegungsbeschreibungen zu synthetisieren, wie maskierte Keyframes, Objekte, Textbeschreibungen oder einer beliebigen Kombination davon. Dies wird durch die Nutzung von Bewegungsverfolgungsdaten und die Gestaltung einer skalierbaren Trainingsmethode erreicht, die vielfältige Bewegungsbeschreibungen effektiv nutzen kann, um kohärente Animationen zu erzeugen. Durch diesen Prozess lernt unser Ansatz einen physikbasierten Controller, der eine intuitive Steuerschnittstelle bietet, ohne mühsame Belohnungstechnik für alle interessanten Verhaltensweisen zu erfordern. Der resultierende Controller unterstützt eine Vielzahl von Steuerungsmodalitäten und ermöglicht nahtlose Übergänge zwischen unterschiedlichen Aufgaben. Indem MaskedMimic die Charaktersteuerung durch Bewegungsinpainting vereinheitlicht, schafft es vielseitige virtuelle Charaktere. Diese Charaktere können sich dynamisch an komplexe Szenen anpassen und auf Abruf verschiedene Bewegungen komponieren, was interaktivere und immersivere Erlebnisse ermöglicht.
Diabetes ist eine chronische Krankheit, die eine bedeutende globale Gesundheitsbelastung darstellt, und die Optimierung des Diabetesmanagements erfordert eine Zusammenarbeit mehrerer Interessensgruppen. Große Sprachmodelle (LLMs) haben in verschiedenen Gesundheitsszenarien vielversprechende Ergebnisse gezeigt, aber ihre Wirksamkeit bei einer Vielzahl von Diabetesaufgaben ist noch nicht nachgewiesen. In dieser Studie haben wir einen Rahmen eingeführt, um diabetes-spezifische LLMs zu trainieren und zu validieren. Zunächst haben wir eine umfassende Datenverarbeitungspipeline entwickelt, die Datensammlung, Filterung, Erweiterung und Verfeinerung umfasst. Dieser Ansatz trägt zur Erstellung eines hochwertigen, diabetes-spezifischen Datensatzes und mehrerer Evaluierungskennzahlen komplett von Grund auf bei. Unter Verwendung des gesammelten Trainingsdatensatzes haben wir eine diabetes-spezifische LLM-Familie feinabgestimmt, die im Vergleich zu anderen LLMs eine Spitzenleistung bei der Verarbeitung verschiedener Diabetesaufgaben zeigte. Darüber hinaus zeigten klinische Studien das Potenzial unserer Modelle in der Diabetesversorgung, einschließlich der Bereitstellung personalisierter Gesundheitsversorgung, der Unterstützung medizinischer Ausbildung und der Optimierung klinischer Aufgaben. Zusammenfassend haben wir in unserer Studie einen Rahmen vorgestellt, um eine diabetes-spezifische LLM-Familie zu entwickeln und zu bewerten, und deren Potenzial zur Verbesserung der klinischen Praxis und Bereitstellung personalisierter, datengesteuerter Unterstützung für Diabetespatienten bei verschiedenen Endbenutzern hervorgehoben. Der Code ist über GitHub unter https://github.com/waltonfuture/Diabetica verfügbar.
Es besteht ein wachsendes Interesse an der Verwendung von generativer KI zur Erstellung von 3D-Räumen für Anwendungen in der Virtuellen Realität (VR). Allerdings erzeugen heutige Modelle künstliche Umgebungen, die nicht ausreichen, um kollaborative Aufgaben zu unterstützen, die von der Einbeziehung des physischen Kontexts des Benutzers profitieren. Um Umgebungen zu generieren, die die VR-Telepräsenz unterstützen, stellen wir SpaceBlender vor, eine neuartige Pipeline, die generative KI-Techniken nutzt, um die physische Umgebung der Benutzer in vereinheitlichte virtuelle Räume zu integrieren. Diese Pipeline verwandelt vom Benutzer bereitgestellte 2D-Bilder in kontextreiche 3D-Umgebungen durch einen iterativen Prozess, der aus Tiefenschätzung, Mesh-Ausrichtung und diffusionsbasierter Raumvervollständigung besteht, die durch geometrische Prioritäten und adaptive Texteingaben geleitet werden. In einer vorläufigen Studie mit innerhalb der Teilnehmer durchgeführten Untersuchungen, bei der 20 Teilnehmer eine kollaborative VR-Affinitätsdiagrammerstellungsaufgabe in Paaren durchführten, verglichen wir SpaceBlender mit einer generischen virtuellen Umgebung und einem hochmodernen Szenengenerierungsrahmen, um seine Fähigkeit zur Erstellung von virtuellen Räumen, die für die Zusammenarbeit geeignet sind, zu bewerten. Die Teilnehmer schätzten die verbesserte Vertrautheit und den Kontext, die von SpaceBlender geboten wurden, bemerkten jedoch auch Komplexitäten in den generativen Umgebungen, die von der Aufgabenfokussierung ablenken könnten. Basierend auf dem Feedback der Teilnehmer schlagen wir Richtungen zur Verbesserung der Pipeline vor und diskutieren den Wert und das Design von verschmolzenen Räumen für verschiedene Szenarien.
Dieses Paper präsentiert eine Fallstudie von Kodieraufgaben durch die neuesten Reasoning-Modelle von OpenAI, d.h. o1-preview und o1-mini, im Vergleich zu anderen Spitzenmodellen. Die o1-Modelle liefern SOTA-Ergebnisse für WebApp1K, einem Single-Task-Benchmark. Zu diesem Zweck führen wir WebApp1K-Duo ein, einen anspruchsvolleren Benchmark, der die Anzahl der Aufgaben und Testfälle verdoppelt. Der neue Benchmark führt dazu, dass die Leistungen der o1-Modelle signifikant abnehmen und hinter Claude 3.5 zurückfallen. Darüber hinaus scheitern sie konsequent, wenn sie mit atypischen, aber dennoch korrekten Testfällen konfrontiert werden, eine Falle, der nicht-reasoning-Modelle gelegentlich ausweichen. Wir vermuten, dass die Leistungsvariabilität auf das Verständnis von Anweisungen zurückzuführen ist. Insbesondere steigert der Reasoning-Mechanismus die Leistung, wenn alle Erwartungen erfüllt sind, verschlimmert jedoch Fehler, wenn wichtige Erwartungen verpasst werden, möglicherweise beeinflusst durch die Eingabelängen. Daher argumentieren wir, dass der Kodierungserfolg von Reasoning-Modellen von dem erstklassigen Basismodell und SFT abhängt, um eine akribische Einhaltung der Anweisungen sicherzustellen.
Sprachlaute vermitteln eine Vielzahl von Informationen über Szenen, was zu einer Vielzahl von Effekten führt, die von Hall bis hin zu zusätzlichen Umgebungsgeräuschen reichen. In diesem Papier manipulieren wir den Eingangssprachton so, dass er klingt, als wäre er in einer anderen Szene aufgenommen worden, basierend auf einem audiovisuellen bedingten Beispiel, das aus dieser Szene aufgenommen wurde. Unser Modell lernt durch Selbstüberwachung und nutzt dabei die Tatsache aus, dass natürliche Videos wiederkehrende Klangereignisse und Texturen enthalten. Wir extrahieren einen Audioclip aus einem Video und wenden eine Sprachverbesserung an. Anschließend trainieren wir ein latentes Diffusionsmodell, um die Originalsprache wiederherzustellen, wobei ein anderes audiovisuelles Clip aus einem anderen Teil des Videos als bedingter Hinweis dient. Durch diesen Prozess lernt das Modell, die Klangeigenschaften des bedingten Beispiels auf den Eingangssprachton zu übertragen. Wir zeigen, dass unser Modell erfolgreich mit unbeschrifteten Videos aus der Natur trainiert werden kann und dass ein zusätzliches visuelles Signal seine Klangvorhersagefähigkeiten verbessern kann. Bitte besuchen Sie unsere Projektwebseite für Videobeweise: https://tinglok.netlify.app/files/avsoundscape/