Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren einen Ansatz zur Modellierung eines bildraumbezogenen Priors für Szenendynamiken. Unser Prior wird aus einer Sammlung von Bewegungstrajektorien gelernt, die aus realen Videosequenzen mit natürlichen, oszillierenden Bewegungen wie Bäumen, Blumen, Kerzen und im Wind wehender Kleidung extrahiert wurden. Bei einem einzelnen Bild verwendet unser trainiertes Modell einen frequenzkoordinierten Diffusionssamplingsprozess, um eine langfristige Bewegungsrepräsentation pro Pixel im Fourierbereich vorherzusagen, die wir als neuronale stochastische Bewegungstextur bezeichnen. Diese Repräsentation kann in dichte Bewegungstrajektorien umgewandelt werden, die ein gesamtes Video umfassen. Zusammen mit einem bildbasierten Rendering-Modul können diese Trajektorien für eine Reihe von nachgelagerten Anwendungen genutzt werden, wie beispielsweise die Umwandlung von Standbildern in nahtlos wiederholbare dynamische Videos oder die Möglichkeit für Benutzer, realistisch mit Objekten in echten Bildern zu interagieren.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) ermöglichen es Forschern und Entwicklern, autonome Sprachagenten zu erstellen, die automatisch verschiedene Aufgaben lösen und mit Umgebungen, Menschen und anderen Agenten über natürliche Sprachschnittstellen interagieren können. Wir betrachten Sprachagenten als eine vielversprechende Richtung hin zur künstlichen allgemeinen Intelligenz und stellen Agents vor, eine Open-Source-Bibliothek mit dem Ziel, diese Fortschritte einem breiteren, nicht spezialisierten Publikum zugänglich zu machen. Agents ist sorgfältig entwickelt, um wichtige Funktionen wie Planung, Gedächtnis, Werkzeugnutzung, Multi-Agenten-Kommunikation und fein abgestimmte symbolische Steuerung zu unterstützen. Agents ist benutzerfreundlich, da es Nicht-Spezialisten ermöglicht, state-of-the-art autonome Sprachagenten zu erstellen, anzupassen, zu testen, zu optimieren und bereitzustellen, ohne viel programmieren zu müssen. Die Bibliothek ist auch forschungsfreundlich, da ihr modularer Aufbau eine einfache Erweiterbarkeit für Forscher ermöglicht. Agents ist verfügbar unter https://github.com/aiwaves-cn/agents.
Audio-Super-Resolution ist eine grundlegende Aufgabe, bei der hochfrequente Komponenten für niederauflösende Audiodaten vorhergesagt werden, um die Audioqualität in digitalen Anwendungen zu verbessern. Bisherige Methoden weisen Einschränkungen auf, wie den begrenzten Umfang von Audiotypen (z. B. Musik, Sprache) und spezifische Bandbreiteneinstellungen, die sie verarbeiten können (z. B. 4 kHz bis 8 kHz). In diesem Artikel stellen wir ein diffusionsbasiertes generatives Modell vor, AudioSR, das in der Lage ist, robuste Audio-Super-Resolution für verschiedene Audiotypen durchzuführen, einschließlich Soundeffekte, Musik und Sprache. Insbesondere kann AudioSR jedes Eingangs-Audiosignal im Bandbreitenbereich von 2 kHz bis 16 kHz zu einem hochauflösenden Audiosignal mit einer Bandbreite von 24 kHz und einer Abtastrate von 48 kHz hochskalieren. Umfangreiche objektive Bewertungen auf verschiedenen Audio-Super-Resolution-Benchmarks zeigen die starken Ergebnisse des vorgeschlagenen Modells. Darüber hinaus zeigt unsere subjektive Bewertung, dass AudioSR als Plug-and-Play-Modul fungieren kann, um die Generierungsqualität einer Vielzahl von Audio-Generierungsmodellen zu verbessern, darunter AudioLDM, Fastspeech2 und MusicGen. Unser Code und unsere Demo sind verfügbar unter https://audioldm.github.io/audiosr.
Das Durchsuchen umfangreicher Textdaten und die Zusammenfassung wesentlicher Informationen stellt eine erhebliche Belastung für die Zeitplanung von Klinikern dar. Obwohl große Sprachmodelle (LLMs) im Bereich der natürlichen Sprachverarbeitung (NLP) vielversprechende Ergebnisse gezeigt haben, wurde ihre Wirksamkeit bei verschiedenen klinischen Zusammenfassungsaufgaben bisher nicht umfassend untersucht. In dieser Arbeit wenden wir Domänenanpassungsmethoden auf acht LLMs an, die sechs Datensätze und vier unterschiedliche Zusammenfassungsaufgaben abdecken: Radiologieberichte, Patientenanfragen, Fortschrittsnotizen und Arzt-Patienten-Dialoge. Unsere umfassende quantitative Bewertung zeigt Kompromisse zwischen Modellen und Anpassungsmethoden sowie Fälle, in denen aktuelle Fortschritte bei LLMs nicht zu verbesserten Ergebnissen führen. Darüber hinaus zeigen wir in einer klinischen Leserstudie mit sechs Ärzten, dass Zusammenfassungen des am besten angepassten LLMs in Bezug auf Vollständigkeit und Korrektheit menschlichen Zusammenfassungen vorzuziehen sind. Unsere anschließende qualitative Analyse skizziert gemeinsame Herausforderungen, denen sowohl LLMs als auch menschliche Experten gegenüberstehen. Schließlich korrelieren wir traditionelle quantitative NLP-Metriken mit den Bewertungen aus der Leserstudie, um unser Verständnis dafür zu verbessern, wie diese Metriken mit den Präferenzen der Ärzte übereinstimmen. Unsere Forschung liefert den ersten Nachweis dafür, dass LLMs menschliche Experten bei der klinischen Textzusammenfassung über mehrere Aufgaben hinweg übertreffen. Dies deutet darauf hin, dass die Integration von LLMs in klinische Arbeitsabläufe die Dokumentationslast verringern könnte, wodurch Kliniker sich stärker auf die personalisierte Patientenversorgung und andere unersetzliche menschliche Aspekte der Medizin konzentrieren können.
Video-Matting hat vielfältige Anwendungen, von der Hinzufügung interessanter Effekte zu beiläufig aufgenommenen Filmen bis hin zur Unterstützung von Fachleuten in der Videoproduktion. Matting mit damit verbundenen Effekten wie Schatten und Reflexionen hat ebenfalls zunehmend Forschungsaktivitäten angezogen, und Methoden wie Omnimatte wurden vorgeschlagen, um dynamische Vordergrundobjekte von Interesse in ihre eigenen Ebenen zu trennen. Bisherige Arbeiten stellen jedoch Videohintergründe als 2D-Bildebenen dar, was ihre Fähigkeit einschränkt, komplexere Szenen auszudrücken, und somit die Anwendung auf reale Videos behindert. In diesem Artikel schlagen wir eine neuartige Video-Matting-Methode vor, OmnimatteRF, die dynamische 2D-Vordergrundebenen und ein 3D-Hintergrundmodell kombiniert. Die 2D-Ebenen bewahren die Details der Subjekte, während der 3D-Hintergrund Szenen in realen Videos robust rekonstruiert. Umfangreiche Experimente zeigen, dass unsere Methode Szenen in verschiedenen Videos mit besserer Qualität rekonstruiert.
In-Context-Learning (ICL), d.h. das Zeigen von nur wenigen aufgabenbezogenen Demonstrationen für große Sprachmodelle (LLMs), hat zu nachgelagerten Verbesserungen geführt, ohne dass eine aufgabenspezifische Feinabstimmung erforderlich war. Allerdings sind LLMs empfindlich gegenüber der Auswahl der Prompts, und daher ist eine entscheidende Forschungsfrage, wie gute Demonstrationen für ICL ausgewählt werden können. Eine effektive Strategie besteht darin, die semantische Ähnlichkeit zwischen den ICL-Demonstrationen und den Testeingaben durch die Verwendung eines Textretrievers zu nutzen, was jedoch suboptimal ist, da dies das vorhandene Wissen des LLMs über die Aufgabe nicht berücksichtigt. Aus früheren Arbeiten (Min et al., 2022) wissen wir bereits, dass die mit den Demonstrationen gepaarten Labels die Modellvorhersagen verzerren. Dies führt uns zu unserer Hypothese, ob die Berücksichtigung des vorhandenen Wissens des LLMs über die Aufgabe, insbesondere in Bezug auf den Ausgabelabelraum, zu einer besseren Strategie für die Auswahl von Demonstrationen beitragen kann. Durch umfangreiche Experimente an drei Textklassifizierungsaufgaben stellen wir fest, dass es vorteilhaft ist, nicht nur semantisch ähnliche ICL-Demonstrationen auszuwählen, sondern auch solche, die dazu beitragen, die inhärente Labelambiguität rund um das Testbeispiel zu lösen. Interessanterweise stellen wir fest, dass die Einbeziehung von Demonstrationen, die das LLM zuvor falsch klassifiziert hat und die auch auf der Entscheidungsgrenze des Testbeispiels liegen, den größten Leistungsgewinn bringt.
Große Sprachmodelle (LLMs) haben beeindruckende Leistungen bei Aufgaben der natürlichen Sprachverarbeitung (NLP) gezeigt, wie etwa bei der Beantwortung von Fragen, der Zusammenfassung und der Klassifizierung. Die Verwendung von LLMs als Bewerter, die die Ausgaben anderer Modelle (meist ebenfalls LLMs) bewerten oder bewerten können, ist aufgrund der Grenzen aktueller Bewertungstechniken, einschließlich des Mangels an geeigneten Benchmarks, Metriken, Kosten und des Zugangs zu menschlichen Annotatoren, immer beliebter geworden. Während LLMs in der Lage sind, etwa 100 Sprachen zu verarbeiten, fehlt es bei der Mehrheit der Sprachen jenseits der Top 20 an systematischen Bewertungen über verschiedene Aufgaben, Metriken und Benchmarks hinweg. Dies schafft einen dringenden Bedarf, die mehrsprachige Bewertung zu skalieren, um ein präzises Verständnis der Leistung von LLMs in verschiedenen Sprachen zu gewährleisten. LLM-basierte Bewerter scheinen die perfekte Lösung für dieses Problem zu sein, da sie keine menschlichen Annotatoren, von Menschen erstellte Referenzen oder Benchmarks benötigen und theoretisch zur Bewertung jeder von dem LLM abgedeckten Sprache verwendet werden können. In diesem Artikel untersuchen wir, ob LLM-basierte Bewerter dazu beitragen können, die mehrsprachige Bewertung zu skalieren. Konkret kalibrieren wir die LLM-basierte Bewertung anhand von 20.000 menschlichen Bewertungen von fünf Metriken über drei Textgenerierungsaufgaben in acht Sprachen. Unsere Ergebnisse deuten darauf hin, dass LLM-basierte Bewerter eine Tendenz zu höheren Bewertungen aufweisen können und mit Vorsicht verwendet werden sollten. Sie sollten stets mit einem Datensatz von Bewertungen muttersprachlicher Sprecher kalibriert werden, insbesondere bei ressourcenarmen Sprachen und Sprachen mit nicht-lateinischen Schriftsystemen.