Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Diffusionsmodelle haben sich als leistungsstarkes Paradigma für die Generierung etabliert und erzielen in verschiedenen Domänen mit kontinuierlich-wertigen Eingaben beeindruckende Ergebnisse. Trotz der vielversprechenden Aussichten einer vollständig nicht-autoregressiven Textgenerierung bleibt die Anwendung von Diffusionsmodellen auf natürliche Sprache aufgrund ihrer diskreten Natur herausfordernd. In dieser Arbeit präsentieren wir Text-to-text Self-conditioned Simplex Diffusion (TESS), ein Textdiffusionsmodell, das vollständig nicht-autoregressiv ist, eine neue Form der Selbstkonditionierung verwendet und den Diffusionsprozess im Logit-Simplex-Raum anstelle des üblichen gelernten Einbettungsraums durchführt. Durch umfangreiche Experimente zu Aufgaben des natürlichen Sprachverständnisses und der Textgenerierung, einschließlich Zusammenfassung, Textvereinfachung, Paraphrasengenerierung und Fragengenerierung, zeigen wir, dass TESS state-of-the-art nicht-autoregressive Modelle übertrifft und mit vortrainierten autoregressiven Sequenz-zu-Sequenz-Modellen konkurrieren kann.
Universelle Quellentrennung (Universal Source Separation, USS) ist eine grundlegende Forschungsaufgabe der computergestützten auditiven Szenenanalyse, die darauf abzielt, Mono-Aufnahmen in einzelne Quellspuren zu trennen. Es gibt drei potenzielle Herausforderungen, die auf die Lösung der Aufgabe der Audioquellentrennung warten. Erstens konzentrieren sich bisherige Systeme zur Audioquellentrennung hauptsächlich auf die Trennung einer oder einer begrenzten Anzahl spezifischer Quellen. Es mangelt an Forschung zur Entwicklung eines einheitlichen Systems, das beliebige Quellen über ein einzelnes Modell trennen kann. Zweitens benötigen die meisten bisherigen Systeme saubere Quelldaten, um einen Separator zu trainieren, während saubere Quelldaten knapp sind. Drittens fehlt es an einem USS-System, das aktive Klangklassen auf einer hierarchischen Ebene automatisch erkennen und trennen kann. Um groß angelegte, schwach annotierte oder nicht annotierte Audiodaten für die Audioquellentrennung zu nutzen, schlagen wir ein universelles Framework für die Audioquellentrennung vor, das Folgendes enthält: 1) ein auf schwach annotierten Daten trainiertes Audio-Tagging-Modell als Abfragenetz (Query Net) und 2) ein bedingtes Quellentrennungsmodell, das die Ausgaben des Abfragenetzes als Bedingungen verwendet, um beliebige Klangquellen zu trennen. Wir untersuchen verschiedene Abfragenetze, Quellentrennungsmodelle und Trainingsstrategien und schlagen eine hierarchische USS-Strategie vor, um Klangklassen aus der AudioSet-Ontologie automatisch zu erkennen und zu trennen. Durch die ausschließliche Nutzung des schwach annotierten AudioSets ist unser USS-System erfolgreich in der Trennung einer Vielzahl von Klangklassen, einschließlich der Trennung von Klangereignissen, Musikquellentrennung und Sprachverbesserung. Das USS-System erreicht eine durchschnittliche Verbesserung des Signal-zu-Verzerrungs-Verhältnisses (SDRi) von 5,57 dB über 527 Klangklassen des AudioSets; 10,57 dB auf dem DCASE 2018 Task 2-Datensatz; 8,12 dB auf dem MUSDB18-Datensatz; einen SDRi von 7,28 dB auf dem Slakh2100-Datensatz und einen SSNR von 9,00 dB auf dem Voicebank-Demand-Datensatz. Wir veröffentlichen den Quellcode unter https://github.com/bytedance/uss.
Die textgesteuerten Bild- und Video-Diffusionsmodelle haben beispiellose Erfolge bei der Erzeugung realistischer und vielfältiger Inhalte erzielt. In jüngster Zeit haben die Bearbeitung und Variation bestehender Bilder und Videos in diffusionsbasierten generativen Modellen erhebliche Aufmerksamkeit erregt. Bisherige Arbeiten beschränken sich jedoch darauf, Inhalte mit Text zu bearbeiten oder grobe Personalisierungen mithilfe eines einzigen visuellen Hinweises zu ermöglichen, was sie für schwer beschreibbare Inhalte ungeeignet macht, die eine fein abgestimmte und detaillierte Steuerung erfordern. In diesem Zusammenhang schlagen wir ein allgemeines Videobearbeitungsframework namens Make-A-Protagonist vor, das textuelle und visuelle Hinweise nutzt, um Videos zu bearbeiten, mit dem Ziel, Einzelpersonen zu befähigen, die Hauptrolle zu übernehmen. Konkret setzen wir mehrere Experten ein, um das Quellvideo, die Zielhinweise in visueller und textueller Form zu analysieren, und schlagen ein visuell-textuell basiertes Videogenerierungsmodell vor, das eine maskengeführte Denoising-Stichprobenentnahme verwendet, um das gewünschte Ergebnis zu erzeugen. Umfangreiche Ergebnisse demonstrieren die vielseitigen und bemerkenswerten Bearbeitungsfähigkeiten von Make-A-Protagonist.
Zusammenfassungsmodelle erzeugen oft Texte, die schlecht an Qualitätsmetriken angepasst sind, da sie darauf trainiert sind, die Wahrscheinlichkeit einer einzelnen Referenz zu maximieren (MLE). Um dies zu beheben, haben neuere Arbeiten einen Kalibrierungsschritt hinzugefügt, bei dem ein Modell seinen eigenen, nach Rang geordneten Ausgaben ausgesetzt wird, um die Relevanz zu verbessern, oder, in einer separaten Forschungsrichtung, positive und negative Mengen kontrastiert werden, um die Treue zu erhöhen. Obwohl effektiv, hat sich ein Großteil dieser Arbeit darauf konzentriert, wie diese Mengen generiert und optimiert werden können. Weniger bekannt ist, warum ein bestimmter Ansatz effektiver ist als ein anderer. In dieser Arbeit untersuchen wir die zugrunde liegenden Eigenschaften effektiver Mengen. Für jede Trainingsinstanz bilden wir einen großen, vielfältigen Pool von Kandidaten und variieren systematisch die Teilmengen, die für die Kalibrierungsfeinabstimmung verwendet werden. Jede Auswahlstrategie zielt auf unterschiedliche Aspekte der Mengen ab, wie lexikalische Vielfalt oder die Größe der Lücke zwischen positiven und negativen Beispielen. Auf drei verschiedenen wissenschaftlichen Langform-Zusammenfassungsdatensätzen (die biomedizinische, klinische und chemische Domänen abdecken) finden wir unter anderem, dass die Kalibrierung der Treue optimal ist, wenn die negativen Mengen extraktiv sind und mit höherer Wahrscheinlichkeit generiert werden, während für die Relevanzkalibrierung der Metrikabstand zwischen den Kandidaten maximiert und die Überraschung – die Diskrepanz zwischen den vom Modell und der Metrik definierten Kandidatenrangfolgen – minimiert werden sollte. Code zum Erstellen, Auswählen und Optimieren von Kalibrierungsmengen ist verfügbar unter https://github.com/griff4692/calibrating-summaries.
Während das Vortraining auf groß angelegten Bild-Text-Daten aus dem Internet rasche Fortschritte bei vielen Vision-and-Language (V&L)-Aufgaben ermöglicht hat, hat die jüngste Forschung gezeigt, dass vortrainierte Modelle ein „feinkörniges“ Verständnis vermissen, wie die Fähigkeit, Beziehungen, Verben und Zahlen in Bildern zu erkennen. Dies hat zu einem gesteigerten Interesse in der Community geführt, entweder neue Benchmarks oder Modelle für solche Fähigkeiten zu entwickeln. Um Fortschritte in diese Richtung besser zu verstehen und zu quantifizieren, untersuchen wir vier konkurrierende V&L-Modelle anhand von vier feinkörnigen Benchmarks. Durch unsere Analyse stellen wir fest, dass X-VLM (Zeng et al., 2022) durchweg andere Baselines übertrifft und dass Modellierungsinnovationen die Leistung stärker beeinflussen können als die Skalierung von Webdaten, die manchmal sogar die Leistung verschlechtert. Durch eine tiefergehende Untersuchung von X-VLM heben wir die Bedeutung sowohl neuartiger Verlustfunktionen als auch reicher Datenquellen für das Erlernen feinkörniger Fähigkeiten hervor. Schließlich untersuchen wir die Trainingsdynamik und entdecken, dass die Leistung bei einigen Aufgaben früh im Training ihren Höhepunkt erreicht oder erheblich schwankt, ohne jemals zu konvergieren.
Die Erzeugung treuer Visualisierungen menschlicher Gesichter erfordert die Erfassung sowohl grober als auch feiner Details der Gesichtsgeometrie und -erscheinung. Bestehende Methoden sind entweder datengetrieben und benötigen einen umfangreichen Datensatz, der der Forschungsgemeinschaft nicht öffentlich zugänglich ist, oder sie erfassen keine feinen Details, da sie sich auf geometrische Gesichtsmodelle stützen, die fein abgestufte Texturen aufgrund einer Mesh-Diskretisierung und linearen Deformation, die nur eine grobe Gesichtsgeometrie modellieren soll, nicht darstellen können. Wir stellen eine Methode vor, die diese Lücke schließt, indem sie sich von traditionellen Techniken der Computergrafik inspirieren lässt. Unbekannte Ausdrücke werden modelliert, indem das Erscheinungsbild aus einer spärlichen Menge extremer Posen gemischt wird. Dieses Mischen erfolgt durch die Messung lokaler volumetrischer Veränderungen in diesen Ausdrücken und die lokale Reproduktion ihres Erscheinungsbildes, sobald ein ähnlicher Ausdruck zur Testzeit ausgeführt wird. Wir zeigen, dass unsere Methode auf unbekannte Ausdrücke verallgemeinert, fein abgestufte Effekte auf glatte volumetrische Deformationen eines Gesichts hinzufügt, und demonstrieren, wie sie über Gesichter hinaus verallgemeinert.
Um sicherzustellen, dass große Sprachmodelle (LMs) fair, robust und nützlich sind, ist es erforderlich zu verstehen, wie verschiedene Modifikationen ihrer Eingaben das Verhalten des Modells beeinflussen. Im Kontext von Open-Text-Generierungsaufgaben ist eine solche Bewertung jedoch nicht trivial. Wenn beispielsweise ein Modell mit einem Eingabetext und einer veränderten, „kontrastiven“ Version davon konfrontiert wird, können bedeutungsvolle Unterschiede in den Vorhersagen des nächsten Tokens mit Standard-Decodierungsstrategien möglicherweise nicht aufgedeckt werden. Vor diesem Hintergrund schlagen wir Contrastive Input Decoding (CID) vor: einen Decodierungsalgorithmus, der Text basierend auf zwei Eingaben generiert, wobei der generierte Text für eine Eingabe wahrscheinlich, für die andere jedoch unwahrscheinlich ist. Auf diese Weise können die kontrastiven Generierungen potenziell subtile Unterschiede in der Ausgabe des LMs für die beiden Eingaben auf einfache und interpretierbare Weise hervorheben. Wir verwenden CID, um kontextspezifische Verzerrungen aufzuzeigen, die mit Standard-Decodierungsstrategien schwer zu erkennen sind, und quantifizieren die Auswirkungen verschiedener Eingabestörungen.
In dieser Arbeit untersuchen wir ein neuartiges Problem in der egozentrischen Aktionserkennung, das wir als „Multimodale Generalisierung“ (MMG) bezeichnen. MMG zielt darauf ab, zu erforschen, wie Systeme generalisieren können, wenn Daten bestimmter Modalitäten begrenzt oder sogar vollständig fehlen. Wir untersuchen MMG gründlich im Kontext der standardmäßig überwachten Aktionserkennung sowie der anspruchsvolleren Few-Shot-Einstellung zum Erlernen neuer Aktionskategorien. MMG besteht aus zwei neuartigen Szenarien, die entwickelt wurden, um Sicherheits- und Effizienzüberlegungen in realen Anwendungen zu unterstützen: (1) Generalisierung bei fehlender Modalität, bei der einige Modalitäten, die während der Trainingszeit vorhanden waren, während der Inferenzzeit fehlen, und (2) Cross-modale Zero-Shot-Generalisierung, bei der die Modalitäten während der Inferenzzeit und der Trainingszeit disjunkt sind. Um diese Untersuchung zu ermöglichen, erstellen wir einen neuen Datensatz MMG-Ego4D, der Datenpunkte mit Video-, Audio- und Trägheitssensor (IMU)-Modalitäten enthält. Unser Datensatz basiert auf dem Ego4D-Datensatz, wurde jedoch von menschlichen Experten verarbeitet und gründlich neu annotiert, um die Forschung im MMG-Problem zu erleichtern. Wir bewerten eine Vielzahl von Modellen auf MMG-Ego4D und schlagen neue Methoden mit verbesserter Generalisierungsfähigkeit vor. Insbesondere führen wir ein neues Fusionsmodul mit Modalitäts-Dropout-Training, kontrastbasiertem Alignment-Training und einem neuartigen Cross-modalen prototypischen Verlust für eine bessere Few-Shot-Leistung ein. Wir hoffen, dass diese Studie als Benchmark dienen und zukünftige Forschungen zu multimodalen Generalisierungsproblemen leiten wird. Der Benchmark und der Code werden unter https://github.com/facebookresearch/MMG_Ego4D verfügbar sein.
Ressourcenplanung und -zuweisung ist ein entscheidender Bestandteil vieler hochwirksamer Systeme, die von der Überlastungskontrolle bis hin zum Cloud Computing reichen. Die Suche nach optimaleren Lösungen für diese Probleme hat oft erhebliche Auswirkungen auf die Einsparung von Ressourcen und Zeit, die Reduzierung von Geräteverschleiß und sogar die potenzielle Verbesserung der Kohlenstoffemissionen. In diesem Artikel konzentrieren wir uns auf eine spezifische Instanz eines Planungsproblems, nämlich das Speicherzuordnungsproblem, das während der Kompilierung von maschinellen Lernprogrammen auftritt: das heißt, die Zuordnung von Tensoren zu verschiedenen Speicherebenen, um die Ausführungszeit zu optimieren. Wir stellen einen Ansatz zur Lösung des Speicherzuordnungsproblems mittels Reinforcement Learning (RL) vor. RL ist ein Lösungsparadigma, das sich gut für sequenzielle Entscheidungsprobleme eignet, die sich für die Planung eignen, sowie für kombinatorische Suchräume mit hochdimensionalen Dateneingaben. Wir formulieren das Problem als Einzelspieler-Spiel, das wir mallocGame nennen, sodass hochbewertete Spielverläufe effiziente Speicherzuordnungen auf der Zielhardware entsprechen. Wir führen auch einen Reinforcement-Learning-Agenten, mallocMuZero, ein und zeigen, dass dieser in der Lage ist, dieses Spiel zu spielen, um neue und verbesserte Speicherzuordnungslösungen zu entdecken, die zu schnelleren Ausführungszeiten bei realen ML-Workloads auf ML-Beschleunigern führen. Wir vergleichen die Leistung von mallocMuZero mit dem Standardlöser, der vom Accelerated Linear Algebra (XLA)-Compiler verwendet wird, anhand eines Benchmarks realistischer ML-Workloads. Darüber hinaus zeigen wir, dass mallocMuZero in der Lage ist, die Ausführungszeit des kürzlich veröffentlichten AlphaTensor-Matrixmultiplikationsmodells zu verbessern.
Eine Reihe führender KI-Unternehmen, darunter OpenAI, Google DeepMind und Anthropic, haben das erklärte Ziel, künstliche allgemeine Intelligenz (AGI) zu entwickeln – KI-Systeme, die menschliche Leistungen in einer Vielzahl kognitiver Aufgaben erreichen oder übertreffen. Bei der Verfolgung dieses Ziels könnten sie KI-Systeme entwickeln und einsetzen, die besonders bedeutende Risiken bergen. Obwohl bereits einige Maßnahmen zur Risikominderung ergriffen wurden, haben sich noch keine Best Practices etabliert. Um die Identifizierung von Best Practices zu unterstützen, haben wir eine Umfrage an 92 führende Experten aus AGI-Laboren, der Wissenschaft und der Zivilgesellschaft verschickt und 51 Antworten erhalten. Die Teilnehmer wurden gefragt, inwieweit sie 50 Aussagen darüber zustimmten, was AGI-Labore tun sollten. Unser Hauptergebnis ist, dass die Teilnehmer im Durchschnitt allen Aussagen zustimmten. Viele Aussagen erhielten ein extrem hohes Maß an Zustimmung. Beispielsweise stimmten 98 % der Befragten teilweise oder vollständig zu, dass AGI-Labore Risikobewertungen vor der Bereitstellung, Bewertungen gefährlicher Fähigkeiten, Audits durch Dritte, Sicherheitsbeschränkungen für die Modellnutzung und Red Teaming durchführen sollten. Letztendlich könnte unsere Liste von Aussagen als hilfreiche Grundlage für die Entwicklung von Best Practices, Standards und Regulierungen für AGI-Labore dienen.