Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Viele KI-Unternehmen trainieren ihre großen Sprachmodelle (LLMs) ohne die Erlaubnis der Urheber der Daten. Die Zulässigkeit variiert je nach Rechtsprechung: In Ländern wie der EU und Japan ist dies unter bestimmten Einschränkungen erlaubt, während die rechtliche Lage in den Vereinigten Staaten unklarer ist. Unabhängig vom rechtlichen Status haben Bedenken von Kreativschaffenden zu mehreren prominenten Urheberrechtsklagen geführt, und die Bedrohung durch Rechtsstreitigkeiten wird häufig als Grund für den aktuellen Trend zur Minimierung der Informationen über Trainingsdatensätze sowohl von Unternehmens- als auch von öffentlichen Interessengruppen genannt. Diese Tendenz zur Begrenzung von Dateninformationen schadet, indem sie Transparenz, Rechenschaftspflicht und Innovation im breiteren Ökosystem behindert, da Forschern, Prüfern und betroffenen Personen der Zugang zu den Informationen verwehrt wird, die benötigt werden, um KI-Modelle zu verstehen. Dies könnte durch das Training von Sprachmodellen mit frei zugänglichen und gemeinfreien Daten gemildert werden, aber zum Zeitpunkt der Abfassung gibt es keine solchen Modelle (die in signifikantem Umfang trainiert wurden) aufgrund der erheblichen technischen und soziologischen Herausforderungen beim Zusammenstellen des erforderlichen Korpus. Diese Herausforderungen umfassen unvollständige und unzuverlässige Metadaten, die Kosten und Komplexität der Digitalisierung physischer Aufzeichnungen und die vielfältigen rechtlichen und technischen Fähigkeiten, die erforderlich sind, um Relevanz und Verantwortung in einem sich schnell verändernden Umfeld sicherzustellen. Die Entwicklung hin zu einer Zukunft, in der KI-Systeme auf offen lizenzierten Daten trainiert werden können, die verantwortungsbewusst kuratiert und verwaltet werden, erfordert eine Zusammenarbeit über rechtliche, technische und politische Bereiche hinweg sowie Investitionen in Metadatenstandards, Digitalisierung und die Förderung einer Kultur der Offenheit.
Die Multi-Modal-Dokumentensuche ist darauf ausgelegt, verschiedene Formen von Multi-Modal-Inhalten wie Abbildungen, Tabellen, Diagramme und Layout-Informationen aus umfangreichen Dokumenten zu identifizieren und abzurufen. Trotz ihrer Bedeutung fehlt es jedoch an einem robusten Benchmark, um die Leistung von Systemen in der Multi-Modal-Dokumentensuche effektiv zu bewerten. Um diese Lücke zu schließen, führt diese Arbeit einen neuen Benchmark namens MMDocIR ein, der zwei unterschiedliche Aufgaben umfasst: die Seiten- und Layout-Ebene. Ersteres konzentriert sich darauf, die relevantesten Seiten in einem langen Dokument zu lokalisieren, während Letzteres die Erkennung spezifischer Layouts anvisiert und eine feinere Granularität als die Analyse der gesamten Seite bietet. Ein Layout kann sich auf verschiedene Elemente wie Textabsätze, Gleichungen, Abbildungen, Tabellen oder Diagramme beziehen. Der MMDocIR-Benchmark umfasst einen umfangreichen Datensatz mit fachkundig annotierten Labels für 1.685 Fragen und gebooteten Labels für 173.843 Fragen, was ihn zu einer entscheidenden Ressource für die Weiterentwicklung der Multi-Modal-Dokumentensuche sowohl für das Training als auch die Evaluation macht. Durch rigorose Experimente zeigen wir, dass (i) visuelle Sucher ihre textbasierten Gegenstücke signifikant übertreffen, (ii) der MMDocIR-Trainingsdatensatz den Trainingsprozess der Multi-Modal-Dokumentensuche effektiv unterstützen kann und (iii) Textsucher, die auf VLM-Text setzen, deutlich besser abschneiden als diejenigen, die OCR-Text verwenden. Diese Ergebnisse unterstreichen die potenziellen Vorteile der Integration visueller Elemente für die Multi-Modal-Dokumentensuche.
Die Generierung von 3D-Szenen hat in den letzten Jahren zunehmend an Aufmerksamkeit gewonnen und signifikante Fortschritte gemacht. Die Generierung von 4D-Städten ist anspruchsvoller als 3D-Szenen aufgrund der strukturell komplexen, visuell vielfältigen Objekte wie Gebäude und Fahrzeuge sowie der gesteigerten menschlichen Sensibilität für Verzerrungen in städtischen Umgebungen. Um diese Probleme anzugehen, schlagen wir CityDreamer4D vor, ein kompositionelles generatives Modell, das speziell für die Erzeugung unbegrenzter 4D-Städte entwickelt wurde. Unsere Haupterkenntnisse sind: 1) Die Generierung von 4D-Städten sollte dynamische Objekte (z. B. Fahrzeuge) von statischen Szenen (z. B. Gebäuden und Straßen) trennen und 2) alle Objekte in der 4D-Szene sollten aus verschiedenen Arten von neuronalen Feldern für Gebäude, Fahrzeuge und Hintergrundobjekte zusammengesetzt sein. Konkret schlagen wir den Verkehrsszenario-Generator und den ungebundenen Layout-Generator vor, um dynamische Verkehrsszenarien und statische Stadtlayouts mithilfe einer hochkompakten BEV-Repräsentation zu erzeugen. Objekte in 4D-Städten werden durch die Kombination von stuff-orientierten und instanzorientierten neuronalen Feldern für Hintergrundobjekte, Gebäude und Fahrzeuge generiert. Um den unterschiedlichen Eigenschaften von Hintergrundobjekten und Instanzen gerecht zu werden, verwenden die neuronalen Felder individuell angepasste generative Hash-Gitter und periodische Positionseinbettungen als Szenenparametrisierungen. Darüber hinaus bieten wir eine umfassende Auswahl an Datensätzen für die Stadterzeugung, einschließlich OSM, GoogleEarth und CityTopia. Der OSM-Datensatz bietet eine Vielzahl von städtischen Layouts aus der realen Welt, während die Google Earth- und CityTopia-Datensätze groß angelegte, qualitativ hochwertige städtische Bilder mit 3D-Instanzannotationen liefern. Durch sein kompositionelles Design unterstützt CityDreamer4D eine Vielzahl von Anwendungen, wie Instanzbearbeitung, Stadtspezialisierung und städtische Simulation, und bietet gleichzeitig eine erstklassige Leistung bei der Generierung realistischer 4D-Städte.
Die Videogenerierung hat mit der Einführung von Diffusionsmodellen bemerkenswerte Fortschritte erzielt, die die Qualität der generierten Videos erheblich verbessert haben. Allerdings lag der Schwerpunkt der jüngsten Forschung hauptsächlich auf der Skalierung des Modelltrainings, während nur begrenzte Einblicke in den direkten Einfluss von Repräsentationen auf den Videogenerierungsprozess geboten wurden. In diesem Papier untersuchen wir zunächst die Merkmale von Eigenschaften in den Zwischenschichten und stellen dabei erhebliche Variationen in den Aufmerksamkeitskarten zwischen verschiedenen Schichten fest. Diese Variationen führen zu instabilen semantischen Repräsentationen und tragen zu kumulativen Unterschieden zwischen Merkmalen bei, die letztendlich die Ähnlichkeit zwischen benachbarten Frames verringern und die zeitliche Kohärenz negativ beeinflussen. Um dies zu lösen, schlagen wir RepVideo vor, ein verbessertes Repräsentationsframework für Text-zu-Video-Diffusionsmodelle. Durch die Akkumulation von Merkmalen aus benachbarten Schichten zur Bildung angereicherter Repräsentationen erfasst dieser Ansatz stabilere semantische Informationen. Diese verbesserten Repräsentationen werden dann als Eingaben für den Aufmerksamkeitsmechanismus verwendet, wodurch die semantische Ausdruckskraft verbessert wird, während eine Merkmalskonsistenz zwischen benachbarten Frames sichergestellt wird. Umfangreiche Experimente zeigen, dass unser RepVideo nicht nur die Fähigkeit zur Generierung genauer räumlicher Erscheinungsbilder signifikant verbessert, wie die Erfassung komplexer räumlicher Beziehungen zwischen mehreren Objekten, sondern auch die zeitliche Kohärenz bei der Videogenerierung verbessert.
Die First-In-First-Out (FIFO) Video-Diffusion, auf einem vortrainierten Text-zu-Video-Modell aufbauend, hat sich kürzlich als effektiver Ansatz für die abstimmungsfreie Generierung langer Videos erwiesen. Diese Technik verwaltet eine Warteschlange von Video-Frames mit kontinuierlich zunehmendem Rauschen, indem sie kontinuierlich saubere Frames am Kopf der Warteschlange erzeugt, während am Ende Gaussisches Rauschen hinzugefügt wird. Allerdings hat FIFO-Diffusion oft Schwierigkeiten, die langfristige zeitliche Konsistenz in den generierten Videos aufrechtzuerhalten, aufgrund des Mangels an Modellierung der Korrespondenz zwischen den Frames. In diesem Paper schlagen wir Ouroboros-Diffusion vor, ein neuartiges Video-Denoising-Framework, das darauf abzielt, die strukturelle und inhaltliche (thematische) Konsistenz zu verbessern, um die Generierung konsistenter Videos beliebiger Länge zu ermöglichen. Speziell führen wir eine neue latente Abtasttechnik am Ende der Warteschlange ein, um die strukturelle Konsistenz zu verbessern und so für eine wahrnehmungsgemäß reibungslose Übergänge zwischen den Frames zu sorgen. Um die thematische Konsistenz zu verbessern, entwickeln wir einen Mechanismus namens Subject-Aware Cross-Frame Attention (SACFA), der Themen über kurze Segmente hinweg zwischen den Frames ausrichtet, um eine bessere visuelle Kohärenz zu erreichen. Darüber hinaus führen wir eine selbstrekurrente Führung ein. Diese Technik nutzt Informationen aus allen vorherigen saubereren Frames am Anfang der Warteschlange, um das Denoising der rauschigeren Frames am Ende zu leiten und so eine reiche und kontextuelle globale Informationsinteraktion zu fördern. Umfangreiche Experimente zur Generierung langer Videos auf dem VBench-Benchmark zeigen die Überlegenheit unserer Ouroboros-Diffusion, insbesondere in Bezug auf thematische Konsistenz, Bewegungsglattheit und zeitliche Konsistenz.
Wir präsentieren die erste Studie darüber, wie die Fähigkeit zur Argumentation von Multimodalen Sprachmodellen (MLLMs) zur Bewertung der Ästhetik von Kunstwerken herangezogen werden soll. Um diese Untersuchung zu erleichtern, konstruieren wir MM-StyleBench, einen neuartigen Datensatz von hoher Qualität zur Bewertung künstlerischer Stilisierung. Anschließend entwickeln wir eine methodische Methode zur Modellierung menschlicher Präferenzen und führen eine systematische Korrelationsanalyse zwischen den Antworten der MLLMs und menschlichen Präferenzen durch. Unsere Experimente enthüllen ein inhärentes Halluzinationsproblem von MLLMs bei der Kunstbewertung, das mit subjektiven Antworten verbunden ist. ArtCoT wird vorgeschlagen, was zeigt, dass eine kunstspezifische Aufgabenzerlegung und die Verwendung konkreter Sprache die Argumentationsfähigkeit von MLLMs für Ästhetik verbessern. Unsere Ergebnisse bieten wertvolle Einblicke in MLLMs für Kunst und können eine Vielzahl von nachgelagerten Anwendungen wie Stiltransfer und künstlerische Bildgenerierung unterstützen. Code verfügbar unter https://github.com/songrise/MLLM4Art.
In den letzten Jahren wurden bemerkenswerte Fortschritte bei der Generierung von künstlicher Intelligenz erzeugten Inhalten (KI-EC) auf den Gebieten der Bildsynthese und Textgenerierung erzielt, wodurch Inhalte erzeugt wurden, die mit denen von Menschen vergleichbar sind. Die Qualität von KI-generierter Musik hat jedoch noch nicht diesen Standard erreicht, hauptsächlich aufgrund der Herausforderung, musikalische Emotionen effektiv zu kontrollieren und hochwertige Ergebnisse sicherzustellen. Dieses Papier stellt ein generalisiertes symbolisches Musikgenerierungsframework, XMusic, vor, das flexible Eingaben (d. h. Bilder, Videos, Texte, Tags und Summen) unterstützt, um emotional kontrollierbare und hochwertige symbolische Musik zu generieren. XMusic besteht aus zwei Kernkomponenten, XProjector und XComposer. XProjector analysiert die Eingaben verschiedener Modalitäten in symbolische Musikelemente (d. h. Emotionen, Genres, Rhythmen und Noten) im Projektionsraum, um passende Musik zu generieren. XComposer enthält einen Generator und einen Selektor. Der Generator erzeugt emotional kontrollierbare und melodiöse Musik basierend auf unserer innovativen symbolischen Musikrepräsentation, während der Selektor hochwertige symbolische Musik identifiziert, indem er ein Multi-Task-Lernschema mit Qualitätsbewertung, Emotionserkennung und Genreerkennungsaufgaben erstellt. Darüber hinaus haben wir XMIDI erstellt, einen groß angelegten symbolischen Musikdatensatz, der 108.023 MIDI-Dateien enthält, die mit präzisen Emotions- und Genre-Labels versehen sind. Objektive und subjektive Bewertungen zeigen, dass XMusic die aktuellen State-of-the-Art-Methoden mit beeindruckender Musikqualität signifikant übertrifft. Unser XMusic wurde als eines der neun Highlights der Sammlerstücke bei WAIC 2023 ausgezeichnet. Die Projekt-Homepage von XMusic ist https://xmusic-project.github.io.
Bildpyramiden werden in leistungsstarken Methoden weit verbreitet eingesetzt, um mehrskalige Merkmale für eine präzise visuelle Wahrnehmung und Verständnis zu erhalten. Aktuelle Bildpyramiden verwenden jedoch dasselbe Modell im großen Maßstab, um mehrere Auflösungen von Bildern zu verarbeiten, was zu erheblichen Rechenkosten führt. Um diese Herausforderung anzugehen, schlagen wir eine neuartige Netzwerkarchitektur namens Parameter-Inverted Image Pyramid Networks (PIIP) vor. Speziell verwendet PIIP vortrainierte Modelle (ViTs oder CNNs) als Zweige zur Verarbeitung mehrskaliger Bilder, wobei Bilder mit höheren Auflösungen von kleineren Netzwerkzweigen verarbeitet werden, um Rechenkosten und Leistung auszugleichen. Um Informationen von verschiedenen räumlichen Skalen zu integrieren, schlagen wir außerdem einen neuartigen Mechanismus zur Querzweig-Merkmalinteraktion vor. Zur Validierung von PIIP wenden wir es auf verschiedene Wahrnehmungsmodelle und ein repräsentatives multimodales großes Sprachmodell namens LLaVA an und führen umfangreiche Experimente zu verschiedenen Aufgaben wie Objekterkennung, Segmentierung, Bildklassifizierung und multimodalem Verständnis durch. PIIP erzielt eine überlegene Leistung im Vergleich zu Ein-Zweig- und bestehenden Mehrskalenansätzen bei geringeren Rechenkosten. Bei Anwendung auf InternViT-6B, einem groß angelegten Vision-Grundlagenmodell, kann PIIP die Leistung bei Erkennung und Segmentierung um 1%-2% verbessern, wobei nur 40%-60% der ursprünglichen Berechnung benötigt werden, und erreicht schließlich 60,0 Box-AP auf MS COCO und 59,7 mIoU auf ADE20K. Für multimodales Verständnis erreicht unser PIIP-LLaVA eine Genauigkeit von 73,0% bei TextVQA und 74,5% bei MMBench mit nur 2,8 M Trainingsdaten. Unser Code ist unter https://github.com/OpenGVLab/PIIP verfügbar.
Wir interagieren oft mit nicht vertrauenswürdigen Parteien. Die Priorisierung der Privatsphäre kann die Effektivität dieser Interaktionen einschränken, da die Erreichung bestimmter Ziele die Weitergabe privater Daten erfordert. Traditionell wurde dieses Problem entweder durch die Suche nach vertrauenswürdigen Vermittlern oder durch den Aufbau kryptografischer Protokolle gelöst, die einschränken, wie viele Daten offengelegt werden, wie z.B. Mehrparteienberechnungen oder Nullwissenbeweise. Obwohl bedeutende Fortschritte bei der Skalierung kryptografischer Ansätze erzielt wurden, bleiben sie in Bezug auf die Größe und Komplexität der Anwendungen, für die sie verwendet werden können, begrenzt. In diesem Artikel argumentieren wir, dass leistungsfähige maschinelle Lernmodelle die Rolle eines vertrauenswürdigen Dritten übernehmen können, um sichere Berechnungen für Anwendungen zu ermöglichen, die zuvor nicht realisierbar waren. Insbesondere beschreiben wir Vertrauenswürdige Leistungsfähige Modellumgebungen (TCME) als alternativen Ansatz zur Skalierung sicherer Berechnungen, bei dem leistungsfähige maschinelle Lernmodelle unter Eingabe-/Ausgabe-Einschränkungen interagieren, mit expliziter Informationsflusskontrolle und expliziter Zustandslosigkeit. Dieser Ansatz zielt darauf ab, ein Gleichgewicht zwischen Privatsphäre und Recheneffizienz zu erreichen, um private Inferenz zu ermöglichen, wo klassische kryptografische Lösungen derzeit nicht realisierbar sind. Wir beschreiben eine Reihe von Anwendungsfällen, die durch TCME ermöglicht werden, und zeigen, dass sogar einige einfache klassische kryptografische Probleme bereits mit TCME gelöst werden können. Abschließend skizzieren wir aktuelle Einschränkungen und diskutieren den weiteren Weg zu ihrer Umsetzung.
Die Bildübereinstimmung sowohl für Cross-View als auch für Cross-Modality spielt eine entscheidende Rolle bei der multimodalen Wahrnehmung. In der Praxis stellt die Modalitätslücke, die durch unterschiedliche Bildgebungssysteme/-stile verursacht wird, große Herausforderungen für die Übereinstimmungsaufgabe dar. Bestehende Arbeiten versuchen, invariante Merkmale für spezifische Modalitäten zu extrahieren und auf begrenzten Datensätzen zu trainieren, was eine schlechte Verallgemeinerung zeigt. In diesem Artikel stellen wir MINIMA vor, ein einheitliches Bildübereinstimmungs-Framework für mehrere Cross-Modal-Fälle. Ohne aufwendige Module zu verfolgen, zielt unser MINIMA darauf ab, die universelle Leistung aus der Perspektive der Datenvergrößerung zu verbessern. Zu diesem Zweck schlagen wir eine einfache, aber effektive Daten-Engine vor, die einen großen Datensatz mit mehreren Modalitäten, reichen Szenarien und genauen Übereinstimmungslabels frei erstellen kann. Speziell skalieren wir die Modalitäten von günstigen, aber reichen RGB-only Übereinstimmungsdaten mittels generativer Modelle hoch. Unter dieser Konfiguration werden die Übereinstimmungslabels und die reiche Vielfalt des RGB-Datensatzes von den generierten multimodalen Daten gut übernommen. Davon profitierend konstruieren wir MD-syn, einen neuen umfassenden Datensatz, der die Datenlücke für die allgemeine multimodale Bildübereinstimmung schließt. Mit MD-syn können wir direkt jedes fortgeschrittene Übereinstimmungs-Pipeline auf zufällig ausgewählten Modalitätspaaren trainieren, um die Cross-Modal-Fähigkeit zu erlangen. Umfangreiche Experimente zu In-Domain- und Zero-Shot-Übereinstimmungsaufgaben, einschließlich 19 Cross-Modal-Fällen, zeigen, dass unser MINIMA signifikant besser abschneiden kann als die Baselines und sogar modalitätsspezifische Methoden übertreffen kann. Der Datensatz und der Code sind verfügbar unter https://github.com/LSXI7/MINIMA.
Die Interaktion mit der Welt ist ein multisensorisches Erlebnis: Um eine effektive allgemeine Interaktion zu erreichen, ist es erforderlich, alle verfügbaren Modalitäten - einschließlich Sehen, Berühren und Audio - zu nutzen, um Lücken aus teilweiser Beobachtung zu füllen. Wenn zum Beispiel die Sicht beim Greifen in eine Tasche verdeckt ist, sollte sich ein Roboter auf seine Tastsinne und sein Gehör verlassen. Allerdings werden hochmoderne generalistische Roboterstrategien in der Regel auf großen Datensätzen trainiert, um Roboteraktionen ausschließlich aus visuellen und propriozeptiven Beobachtungen vorherzusagen. In dieser Arbeit schlagen wir FuSe vor, einen neuartigen Ansatz, der es ermöglicht, visuomotorische generalistische Strategien auf heterogenen Sensor-Modalitäten, für die große Datensätze nicht leicht verfügbar sind, durch die Nutzung natürlicher Sprache als gemeinsame crossmodale Grundlage zu feinabstimmen. Wir kombinieren einen multimodalen kontrastiven Verlust mit einem auf sensorischer Grundlage beruhenden Sprachgenerierungsverlust, um semantische Informationen auf hoher Ebene zu codieren. Im Kontext der Roboter-Manipulation zeigen wir, dass FuSe das Durchführen anspruchsvoller Aufgaben ermöglicht, die ein gemeinsames Denken über Modalitäten wie Sehen, Berühren und Hören in einer Zero-Shot-Umgebung erfordern, wie z. B. multimodales Auffordern, kompositionelles crossmodales Auffordern und Beschreibungen von Objekten, mit denen es interagiert. Wir zeigen, dass dasselbe Rezept auf weitgehend unterschiedliche generalistische Strategien anwendbar ist, einschließlich sowohl diffusionsbasierter generalistischer Strategien als auch großer Vision-Sprache-Aktionsmodelle (VLA). Umfangreiche Experimente in der realen Welt zeigen, dass FuSe die Erfolgsraten im Vergleich zu allen betrachteten Baselines um über 20% steigern kann.