Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Vergrößerung eines Transformer-Modells führt nicht immer zu einer verbesserten Leistung. Dieses Phänomen kann nicht durch die empirischen Skalierungsgesetze erklärt werden. Darüber hinaus tritt eine verbesserte Verallgemeinerungsfähigkeit auf, wenn das Modell die Trainingsdaten auswendig lernt. Wir präsentieren einen theoretischen Rahmen, der Licht auf den Memorisierungsprozess und die Leistungsdynamik von auf Transformatoren basierenden Sprachmodellen wirft. Wir modellieren das Verhalten von Transformatoren mit assoziativen Gedächtnissen unter Verwendung von Hopfield-Netzwerken, so dass jeder Transformer-Block effektiv eine ungefähre nächste-Nachbar-Suche durchführt. Basierend darauf entwerfen wir eine Energiefunktion, die der in modernen kontinuierlichen Hopfield-Netzwerken ähnelt und eine aufschlussreiche Erklärung für den Aufmerksamkeitsmechanismus liefert. Unter Verwendung der Majorisierungs-Minimierungs-Technik konstruieren wir eine globale Energiefunktion, die die geschichtete Architektur des Transformers erfasst. Unter spezifischen Bedingungen zeigen wir, dass der minimal erreichbare Kreuzentropieverlust von unten durch eine Konstante begrenzt ist, die ungefähr gleich 1 ist. Wir untermauern unsere theoretischen Ergebnisse, indem wir Experimente mit GPT-2 in verschiedenen Datengrößen sowie das Training von einfachen Transformatoren auf einem Datensatz von 2 Millionen Tokens durchführen.
Als Menschen streben wir danach, Medieninhalte zu schaffen, die sowohl freiwillig als auch leicht kontrollierbar sind. Dank der bedeutenden Entwicklung generativer Techniken können wir nun problemlos 2D-Diffusionsmethoden nutzen, um Bilder zu synthetisieren, die durch Rohskizzen oder bestimmte menschliche Posen gesteuert werden, und sogar lokale Regionen progressiv zu bearbeiten/regenerieren mit maskiertem Inpainting. Ähnliche Workflows bei 3D-Modellierungsaufgaben sind jedoch aufgrund mangelnder Kontrollierbarkeit und Effizienz bei der 3D-Generierung noch nicht verfügbar. In diesem Paper präsentieren wir ein neuartiges kontrollierbares und interaktives 3D-Assets-Modellierungsframework namens Coin3D. Coin3D ermöglicht es Benutzern, die 3D-Generierung mithilfe eines groben geometrischen Proxys zu steuern, der aus Grundformen zusammengesetzt ist, und führt einen interaktiven Generierungsworkflow ein, um nahtloses lokales Teile-Editing zu unterstützen, während gleichzeitig innerhalb weniger Sekunden eine reaktionsschnelle 3D-Objektvorschau geliefert wird. Zu diesem Zweck entwickeln wir mehrere Techniken, darunter den 3D-Adapter, der volumetrische grobe Formkontrolle auf das Diffusionsmodell anwendet, eine Proxy-gebundene Bearbeitungsstrategie für präzises Teile-Editing, einen progressiven Volumen-Cache zur Unterstützung reaktionsschneller Vorschauen und Volume-SDS zur Sicherstellung einer konsistenten Mesh-Rekonstruktion. Umfangreiche Experimente zur interaktiven Generierung und Bearbeitung an verschiedenen Formproxys zeigen, dass unsere Methode eine überlegene Kontrollierbarkeit und Flexibilität bei der 3D-Assets-Generierungsaufgabe erreicht.
Wir präsentieren Hunyuan-DiT, einen Text-zu-Bild-Diffusionstransformer mit feingranuliertem Verständnis sowohl von Englisch als auch von Chinesisch. Um Hunyuan-DiT aufzubauen, entwerfen wir sorgfältig die Transformer-Struktur, den Text-Encoder und die Positionscodierung. Wir erstellen auch von Grund auf eine gesamte Datenpipeline, um Daten für die iterative Modelloptimierung zu aktualisieren und zu bewerten. Für ein feingranuliertes Sprachverständnis trainieren wir ein Multimodales Großes Sprachmodell, um die Bildunterschriften zu verfeinern. Schließlich kann Hunyuan-DiT einen Multi-Turn-Multimodal-Dialog mit Benutzern durchführen, Bilder gemäß dem Kontext generieren und verfeinern. Durch unser ganzheitliches menschliches Evaluierungsprotokoll mit mehr als 50 professionellen menschlichen Evaluatoren setzt Hunyuan-DiT im Vergleich zu anderen Open-Source-Modellen einen neuen Stand der Technik in der chinesischen Bildgenerierung. Code und vortrainierte Modelle sind öffentlich verfügbar unter github.com/Tencent/HunyuanDiT.
Das Lernen durch Verstärkung aus menschlichem Feedback (RLHF) ist der kanonische Rahmen für die Ausrichtung großer Sprachmodelle. Allerdings fordert die zunehmende Beliebtheit von Offline-Ausrichtungsalgorithmen die Notwendigkeit von On-Policy-Sampling in RLHF heraus. Im Kontext der Überoptimierung von Belohnungen beginnen wir mit einer Reihe von Experimenten, die den klaren Vorteil von Online-Methoden gegenüber Offline-Methoden aufzeigen. Dies führt uns dazu, die Ursachen für die Leistungsunterschiede durch eine Reihe sorgfältig gestalteter experimenteller Ablationen zu untersuchen. Wir zeigen empirisch, dass Hypothesen wie die Abdeckung von Offline-Daten und die Datenqualität für sich genommen den Leistungsunterschied nicht überzeugend erklären können. Wir stellen auch fest, dass während Offline-Algorithmen das Training der Richtlinie darauf abzielt, gut in der paarweisen Klassifizierung zu sein, es bei der Generierung schlechter abschneidet; währenddessen sind die Richtlinien, die von Online-Algorithmen trainiert werden, gut in der Generierung, aber schlechter in der paarweisen Klassifizierung. Dies deutet auf ein einzigartiges Zusammenspiel zwischen diskriminativen und generativen Fähigkeiten hin, das stark vom Sampling-Prozess beeinflusst wird. Schließlich beobachten wir, dass der Leistungsunterschied sowohl für kontrastive als auch für nicht-kontrastive Verlustfunktionen bestehen bleibt und anscheinend nicht durch einfaches Skalieren von Richtliniennetzwerken behoben werden kann. Zusammenfassend beleuchtet unsere Studie die entscheidende Rolle des On-Policy-Samplings bei der KI-Ausrichtung und deutet auf bestimmte grundlegende Herausforderungen von Offline-Ausrichtungsalgorithmen hin.
Große Sprachmodelle (LLMs) haben eine unglaubliche Kompetenz bei der Durchführung von Aufgaben gezeigt, die eine semantische Verständnis von natürlichsprachlichen Anweisungen erfordern. In letzter Zeit haben viele Arbeiten diese Fähigkeit weiter ausgebaut, um multimodale Audio- und Texteingaben wahrzunehmen, aber ihre Fähigkeiten sind oft auf spezifische feinabgestimmte Aufgaben wie automatische Spracherkennung und Übersetzung beschränkt. Daher haben wir SpeechVerse entwickelt, ein robustes Multi-Task-Trainings- und Curriculum-Lernframework, das vortrainierte Sprach- und Textgrundlagenmodelle über eine kleine Menge erlernbarer Parameter kombiniert, während die vortrainierten Modelle während des Trainings eingefroren bleiben. Die Modelle werden durch kontinuierliche latente Repräsentationen, die aus dem Sprachgrundlagenmodell extrahiert werden, anhand von natürlichsprachlichen Anweisungen feinabgestimmt, um optimale Null-Schuss-Leistung bei einer Vielzahl von Sprachverarbeitungsaufgaben zu erreichen. Wir führen umfangreiche Benchmarking durch, das die Leistung unseres Modells mit traditionellen Baselines über mehrere Datensätze und Aufgaben vergleicht. Darüber hinaus bewerten wir die Fähigkeit des Modells zur generalisierten Anweisungsbefolgung, indem wir es an Out-of-Domain-Datensätzen, neuen Aufforderungen und unbekannten Aufgaben testen. Unsere empirischen Experimente zeigen, dass unser Multi-Task-SpeechVerse-Modell sogar bei 9 von 11 Aufgaben den konventionellen aufgabenspezifischen Baselines überlegen ist.
Bestehende Text-zu-Bild-Modelle haben Schwierigkeiten, komplexen Textanweisungen zu folgen, was die Notwendigkeit zusätzlicher Grundlageingaben für eine bessere Steuerbarkeit aufwirft. In dieser Arbeit schlagen wir vor, eine Szene in visuelle Primitive zu zerlegen - bezeichnet als dichte Blob-Repräsentationen -, die fein granulare Details der Szene enthalten, während sie modular, menscheninterpretierbar und einfach zu konstruieren sind. Basierend auf Blob-Repräsentationen entwickeln wir ein Blob-gegründetes Text-zu-Bild-Diffusionsmodell, genannt BlobGEN, für die kompositorische Generierung. Insbesondere führen wir ein neues maskiertes Kreuz-Aufmerksamkeitsmodul ein, um die Verschmelzung zwischen Blob-Repräsentationen und visuellen Merkmalen zu entwirren. Um die Kompositionsweise großer Sprachmodelle (LLMs) zu nutzen, führen wir einen neuen In-Kontext-Lernansatz ein, um Blob-Repräsentationen aus Textanweisungen zu generieren. Unsere umfangreichen Experimente zeigen, dass BlobGEN eine überlegene Null-Schuss-Generierungsqualität und eine bessere layoutgesteuerte Steuerbarkeit auf MS-COCO erreicht. Wenn durch LLMs ergänzt, zeigt unsere Methode eine überlegene numerische und räumliche Korrektheit bei kompositorischen Bildgenerierungsbewertungen. Projektseite: https://blobgen-2d.github.io.
Aktuelle Architekturen für die Videoverarbeitung basieren hauptsächlich auf 3D-Faltungsblöcken oder 2D-Faltungen mit zusätzlichen Operationen für die zeitliche Modellierung. Diese Methoden betrachten jedoch alle die zeitliche Achse als separate Dimension der Videosequenz, was einen hohen Rechenaufwand und Speicherbedarf erfordert und somit ihre Verwendung auf mobilen Geräten einschränkt. In diesem Artikel schlagen wir vor, die Zeitachse einer Videosequenz in die Kanaldimension zu komprimieren und ein leichtgewichtiges Videoerkennungsnetzwerk namens SqueezeTime für die mobile Videoverarbeitung vorzustellen. Um die zeitliche Modellierungsfähigkeit des vorgeschlagenen Netzwerks zu verbessern, entwerfen wir einen Kanal-Zeit-Lernblock (CTL-Block), um die zeitlichen Dynamiken der Sequenz zu erfassen. Dieses Modul verfügt über zwei ergänzende Zweige, wobei ein Zweig für das Lernen der zeitlichen Bedeutung und ein anderer Zweig mit der Fähigkeit zur Wiederherstellung der zeitlichen Position zur Verbesserung der zwischenzeitlichen Objektmodellierungsfähigkeit dient. Das vorgeschlagene SqueezeTime ist wesentlich leichter und schneller mit hoher Genauigkeit für die mobile Videoverarbeitung. Um die Überlegenheit unseres Modells zu zeigen, wurden umfangreiche Experimente an verschiedenen Benchmarks für die Videoklassifizierung und Aktionsdetektion, wie Kinetics400, Kinetics600, HMDB51, AVA2.1 und THUMOS14, durchgeführt. Beispielsweise erzielt unser SqueezeTime eine Genauigkeitssteigerung von +1,2% und eine GPU-Durchsatzsteigerung von +80% bei Kinetics400 im Vergleich zu früheren Methoden. Der Quellcode ist öffentlich verfügbar unter https://github.com/xinghaochen/SqueezeTime und https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.
Integrierte Sprach- und Große Sprachmodelle (SLMs), die Sprachanweisungen folgen und relevante Textantworten generieren können, haben in letzter Zeit an Popularität gewonnen. Die Sicherheit und Robustheit dieser Modelle bleibt jedoch weitgehend unklar. In dieser Arbeit untersuchen wir potenzielle Schwachstellen solcher sprachgesteuerten Sprach- und Textmodelle gegenüber adversen Angriffen und Jailbreaking. Konkret entwerfen wir Algorithmen, die adversative Beispiele generieren können, um SLMs in sowohl White-Box- als auch Black-Box-Angriffsszenarien ohne menschliche Beteiligung zu jailbreaken. Darüber hinaus schlagen wir Gegenmaßnahmen vor, um solche Jailbreaking-Angriffe zu vereiteln. Unsere Modelle, die auf Dialogdaten mit Sprachanweisungen trainiert sind, erzielen Spitzenleistungen bei der gesprochenen Frage-Antwort-Aufgabe und erreichen über 80% bei Sicherheits- und Hilfsbereitschaftsmetriken. Trotz Sicherheitsvorkehrungen zeigen Experimente zum Jailbreaking die Anfälligkeit von SLMs gegenüber adversen Störungen und Transferangriffen auf, mit durchschnittlichen Angriffserfolgsraten von 90% bzw. 10%, wenn sie auf einem Datensatz sorgfältig gestalteter schädlicher Fragen aus 12 verschiedenen toxischen Kategorien evaluiert werden. Allerdings zeigen wir, dass unsere vorgeschlagenen Gegenmaßnahmen den Angriffserfolg signifikant reduzieren.