Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Trotz der beeindruckenden Fähigkeiten von Large Language Models (LLMs) bei verschiedenen Aufgaben haben sie immer noch Schwierigkeiten in Szenarien, die komplexe Schlussfolgerungen und Planung erfordern. In jüngsten Arbeiten wurden fortschrittliche Prompting-Techniken vorgeschlagen und die Notwendigkeit des Feinabstimmens mit hochwertigen Daten, um die Schlussfolgerungsfähigkeiten von LLMs zu verbessern. Diese Ansätze sind jedoch inhärent durch die Verfügbarkeit und Qualität der Daten eingeschränkt. Vor diesem Hintergrund erweisen sich Selbstkorrektur und Selbstlernen als gangbare Lösungen, die Strategien einsetzen, die es LLMs ermöglichen, ihre Ausgaben zu verfeinern und aus selbstbewerteten Belohnungen zu lernen. Dennoch bleibt die Wirksamkeit von LLMs bei der Selbstverbesserung ihrer Antworten, insbesondere bei komplexen Schlussfolgerungs- und Planungsaufgaben, fraglich. In diesem Paper stellen wir AlphaLLM für die Selbstverbesserung von LLMs vor, das Monte Carlo Tree Search (MCTS) mit LLMs integriert, um eine Selbstverbesserungsschleife zu etablieren und damit die Fähigkeiten von LLMs ohne zusätzliche Annotationen zu verbessern. Inspiriert vom Erfolg von AlphaGo, adressiert AlphaLLM die einzigartigen Herausforderungen der Kombination von MCTS mit LLM zur Selbstverbesserung, einschließlich Datenknappheit, der Weite der Suchräume von Sprachaufgaben und der subjektiven Natur des Feedbacks bei Sprachaufgaben. AlphaLLM besteht aus einem Prompt-Synthese-Modul, einem effizienten MCTS-Ansatz, der für Sprachaufgaben maßgeschneidert ist, und einem Trio von Kritikmodellen für präzises Feedback. Unsere experimentellen Ergebnisse bei mathematischen Schlussfolgerungsaufgaben zeigen, dass AlphaLLM die Leistung von LLMs signifikant verbessert, ohne zusätzliche Annotationen, was das Potenzial für Selbstverbesserung in LLMs aufzeigt.
Textanimation dient als ausdrucksstarkes Medium, das statische Kommunikation in dynamische Erlebnisse verwandelt, indem es Wörter mit Bewegung durchdringt, um Emotionen hervorzurufen, Bedeutungen zu betonen und überzeugende Erzählungen zu konstruieren. Die Erstellung von Animationen, die semantisch bewusst sind, birgt erhebliche Herausforderungen, die Fachkenntnisse in Grafikdesign und Animation erfordern. Wir stellen ein automatisiertes Textanimationsverfahren vor, das als "Dynamische Typografie" bezeichnet wird und zwei anspruchsvolle Aufgaben kombiniert. Es verformt Buchstaben, um semantische Bedeutungen zu vermitteln, und durchdringt sie mit lebendigen Bewegungen basierend auf Benutzerhinweisen. Unsere Technik nutzt Vektorgrafikdarstellungen und ein optimierungsbasiertes End-to-End-Framework. Dieses Framework verwendet neuronale Verschiebungsfelder, um Buchstaben in Grundformen umzuwandeln und wendet pro Frame Bewegungen an, die die Kohärenz mit dem beabsichtigten Textkonzept fördern. Techniken zur Formbewahrung und Regularisierung des perzeptuellen Verlusts werden eingesetzt, um Lesbarkeit und strukturelle Integrität während des Animationsprozesses aufrechtzuerhalten. Wir zeigen die Verallgemeinerbarkeit unseres Ansatzes über verschiedene Text-zu-Video-Modelle hinweg und heben die Überlegenheit unserer End-to-End-Methodik gegenüber Basisverfahren hervor, die separate Aufgaben umfassen könnten. Durch quantitative und qualitative Bewertungen zeigen wir die Wirksamkeit unseres Frameworks bei der Erzeugung kohärenter Textanimationen, die Benutzerhinweise treu interpretieren und gleichzeitig die Lesbarkeit bewahren. Unser Code ist verfügbar unter: https://animate-your-word.github.io/demo/.
Wir schlagen MeshLRM vor, einen neuartigen auf LRM basierenden Ansatz, der in weniger als einer Sekunde ein hochwertiges Netz aus lediglich vier Eingabebildern rekonstruieren kann. Im Gegensatz zu früheren großen Rekonstruktionsmodellen (LRMs), die sich auf NeRF-basierte Rekonstruktion konzentrieren, integriert MeshLRM differenzierbare Netzextraktion und Rendering in das LRM-Framework. Dies ermöglicht eine End-to-End-Netzrekonstruktion durch Feinabstimmung eines vorab trainierten NeRF-LRMs mit Netzrendering. Darüber hinaus verbessern wir die LRM-Architektur, indem wir mehrere komplexe Designs in früheren LRMs vereinfachen. Die NeRF-Initialisierung von MeshLRM wird sequenziell mit Niedrig- und Hochauflösungsbildern trainiert; diese neue LRM-Trainingsstrategie ermöglicht eine deutlich schnellere Konvergenz und führt somit zu besserer Qualität bei geringerem Rechenaufwand. Unser Ansatz erreicht eine hochmoderne Netzrekonstruktion aus spärlichen Ansichtseingaben und ermöglicht auch viele nachgelagerte Anwendungen, einschließlich Text-zu-3D und Einzelbild-zu-3D-Generierung. Projektseite: https://sarahweiii.github.io/meshlrm/
Die intensive Rechenlast der Stable Diffusion (SD) für die Text-zu-Bild-Erzeugung stellt eine bedeutende Hürde für ihre praktische Anwendung dar. Um diese Herausforderung anzugehen, konzentriert sich die jüngste Forschung auf Methoden zur Reduzierung der Abtastschritte, wie dem Latent Consistency Model (LCM), und auf die Verwendung architektonischer Optimierungen, einschließlich Pruning und Wissensvermittlung. Abweichend von bestehenden Ansätzen beginnen wir einzigartigerweise mit einer kompakten SD-Variante, BK-SDM. Wir stellen fest, dass die direkte Anwendung von LCM auf BK-SDM mit gängigen gecrawlten Datensätzen unbefriedigende Ergebnisse liefert. Dies führt uns zur Entwicklung von zwei Strategien: (1) Nutzung hochwertiger Bild-Text-Paare von führenden generativen Modellen und (2) Entwicklung eines fortschrittlichen Destillationsprozesses, der speziell für LCM zugeschnitten ist. Durch unsere gründliche Erkundung von Quantisierung, Profilierung und On-Device-Bereitstellung erreichen wir eine schnelle Erzeugung fotorealistischer, textausgerichteter Bilder in nur zwei Schritten, mit Latenzzeiten von unter einer Sekunde auf ressourcenbeschränkten Edge-Geräten.
Mit der weit verbreiteten Verwendung großer Sprachmodelle (LLMs) zur Generierung langer Inhalte ist in letzter Zeit eine zunehmende Nachfrage nach effizienter Unterstützung für Inferenz von langen Sequenzen entstanden. Allerdings hat sich der Schlüssel-Wert (KV)-Cache, der gespeichert wird, um erneute Berechnungen zu vermeiden, als kritischer Engpass erwiesen, da er mit der Sequenzlänge linear anwächst. Aufgrund der autoregressiven Natur von LLMs wird der gesamte KV-Cache für jedes generierte Token geladen, was zu einer geringen Auslastung der Rechenkerne und hohen Latenzzeiten führt. Obwohl verschiedene Kompressionsmethoden für den KV-Cache vorgeschlagen wurden, um dieses Problem zu mildern, leiden sie unter einer Verschlechterung der Generierungsqualität. Wir stellen TriForce vor, ein hierarchisches spekulatives Dekodierungssystem, das für die Generierung langer Sequenzen skalierbar ist. Dieser Ansatz nutzt die ursprünglichen Modellgewichte und den dynamischen spärlichen KV-Cache über Abruf als Entwurfsmodell, das als Zwischenschicht in der Hierarchie dient und weiter von einem kleineren Modell spekuliert wird, um die Entwurfslatenz zu reduzieren. TriForce ermöglicht nicht nur beeindruckende Beschleunigungen für Llama2-7B-128K, die auf einer A100 GPU bis zu 2,31-mal erreichen, sondern zeigt auch Skalierbarkeit bei der Behandlung noch längerer Kontexte. Für die Auslagerungseinstellung auf zwei RTX 4090 GPUs erreicht TriForce 0,108s/Token - nur halb so langsam wie die autoregressive Basislinie auf einer A100, die auf unserem optimierten Auslagerungssystem 7,78-mal erreicht. Darüber hinaus übertrifft TriForce DeepSpeed-Zero-Inference auf einer einzelnen RTX 4090 GPU um das 4,86-fache. Die Robustheit von TriForce wird durch seine durchweg herausragende Leistung bei verschiedenen Temperaturen hervorgehoben. Der Code ist verfügbar unter https://github.com/Infini-AI-Lab/TriForce.
Die Ausrichtung von Sprachmodellen (LMs) basierend auf menschlich annotierten Präferenzdaten ist ein entscheidender Schritt zur Erlangung praktischer und leistungsstarker LM-basierter Systeme. Multilinguale menschliche Präferenzdaten sind jedoch schwer in großem Umfang zu erhalten, was es herausfordernd macht, dieses Framework auf verschiedene Sprachen auszudehnen. In dieser Arbeit evaluieren wir einen einfachen Ansatz für die Nullschuss-übergreifende sprachliche Ausrichtung, bei dem ein Belohnungsmodell auf Präferenzdaten in einer Ausgangssprache trainiert wird und direkt auf andere Zielsprachen angewendet wird. Bei der Zusammenfassung und der offenen Dialoggenerierung zeigen wir, dass diese Methode unter umfassenden Evaluierungseinstellungen konsistent erfolgreich ist, einschließlich menschlicher Bewertung: sprachlich übergreifend ausgerichtete Modelle werden von Menschen in bis zu >70% der Evaluierungsinstanzen gegenüber nicht ausgerichteten Modellen bevorzugt. Darüber hinaus stellen wir fest, dass ein Belohnungsmodell in einer anderen Sprache manchmal besser ausgerichtete Modelle ergibt als ein Belohnungsmodell in derselben Sprache. Wir identifizieren auch bewährte Verfahren, wenn keine sprachspezifischen Daten für selbst überwachtes Feintuning vorhanden sind, ein weiterer Bestandteil der Ausrichtung.
Wir stellen eine neue Architektur zur Personalisierung von Text-zu-Bild-Diffusionsmodellen vor, genannt Mixture-of-Attention (MoA). Inspiriert vom Mixture-of-Experts-Mechanismus, der in großen Sprachmodellen (LLMs) verwendet wird, verteilt MoA die Generierungsarbeit zwischen zwei Aufmerksamkeitspfaden: einem personalisierten Zweig und einem nicht-personalisierten Vorgabezweig. MoA ist darauf ausgelegt, das ursprüngliche Modell durch Fixierung seiner Aufmerksamkeitsschichten im Vorgabezweig beizubehalten, während es minimal in den Generierungsprozess mit dem personalisierten Zweig eingreift, der lernt, Themen in das Layout und den Kontext einzubetten, die vom Vorgabezweig generiert wurden. Ein neuartiger Routing-Mechanismus verwaltet die Verteilung von Pixeln in jeder Schicht über diese Zweige, um die Mischung aus personalisierter und generischer Inhaltsentwicklung zu optimieren. Nach dem Training erleichtert MoA die Erstellung hochwertiger, personalisierter Bilder mit mehreren Themen, deren Kompositionen und Interaktionen so vielfältig sind wie die vom ursprünglichen Modell generierten. Wesentlich ist, dass MoA den Unterschied zwischen der bereits vorhandenen Fähigkeit des Modells und dem neu ergänzten personalisierten Eingriff verstärkt und somit eine stärker entwirrte Steuerung von Thema und Kontext bietet, die zuvor unerreichbar war. Projektseite: https://snap-research.github.io/mixture-of-attention
Dieses Paper stellt die Version 0.5 des KI-Sicherheitsbenchmarks vor, der von der MLCommons AI Safety Working Group erstellt wurde. Der KI-Sicherheitsbenchmark wurde entwickelt, um die Sicherheitsrisiken von KI-Systemen zu bewerten, die auf Chat-optimierten Sprachmodellen basieren. Wir stellen einen methodischen Ansatz zur Spezifizierung und Konstruktion des Benchmarks vor, der in der Version 0.5 nur einen Anwendungsfall abdeckt (ein Erwachsener, der mit einem allgemeinen Assistenten auf Englisch chattet) und eine begrenzte Anzahl von Personas (d.h. typische Benutzer, bösartige Benutzer und gefährdete Benutzer). Wir haben eine neue Taxonomie mit 13 Gefahrenkategorien erstellt, von denen 7 Tests im v0.5 Benchmark enthalten. Wir planen, die Version 1.0 des KI-Sicherheitsbenchmarks bis Ende 2024 zu veröffentlichen. Der Benchmark v1.0 wird aussagekräftige Einblicke in die Sicherheit von KI-Systemen bieten. Allerdings sollte der Benchmark v0.5 nicht zur Bewertung der Sicherheit von KI-Systemen verwendet werden. Wir haben uns bemüht, die Einschränkungen, Mängel und Herausforderungen von v0.5 vollständig zu dokumentieren. Diese Veröffentlichung von v0.5 des KI-Sicherheitsbenchmarks umfasst (1) einen methodischen Ansatz zur Spezifizierung und Konstruktion des Benchmarks, der Anwendungsfälle, Arten von zu testenden Systemen (SUTs), Sprache und Kontext, Personas, Tests und Testelemente umfasst; (2) eine Taxonomie von 13 Gefahrenkategorien mit Definitionen und Unterkategorien; (3) Tests für sieben der Gefahrenkategorien, die jeweils einen einzigartigen Satz von Testelementen, d.h. Aufforderungen, enthalten. Insgesamt gibt es 43.090 Testelemente, die wir mit Vorlagen erstellt haben; (4) ein Bewertungssystem für KI-Systeme gegenüber dem Benchmark; (5) eine öffentlich zugängliche Plattform und ein herunterladbares Tool namens ModelBench, das zur Bewertung der Sicherheit von KI-Systemen auf dem Benchmark verwendet werden kann; (6) einen Beispielbewertungsbericht, der die Leistung von über einem Dutzend öffentlich verfügbarer Chat-optimierter Sprachmodelle benchmarkt; (7) eine Testspezifikation für den Benchmark.