papers.title

papers.description

Auf dem Weg zur Selbstverbesserung von LLMs durch Vorstellungskraft, Suche und Kritik.
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

Apr 18

ByYe Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu

Trotz der beeindruckenden Fähigkeiten von Large Language Models (LLMs) bei verschiedenen Aufgaben haben sie immer noch Schwierigkeiten in Szenarien, die komplexe Schlussfolgerungen und Planung erfordern. In jüngsten Arbeiten wurden fortschrittliche Prompting-Techniken vorgeschlagen und die Notwendigkeit des Feinabstimmens mit hochwertigen Daten, um die Schlussfolgerungsfähigkeiten von LLMs zu verbessern. Diese Ansätze sind jedoch inhärent durch die Verfügbarkeit und Qualität der Daten eingeschränkt. Vor diesem Hintergrund erweisen sich Selbstkorrektur und Selbstlernen als gangbare Lösungen, die Strategien einsetzen, die es LLMs ermöglichen, ihre Ausgaben zu verfeinern und aus selbstbewerteten Belohnungen zu lernen. Dennoch bleibt die Wirksamkeit von LLMs bei der Selbstverbesserung ihrer Antworten, insbesondere bei komplexen Schlussfolgerungs- und Planungsaufgaben, fraglich. In diesem Paper stellen wir AlphaLLM für die Selbstverbesserung von LLMs vor, das Monte Carlo Tree Search (MCTS) mit LLMs integriert, um eine Selbstverbesserungsschleife zu etablieren und damit die Fähigkeiten von LLMs ohne zusätzliche Annotationen zu verbessern. Inspiriert vom Erfolg von AlphaGo, adressiert AlphaLLM die einzigartigen Herausforderungen der Kombination von MCTS mit LLM zur Selbstverbesserung, einschließlich Datenknappheit, der Weite der Suchräume von Sprachaufgaben und der subjektiven Natur des Feedbacks bei Sprachaufgaben. AlphaLLM besteht aus einem Prompt-Synthese-Modul, einem effizienten MCTS-Ansatz, der für Sprachaufgaben maßgeschneidert ist, und einem Trio von Kritikmodellen für präzises Feedback. Unsere experimentellen Ergebnisse bei mathematischen Schlussfolgerungsaufgaben zeigen, dass AlphaLLM die Leistung von LLMs signifikant verbessert, ohne zusätzliche Annotationen, was das Potenzial für Selbstverbesserung in LLMs aufzeigt.

Dynamische Typografie: Wörter zum Leben erwecken
Dynamic Typography: Bringing Words to Life

Apr 17

ByZichen Liu, Yihao Meng, Hao Ouyang, Yue Yu, Bolin Zhao, Daniel Cohen-Or, Huamin Qu

Textanimation dient als ausdrucksstarkes Medium, das statische Kommunikation in dynamische Erlebnisse verwandelt, indem es Wörter mit Bewegung durchdringt, um Emotionen hervorzurufen, Bedeutungen zu betonen und überzeugende Erzählungen zu konstruieren. Die Erstellung von Animationen, die semantisch bewusst sind, birgt erhebliche Herausforderungen, die Fachkenntnisse in Grafikdesign und Animation erfordern. Wir stellen ein automatisiertes Textanimationsverfahren vor, das als "Dynamische Typografie" bezeichnet wird und zwei anspruchsvolle Aufgaben kombiniert. Es verformt Buchstaben, um semantische Bedeutungen zu vermitteln, und durchdringt sie mit lebendigen Bewegungen basierend auf Benutzerhinweisen. Unsere Technik nutzt Vektorgrafikdarstellungen und ein optimierungsbasiertes End-to-End-Framework. Dieses Framework verwendet neuronale Verschiebungsfelder, um Buchstaben in Grundformen umzuwandeln und wendet pro Frame Bewegungen an, die die Kohärenz mit dem beabsichtigten Textkonzept fördern. Techniken zur Formbewahrung und Regularisierung des perzeptuellen Verlusts werden eingesetzt, um Lesbarkeit und strukturelle Integrität während des Animationsprozesses aufrechtzuerhalten. Wir zeigen die Verallgemeinerbarkeit unseres Ansatzes über verschiedene Text-zu-Video-Modelle hinweg und heben die Überlegenheit unserer End-to-End-Methodik gegenüber Basisverfahren hervor, die separate Aufgaben umfassen könnten. Durch quantitative und qualitative Bewertungen zeigen wir die Wirksamkeit unseres Frameworks bei der Erzeugung kohärenter Textanimationen, die Benutzerhinweise treu interpretieren und gleichzeitig die Lesbarkeit bewahren. Unser Code ist verfügbar unter: https://animate-your-word.github.io/demo/.

MeshLRM: Großes Rekonstruktionsmodell für hochwertige Mesh
MeshLRM: Large Reconstruction Model for High-Quality Mesh

Apr 18

ByXinyue Wei, Kai Zhang, Sai Bi, Hao Tan, Fujun Luan, Valentin Deschaintre, Kalyan Sunkavalli, Hao Su, Zexiang Xu

Wir schlagen MeshLRM vor, einen neuartigen auf LRM basierenden Ansatz, der in weniger als einer Sekunde ein hochwertiges Netz aus lediglich vier Eingabebildern rekonstruieren kann. Im Gegensatz zu früheren großen Rekonstruktionsmodellen (LRMs), die sich auf NeRF-basierte Rekonstruktion konzentrieren, integriert MeshLRM differenzierbare Netzextraktion und Rendering in das LRM-Framework. Dies ermöglicht eine End-to-End-Netzrekonstruktion durch Feinabstimmung eines vorab trainierten NeRF-LRMs mit Netzrendering. Darüber hinaus verbessern wir die LRM-Architektur, indem wir mehrere komplexe Designs in früheren LRMs vereinfachen. Die NeRF-Initialisierung von MeshLRM wird sequenziell mit Niedrig- und Hochauflösungsbildern trainiert; diese neue LRM-Trainingsstrategie ermöglicht eine deutlich schnellere Konvergenz und führt somit zu besserer Qualität bei geringerem Rechenaufwand. Unser Ansatz erreicht eine hochmoderne Netzrekonstruktion aus spärlichen Ansichtseingaben und ermöglicht auch viele nachgelagerte Anwendungen, einschließlich Text-zu-3D und Einzelbild-zu-3D-Generierung. Projektseite: https://sarahweiii.github.io/meshlrm/

EdgeFusion: Generierung von Text zu Bild auf dem Gerät
EdgeFusion: On-Device Text-to-Image Generation

Apr 18

ByThibault Castells, Hyoung-Kyu Song, Tairen Piao, Shinkook Choi, Bo-Kyeong Kim, Hanyoung Yim, Changgwun Lee, Jae Gon Kim, Tae-Ho Kim

Die intensive Rechenlast der Stable Diffusion (SD) für die Text-zu-Bild-Erzeugung stellt eine bedeutende Hürde für ihre praktische Anwendung dar. Um diese Herausforderung anzugehen, konzentriert sich die jüngste Forschung auf Methoden zur Reduzierung der Abtastschritte, wie dem Latent Consistency Model (LCM), und auf die Verwendung architektonischer Optimierungen, einschließlich Pruning und Wissensvermittlung. Abweichend von bestehenden Ansätzen beginnen wir einzigartigerweise mit einer kompakten SD-Variante, BK-SDM. Wir stellen fest, dass die direkte Anwendung von LCM auf BK-SDM mit gängigen gecrawlten Datensätzen unbefriedigende Ergebnisse liefert. Dies führt uns zur Entwicklung von zwei Strategien: (1) Nutzung hochwertiger Bild-Text-Paare von führenden generativen Modellen und (2) Entwicklung eines fortschrittlichen Destillationsprozesses, der speziell für LCM zugeschnitten ist. Durch unsere gründliche Erkundung von Quantisierung, Profilierung und On-Device-Bereitstellung erreichen wir eine schnelle Erzeugung fotorealistischer, textausgerichteter Bilder in nur zwei Schritten, mit Latenzzeiten von unter einer Sekunde auf ressourcenbeschränkten Edge-Geräten.

TriForce: Verlustfreie Beschleunigung der langen Sequenzgenerierung mit hierarchischem spekulativem Decodieren
TriForce: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding

Apr 18

ByHanshi Sun, Zhuoming Chen, Xinyu Yang, Yuandong Tian, Beidi Chen

Mit der weit verbreiteten Verwendung großer Sprachmodelle (LLMs) zur Generierung langer Inhalte ist in letzter Zeit eine zunehmende Nachfrage nach effizienter Unterstützung für Inferenz von langen Sequenzen entstanden. Allerdings hat sich der Schlüssel-Wert (KV)-Cache, der gespeichert wird, um erneute Berechnungen zu vermeiden, als kritischer Engpass erwiesen, da er mit der Sequenzlänge linear anwächst. Aufgrund der autoregressiven Natur von LLMs wird der gesamte KV-Cache für jedes generierte Token geladen, was zu einer geringen Auslastung der Rechenkerne und hohen Latenzzeiten führt. Obwohl verschiedene Kompressionsmethoden für den KV-Cache vorgeschlagen wurden, um dieses Problem zu mildern, leiden sie unter einer Verschlechterung der Generierungsqualität. Wir stellen TriForce vor, ein hierarchisches spekulatives Dekodierungssystem, das für die Generierung langer Sequenzen skalierbar ist. Dieser Ansatz nutzt die ursprünglichen Modellgewichte und den dynamischen spärlichen KV-Cache über Abruf als Entwurfsmodell, das als Zwischenschicht in der Hierarchie dient und weiter von einem kleineren Modell spekuliert wird, um die Entwurfslatenz zu reduzieren. TriForce ermöglicht nicht nur beeindruckende Beschleunigungen für Llama2-7B-128K, die auf einer A100 GPU bis zu 2,31-mal erreichen, sondern zeigt auch Skalierbarkeit bei der Behandlung noch längerer Kontexte. Für die Auslagerungseinstellung auf zwei RTX 4090 GPUs erreicht TriForce 0,108s/Token - nur halb so langsam wie die autoregressive Basislinie auf einer A100, die auf unserem optimierten Auslagerungssystem 7,78-mal erreicht. Darüber hinaus übertrifft TriForce DeepSpeed-Zero-Inference auf einer einzelnen RTX 4090 GPU um das 4,86-fache. Die Robustheit von TriForce wird durch seine durchweg herausragende Leistung bei verschiedenen Temperaturen hervorgehoben. Der Code ist verfügbar unter https://github.com/Infini-AI-Lab/TriForce.

MoA: Mischung von Aufmerksamkeit für die Entflechtung von Subjekt-Kontext in der personalisierten Bildgenerierung
MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation

Apr 17

ByKuan-Chieh, Wang, Daniil Ostashev, Yuwei Fang, Sergey Tulyakov, Kfir Aberman

Wir stellen eine neue Architektur zur Personalisierung von Text-zu-Bild-Diffusionsmodellen vor, genannt Mixture-of-Attention (MoA). Inspiriert vom Mixture-of-Experts-Mechanismus, der in großen Sprachmodellen (LLMs) verwendet wird, verteilt MoA die Generierungsarbeit zwischen zwei Aufmerksamkeitspfaden: einem personalisierten Zweig und einem nicht-personalisierten Vorgabezweig. MoA ist darauf ausgelegt, das ursprüngliche Modell durch Fixierung seiner Aufmerksamkeitsschichten im Vorgabezweig beizubehalten, während es minimal in den Generierungsprozess mit dem personalisierten Zweig eingreift, der lernt, Themen in das Layout und den Kontext einzubetten, die vom Vorgabezweig generiert wurden. Ein neuartiger Routing-Mechanismus verwaltet die Verteilung von Pixeln in jeder Schicht über diese Zweige, um die Mischung aus personalisierter und generischer Inhaltsentwicklung zu optimieren. Nach dem Training erleichtert MoA die Erstellung hochwertiger, personalisierter Bilder mit mehreren Themen, deren Kompositionen und Interaktionen so vielfältig sind wie die vom ursprünglichen Modell generierten. Wesentlich ist, dass MoA den Unterschied zwischen der bereits vorhandenen Fähigkeit des Modells und dem neu ergänzten personalisierten Eingriff verstärkt und somit eine stärker entwirrte Steuerung von Thema und Kontext bietet, die zuvor unerreichbar war. Projektseite: https://snap-research.github.io/mixture-of-attention

Nutzen Sie Ihre Belohnungen erneut: Übertragung von Belohnungsmodellen für die sprachübergreifende Ausrichtung ohne vorheriges Training
Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment

Apr 18

ByZhaofeng Wu, Ananth Balashankar, Yoon Kim, Jacob Eisenstein, Ahmad Beirami

Die Ausrichtung von Sprachmodellen (LMs) basierend auf menschlich annotierten Präferenzdaten ist ein entscheidender Schritt zur Erlangung praktischer und leistungsstarker LM-basierter Systeme. Multilinguale menschliche Präferenzdaten sind jedoch schwer in großem Umfang zu erhalten, was es herausfordernd macht, dieses Framework auf verschiedene Sprachen auszudehnen. In dieser Arbeit evaluieren wir einen einfachen Ansatz für die Nullschuss-übergreifende sprachliche Ausrichtung, bei dem ein Belohnungsmodell auf Präferenzdaten in einer Ausgangssprache trainiert wird und direkt auf andere Zielsprachen angewendet wird. Bei der Zusammenfassung und der offenen Dialoggenerierung zeigen wir, dass diese Methode unter umfassenden Evaluierungseinstellungen konsistent erfolgreich ist, einschließlich menschlicher Bewertung: sprachlich übergreifend ausgerichtete Modelle werden von Menschen in bis zu >70% der Evaluierungsinstanzen gegenüber nicht ausgerichteten Modellen bevorzugt. Darüber hinaus stellen wir fest, dass ein Belohnungsmodell in einer anderen Sprache manchmal besser ausgerichtete Modelle ergibt als ein Belohnungsmodell in derselben Sprache. Wir identifizieren auch bewährte Verfahren, wenn keine sprachspezifischen Daten für selbst überwachtes Feintuning vorhanden sind, ein weiterer Bestandteil der Ausrichtung.

Vorstellung der Version 0.5 des KI-Sicherheitsbenchmarks von MLCommons.
Introducing v0.5 of the AI Safety Benchmark from MLCommons

Apr 18

ByBertie Vidgen, Adarsh Agrawal, Ahmed M. Ahmed, Victor Akinwande, Namir Al-Nuaimi, Najla Alfaraj, Elie Alhajjar, Lora Aroyo, Trupti Bavalatti, Borhane Blili-Hamelin, Kurt Bollacker, Rishi Bomassani, Marisa Ferrara Boston, Siméon Campos, Kal Chakra, Canyu Chen, Cody Coleman, Zacharie Delpierre Coudert, Leon Derczynski, Debojyoti Dutta, Ian Eisenberg, James Ezick, Heather Frase, Brian Fuller, Ram Gandikota, Agasthya Gangavarapu, Ananya Gangavarapu, James Gealy, Rajat Ghosh, James Goel, Usman Gohar, Sujata Goswami, Scott A. Hale, Wiebke Hutiri, Joseph Marvin Imperial, Surgan Jandial, Nick Judd, Felix Juefei-Xu, Foutse Khomh, Bhavya Kailkhura, Hannah Rose Kirk, Kevin Klyman, Chris Knotz, Michael Kuchnik, Shachi H. Kumar, Chris Lengerich, Bo Li, Zeyi Liao, Eileen Peters Long, Victor Lu, Yifan Mai, Priyanka Mary Mammen, Kelvin Manyeki, Sean McGregor, Virendra Mehta, Shafee Mohammed, Emanuel Moss, Lama Nachman, Dinesh Jinenhally Naganna, Amin Nikanjam, Besmira Nushi, Luis Oala, Iftach Orr, Alicia Parrish, Cigdem Patlak, William Pietri, Forough Poursabzi-Sangdeh, Eleonora Presani, Fabrizio Puletti, Paul Röttger, Saurav Sahay, Tim Santos, Nino Scherrer, Alice Schoenauer Sebag, Patrick Schramowski, Abolfazl Shahbazi, Vin Sharma, Xudong Shen, Vamsi Sistla, Leonard Tang, Davide Testuggine, Vithursan Thangarasa, Elizabeth Anne Watkins, Rebecca Weiss, Chris Welty, Tyler Wilbers, Adina Williams, Carole-Jean Wu, Poonam Yadav, Xianjun Yang, Yi Zeng, Wenhui Zhang, Fedor Zhdanov, Jiacheng Zhu, Percy Liang, Peter Mattson, Joaquin Vanschoren

Dieses Paper stellt die Version 0.5 des KI-Sicherheitsbenchmarks vor, der von der MLCommons AI Safety Working Group erstellt wurde. Der KI-Sicherheitsbenchmark wurde entwickelt, um die Sicherheitsrisiken von KI-Systemen zu bewerten, die auf Chat-optimierten Sprachmodellen basieren. Wir stellen einen methodischen Ansatz zur Spezifizierung und Konstruktion des Benchmarks vor, der in der Version 0.5 nur einen Anwendungsfall abdeckt (ein Erwachsener, der mit einem allgemeinen Assistenten auf Englisch chattet) und eine begrenzte Anzahl von Personas (d.h. typische Benutzer, bösartige Benutzer und gefährdete Benutzer). Wir haben eine neue Taxonomie mit 13 Gefahrenkategorien erstellt, von denen 7 Tests im v0.5 Benchmark enthalten. Wir planen, die Version 1.0 des KI-Sicherheitsbenchmarks bis Ende 2024 zu veröffentlichen. Der Benchmark v1.0 wird aussagekräftige Einblicke in die Sicherheit von KI-Systemen bieten. Allerdings sollte der Benchmark v0.5 nicht zur Bewertung der Sicherheit von KI-Systemen verwendet werden. Wir haben uns bemüht, die Einschränkungen, Mängel und Herausforderungen von v0.5 vollständig zu dokumentieren. Diese Veröffentlichung von v0.5 des KI-Sicherheitsbenchmarks umfasst (1) einen methodischen Ansatz zur Spezifizierung und Konstruktion des Benchmarks, der Anwendungsfälle, Arten von zu testenden Systemen (SUTs), Sprache und Kontext, Personas, Tests und Testelemente umfasst; (2) eine Taxonomie von 13 Gefahrenkategorien mit Definitionen und Unterkategorien; (3) Tests für sieben der Gefahrenkategorien, die jeweils einen einzigartigen Satz von Testelementen, d.h. Aufforderungen, enthalten. Insgesamt gibt es 43.090 Testelemente, die wir mit Vorlagen erstellt haben; (4) ein Bewertungssystem für KI-Systeme gegenüber dem Benchmark; (5) eine öffentlich zugängliche Plattform und ein herunterladbares Tool namens ModelBench, das zur Bewertung der Sicherheit von KI-Systemen auf dem Benchmark verwendet werden kann; (6) einen Beispielbewertungsbericht, der die Leistung von über einem Dutzend öffentlich verfügbarer Chat-optimierter Sprachmodelle benchmarkt; (7) eine Testspezifikation für den Benchmark.

papers.title

papers.description

Auf dem Weg zur Selbstverbesserung von LLMs durch Vorstellungskraft, Suche und Kritik.
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

Apr 18

ByYe Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu

TriForce: Verlustfreie Beschleunigung der langen Sequenzgenerierung mit hierarchischem spekulativem Decodieren
TriForce: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding

Apr 18

ByHanshi Sun, Zhuoming Chen, Xinyu Yang, Yuandong Tian, Beidi Chen

MoA: Mischung von Aufmerksamkeit für die Entflechtung von Subjekt-Kontext in der personalisierten Bildgenerierung
MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation

Apr 17

ByKuan-Chieh, Wang, Daniil Ostashev, Yuwei Fang, Sergey Tulyakov, Kfir Aberman

Nutzen Sie Ihre Belohnungen erneut: Übertragung von Belohnungsmodellen für die sprachübergreifende Ausrichtung ohne vorheriges Training
Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment

Apr 18

ByZhaofeng Wu, Ananth Balashankar, Yoon Kim, Jacob Eisenstein, Ahmad Beirami

Vorstellung der Version 0.5 des KI-Sicherheitsbenchmarks von MLCommons.
Introducing v0.5 of the AI Safety Benchmark from MLCommons

Apr 18