Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Datasets sind grundlegend für viele Durchbrüche in der modernen künstlichen Intelligenz. Viele der jüngsten Erfolge im Bereich der natürlichen Sprachverarbeitung (NLP) lassen sich auf das Feinabstimmen vortrainierter Modelle auf eine Vielzahl von Aufgaben zurückführen, wodurch ein großes Sprachmodell (LLM) in der Lage ist, auf Anweisungen zu reagieren. Die Feinabstimmung auf Anweisungen (Instruction Fine-Tuning, IFT) erfordert speziell konstruierte und annotierte Datensätze. Allerdings sind bestehende Datensätze fast ausschließlich in englischer Sprache verfasst. In dieser Arbeit besteht unser primäres Ziel darin, die Sprachlücke zu schließen, indem wir einen von Menschen kuratierten Datensatz zur Befolgung von Anweisungen erstellen, der 65 Sprachen umfasst. Wir haben mit fließenden Sprechern von Sprachen aus der ganzen Welt zusammengearbeitet, um natürliche Beispiele von Anweisungen und deren Ausführungen zu sammeln. Darüber hinaus erstellen wir die bisher umfangreichste mehrsprachige Sammlung, die durch das Templating und Übersetzen bestehender Datensätze über 114 Sprachen hinweg 513 Millionen Instanzen umfasst. Insgesamt tragen wir vier Schlüsselressourcen bei: Wir entwickeln und veröffentlichen die Aya Annotation Platform, den Aya Dataset, die Aya Collection und das Aya Evaluation Suite. Die Aya-Initiative dient auch als wertvolle Fallstudie in der partizipativen Forschung, an der Mitarbeiter aus 119 Ländern beteiligt sind. Wir sehen dies als ein wertvolles Rahmenwerk für zukünftige Forschungskooperationen, die darauf abzielen, Lücken in Ressourcen zu schließen.
Die mathematischen Fähigkeiten großer Sprachmodelle können ihre abstrakte Denkfähigkeit widerspiegeln. In diesem Artikel stellen wir unser mathematisches Reasoning-LLM InternLM-Math vor, das wir quelloffen veröffentlichen und das auf InternLM2 weiter vortrainiert wurde. Wir vereinen Chain-of-Thought-Reasoning, Reward-Modellierung, formales Reasoning, Datenanreicherung und Code-Interpreter in einem einheitlichen Seq2Seq-Format und überwachen unser Modell, um es zu einem vielseitigen mathematischen Denker, Verifizierer, Beweiser und Anreicherer zu machen. Diese Fähigkeiten können genutzt werden, um die nächste Generation mathematischer LLMs oder Selbstiterationen zu entwickeln. InternLM-Math erzielt quelloffene State-of-the-Art-Leistungen unter den Bedingungen von In-Context-Learning, überwachtem Fine-Tuning und codegestütztem Reasoning in verschiedenen informellen und formalen Benchmarks, darunter GSM8K, MATH, Ungarische Mathematikprüfung, MathBench-ZH und MiniF2F. Unser vortrainiertes Modell erreicht 30,3 auf dem MiniF2F-Testset ohne Fine-Tuning. Wir untersuchen weiterhin, wie LEAN zur Lösung mathematischer Probleme eingesetzt werden kann, und analysieren seine Leistung im Rahmen von Multi-Task-Learning, was die Möglichkeit aufzeigt, LEAN als einheitliche Plattform für das Lösen und Beweisen in der Mathematik zu nutzen. Unsere Modelle, Codes und Daten sind unter https://github.com/InternLM/InternLM-Math veröffentlicht.
Die Erstellung digitaler Avatare aus textuellen Eingabeaufforderungen war lange Zeit eine wünschenswerte, aber herausfordernde Aufgabe. Trotz der vielversprechenden Ergebnisse, die in jüngsten Arbeiten durch 2D-Diffusions-Priors erzielt wurden, stehen aktuelle Methoden vor Herausforderungen bei der effektiven Erzeugung hochwertiger und animierter Avatare. In diesem Artikel präsentieren wir HeadStudio, ein neuartiges Framework, das 3D-Gaussian-Splatting nutzt, um realistische und animierte Avatare aus Textaufforderungen zu generieren. Unsere Methode steuert 3D-Gaussians semantisch, um durch die intermediäre FLAME-Darstellung ein flexibles und erreichbares Erscheinungsbild zu schaffen. Konkret integrieren wir FLAME sowohl in die 3D-Darstellung als auch in die Score-Distillation: 1) FLAME-basiertes 3D-Gaussian-Splatting, bei dem 3D-Gaussian-Punkte durch die Verknüpfung jedes Punkts mit einem FLAME-Mesh gesteuert werden. 2) FLAME-basiertes Score-Distillation-Sampling, das FLAME-basierte fein abgestimmte Steuersignale nutzt, um die Score-Distillation aus der Textaufforderung zu leiten. Umfangreiche Experimente demonstrieren die Wirksamkeit von HeadStudio bei der Erzeugung animierbarer Avatare aus textuellen Eingabeaufforderungen, die visuell ansprechende Erscheinungsbilder aufweisen. Die Avatare sind in der Lage, hochwertige Echtzeitansichten (≥ 40 fps) in einer Auflösung von 1024 zu rendern. Sie können nahtlos durch reale Sprache und Videos gesteuert werden. Wir hoffen, dass HeadStudio die Erstellung digitaler Avatare vorantreiben kann und dass die vorgestellte Methode in verschiedenen Bereichen weitreichend Anwendung findet.
Jüngste Fortschritte in Text-zu-Musik-Generierungsmodellen haben neue Wege in der musikalischen Kreativität eröffnet. Allerdings erfordert die Musikgenerierung in der Regel iterative Verfeinerungen, und die Bearbeitung der generierten Musik bleibt eine große Herausforderung. Dieses Papier stellt einen neuartigen Ansatz zur Bearbeitung von Musik vor, die durch solche Modelle erzeugt wurde, und ermöglicht die Modifikation spezifischer Attribute wie Genre, Stimmung und Instrument, während andere Aspekte unverändert bleiben. Unsere Methode transformiert Textbearbeitung in eine Manipulation des latenten Raums, während eine zusätzliche Einschränkung hinzugefügt wird, um Konsistenz zu gewährleisten. Sie integriert sich nahtlos in bestehende vortrainierte Text-zu-Musik-Diffusionsmodelle, ohne zusätzliches Training zu erfordern. Experimentelle Ergebnisse zeigen eine überlegene Leistung gegenüber sowohl Zero-Shot- als auch bestimmten überwachten Baseline-Modellen in Bewertungen von Stil- und Klangfarbentransfer. Zudem demonstrieren wir die praktische Anwendbarkeit unseres Ansatzes in realen Musikbearbeitungsszenarien.
Durch die Kombination von natürlichem Sprachverständnis, den Generierungsfähigkeiten und der breiten Wissensbasis großer Sprachmodelle mit der Bildwahrnehmung haben aktuelle große visuell-sprachliche Modelle (LVLMs) beispiellose Fähigkeiten zur Schlussfolgerung in der realen Welt gezeigt. Allerdings leidet der generierte Text oft unter einer ungenauen Verankerung im visuellen Input, was zu Fehlern wie der Halluzination nicht vorhandener Szenelemente, dem Übersehen signifikanter Teile der Szene sowie der falschen Ableitung von Attributen und Beziehungen zwischen Objekten führt. Um diese Probleme zu adressieren, stellen wir ein neuartiges Framework vor, ViGoR (Visual Grounding Through Fine-Grained Reward Modeling), das feinkörnige Belohnungsmodellierung nutzt, um die visuelle Verankerung von LVLMs im Vergleich zu vortrainierten Baselines signifikant zu verbessern. Diese Verbesserung wird effizient durch wesentlich kostengünstigere menschliche Bewertungen anstelle vollständiger Supervision sowie automatisierte Methoden erreicht. Wir zeigen die Wirksamkeit unseres Ansatzes durch zahlreiche Metriken auf mehreren Benchmarks. Zusätzlich erstellen wir einen umfassenden und anspruchsvollen Datensatz, der speziell zur Validierung der visuellen Verankerungsfähigkeiten von LVLMs entwickelt wurde. Schließlich planen wir, unsere menschliche Annotation, bestehend aus etwa 16.000 Bildern und generierten Textpaaren mit feinkörnigen Bewertungen, zu veröffentlichen, um damit einen Beitrag zur verwandten Forschung in der Community zu leisten.
Wir stellen das Modell-Editing mit kanonischen Beispielen vor, ein Setting, in dem (1) ein einzelnes Lernbeispiel für jedes gewünschte Verhalten bereitgestellt wird, (2) die Evaluation ausschließlich außerhalb der Verteilung durchgeführt wird und (3) die Abweichung von einem initialen Modell streng begrenzt ist. Ein kanonisches Beispiel ist eine einfache Instanz eines guten Verhaltens (z. B. „Die Hauptstadt von Mauritius ist Port Louis“) oder eines schlechten Verhaltens (z. B. „Ein Aspekt von Forschern ist herzlos“). Der Evaluationssatz enthält komplexere Beispiele für jedes Verhalten (wie einen Absatz, in dem die Hauptstadt von Mauritius genannt wird). Wir erstellen drei Datensätze und modifizieren drei weitere für das Modell-Editing mit kanonischen Beispielen, die wissensintensive Verbesserungen, die Minderung sozialer Verzerrungen und syntaktische Grenzfälle abdecken. In unseren Experimenten mit Pythia-Sprachmodellen stellen wir fest, dass LoRA das vollständige Fine-Tuning und MEMIT übertrifft. Anschließend wenden wir uns der Backpack-Sprachmodellarchitektur zu, da sie gezielte Verbesserungen ermöglichen soll. Der Backpack definiert eine große Bank von Sinnvektoren – eine Zerlegung der verschiedenen Verwendungen jedes Wortes –, die gewichtet und summiert werden, um die Ausgabe-Logits des Modells zu bilden. Wir schlagen das Sinn-Fine-Tuning vor, das einige (ca. 10) Sinnvektoren für jedes kanonische Beispiel auswählt und feinabstimmt, und stellen fest, dass es andere Fine-Tuning-Methoden übertrifft (z. B. 4,8 % Verbesserung gegenüber 0,3 %). Schließlich verbessern wir GPT-J-6B durch ein Inferenzzeit-Ensemble mit nur den Änderungen aus dem Sinn-Fine-Tuning eines 35-mal kleineren Backpacks und übertreffen in einem Setting sogar das Editing von GPT-J selbst (4,1 % gegenüber 1,0 %).
Große Sprachmodelle (LLMs) haben das Potenzial, eine Vielzahl von kreativen Bereichen zu beeinflussen, doch die Anwendung von LLMs in der Animation ist bisher wenig erforscht und stellt neue Herausforderungen dar, wie beispielsweise die effektive Beschreibung von Bewegung in natürlicher Sprache durch Benutzer. In diesem Artikel stellen wir Keyframer vor, ein Designtool zur Animation statischer Bilder (SVGs) mit natürlicher Sprache. Basierend auf Interviews mit professionellen Animationsdesignern und -ingenieuren unterstützt Keyframer die Exploration und Verfeinerung von Animationen durch die Kombination von Prompting und direkter Bearbeitung der generierten Ergebnisse. Das System ermöglicht es Benutzern auch, Designvarianten anzufordern, was den Vergleich und die Ideenfindung fördert. Durch eine Nutzerstudie mit 13 Teilnehmern tragen wir eine Charakterisierung der Prompting-Strategien der Benutzer bei, einschließlich einer Taxonomie semantischer Prompt-Typen zur Beschreibung von Bewegung und einem „zerlegten“ Prompting-Stil, bei dem Benutzer ihre Ziele kontinuierlich an die generierten Ergebnisse anpassen. Wir zeigen, wie die direkte Bearbeitung in Kombination mit Prompting eine Iteration über Einmal-Prompting-Schnittstellen hinaus ermöglicht, die in heutigen generativen Tools üblich sind. Durch diese Arbeit schlagen wir vor, wie LLMs ein breites Publikum dazu befähigen könnten, sich mit der Erstellung von Animationen zu beschäftigen.
Trotz der beachtlichen Erfolge großer Sprachmodelle (LLMs) stellen deren umfangreiche Speicheranforderungen Herausforderungen bei der Bereitstellung für die Erzeugung von Tokens mit langem Kontext dar. Der erhebliche Speicherbedarf von LLM-Decodern ergibt sich aus der Notwendigkeit, alle vorherigen Tokens im Attention-Modul zu speichern, eine Anforderung, die durch das Key-Value (KV)-Caching auferlegt wird. In dieser Arbeit konzentrieren wir uns auf die Entwicklung einer effizienten Kompressionstechnik für den KV-Cache. Empirische Belege deuten auf eine signifikante Clusterbildung innerhalb der Key-Embeddings im Attention-Modul hin. Aufbauend auf dieser zentralen Erkenntnis haben wir eine neuartige Caching-Methode mit sublinearer Komplexität entwickelt, die Online-Clustering für Key-Tokens und Online-ell_2-Sampling für Werte einsetzt. Das Ergebnis ist ein nachweislich genauer und effizienter Attention-Decodierungsalgorithmus, genannt SubGen. Dieser Algorithmus gewährleistet nicht nur einen sublinearen Speicherbedarf und eine sublineare Zeitkomplexität, sondern wir stellen auch eine enge Fehlerschranke für unseren Ansatz auf. Empirische Auswertungen bei Aufgaben zur Beantwortung von Fragen mit langem Kontext zeigen, dass SubGen bestehende und state-of-the-art KV-Cache-Kompressionsmethoden in Bezug auf Leistung und Effizienz deutlich übertrifft.
Bestehende Methoden zur Steuerung von Sprachmodellen, wie RLHF und Constitutional AI, beinhalten die Bestimmung, welche Verhaltensweisen von LLMs erwünscht sind, und deren Einbindung in ein Sprachmodell durch Training. In vielen Fällen ist es jedoch wünschenswert, dass LLMs zur Inferenzzeit steuerbar sind, damit sie in verschiedenen Kontexten mit unterschiedlichen Anforderungen eingesetzt werden können. Dies veranschaulichen wir mit dem Pink-Elefanten-Problem: Ein LLM wird angewiesen, eine bestimmte Entität (einen „Rosa Elefanten“) nicht zu erwähnen und stattdessen eine bevorzugte Entität („Grauer Elefant“) zu diskutieren. Wir wenden eine neuartige Vereinfachung von Constitutional AI an, Direct Principle Feedback, das das Ranking von Antworten überspringt und DPO direkt auf Kritiken und Überarbeitungen anwendet. Unsere Ergebnisse zeigen, dass nach der DPF-Feinabstimmung auf unserem synthetischen Pink-Elefanten-Datensatz unser feinabgestimmtes 13B-LLaMA-2-Modell Llama-2-13B-Chat und eine Baseline mit Prompting deutlich übertrifft und auf unserem kuratierten Testset zur Bewertung des Pink-Elefanten-Problems genauso gut abschneidet wie GPT-4.
Wir präsentieren Premier-TACO, einen Ansatz zum Lernen von Multitask-Featurerepräsentationen, der darauf abzielt, die Effizienz des Few-Shot-Policy-Lernens in sequenziellen Entscheidungsaufgaben zu verbessern. Premier-TACO nutzt eine Teilmenge von Multitask-Offline-Datensätzen, um eine allgemeine Featurerepräsentation vorzutrainieren, die kritische Umgebungsdynamiken erfasst und mit minimalen Experten-Demonstrationen feinabgestimmt wird. Es erweitert das Ziel des temporalen aktionskontrastiven Lernens (TACO), das für state-of-the-art Ergebnisse in visuellen Steuerungsaufgaben bekannt ist, durch die Einführung einer neuartigen Strategie zur Stichprobenziehung negativer Beispiele. Diese Strategie ist entscheidend, um die Recheneffizienz von TACO erheblich zu steigern und groß angelegtes Multitask-Offline-Pretraining praktikabel zu machen. Unsere umfangreiche empirische Auswertung in einer Vielzahl von Continuous-Control-Benchmarks, darunter Deepmind Control Suite, MetaWorld und LIBERO, demonstriert die Wirksamkeit von Premier-TACO beim Vortrainieren visueller Repräsentationen, wodurch das Few-Shot-Imitation-Lernen neuer Aufgaben signifikant verbessert wird. Unser Code, die Vortrainingsdaten sowie vortrainierte Modell-Checkpoints werden unter https://github.com/PremierTACO/premier-taco veröffentlicht.
Wir stellen animierte Sticker vor, ein Video-Diffusionsmodell, das eine Animation basierend auf einem Textprompt und einem statischen Sticker-Bild erzeugt. Unser Modell baut auf dem state-of-the-art Emu Text-zu-Bild-Modell auf, ergänzt durch temporale Schichten zur Modellierung von Bewegung. Aufgrund der Domänenlücke, d.h. der Unterschiede im visuellen und Bewegungsstil, kann ein Modell, das bei der Erzeugung natürlicher Videos gut abschneidet, keine lebendigen Videos mehr erzeugen, wenn es auf Sticker angewendet wird. Um diese Lücke zu überbrücken, verwenden wir eine zweistufige Feinabstimmungs-Pipeline: zunächst mit schwach domänenspezifischen Daten, gefolgt von einer Human-in-the-Loop (HITL)-Strategie, die wir als Ensemble-of-Teachers bezeichnen. Diese destilliert die besten Eigenschaften mehrerer Lehrer in ein kleineres Schülermodell. Wir zeigen, dass diese Strategie es uns ermöglicht, gezielt Verbesserungen der Bewegungsqualität zu erreichen, während der Stil des statischen Bildes beibehalten wird. Durch Inferenzoptimierungen ist unser Modell in der Lage, ein acht Bilder umfassendes Video mit hochwertiger, interessanter und relevanter Bewegung in weniger als einer Sekunde zu erzeugen.
Große Sprachmodelle (LLMs) werden heutzutage erwartet, Inhalte zu generieren, die mit menschlichen Präferenzen übereinstimmen. Aktuelle Arbeiten konzentrieren sich auf die Ausrichtung während des Modelltrainings durch Techniken wie Reinforcement Learning mit menschlichem Feedback (RLHF). Es ist jedoch unklar, ob solche Methoden eine effektive Wahl sind, um Ausrichtungsziele dem Modell beizubringen. Erstens sind die Unfähigkeit, mehrere, benutzerdefinierte Belohnungen zu integrieren, und die Abhängigkeit von der Sicht eines Modellentwicklers auf universelle und statische Prinzipien wesentliche Einschränkungen. Zweitens sind die verbleibenden Lücken im Modelltraining und die Zuverlässigkeit solcher Ansätze ebenfalls fraglich (z. B. Anfälligkeit für Jailbreaking auch nach Sicherheitstraining). Um diese Probleme zu adressieren, schlagen wir DeAL vor, ein Framework, das es dem Benutzer ermöglicht, Belohnungsfunktionen anzupassen und die Ausrichtung von LLMs zur Dekodierungszeit (DeAL) zu ermöglichen. Im Kern betrachten wir die Dekodierung als einen heuristisch geführten Suchprozess und erleichtern die Verwendung einer Vielzahl von Ausrichtungszielen. Unsere Experimente mit programmatischen Einschränkungen wie Schlüsselwort- und Längenbeschränkungen (die in der Vor-LLM-Ära weitgehend untersucht wurden) und abstrakten Zielen wie Schadlosigkeit und Hilfsbereitschaft (die in der Post-LLM-Ära vorgeschlagen wurden) zeigen, dass wir mit DeAL fein abgestimmte Kompromisse handhaben, die Einhaltung von Ausrichtungszielen verbessern und verbleibende Lücken in LLMs adressieren können. Schließlich, obwohl DeAL effektiv mit RLHF und Prompting-Techniken kombiniert werden kann, macht seine Allgemeingültigkeit die Dekodierung langsamer, eine Optimierung, die wir zukünftigen Arbeiten überlassen.
Jüngste Fortschritte in realen Anwendungen des Reinforcement Learning (RL) basieren auf der Fähigkeit, Systeme in großem Maßstab präzise zu simulieren. Domänen wie fluiddynamische Systeme weisen jedoch komplexe dynamische Phänomene auf, die bei hohen Integrationsraten schwer zu simulieren sind, was die direkte Anwendung moderner Deep-RL-Algorithmen auf oft kostspielige oder sicherheitskritische Hardware einschränkt. In dieser Arbeit stellen wir "Box o Flows" vor, ein neuartiges experimentelles Steuerungssystem für die systematische Bewertung von RL-Algorithmen in dynamischen realen Szenarien. Wir beschreiben die Schlüsselkomponenten der Box o Flows und demonstrieren durch eine Reihe von Experimenten, wie state-of-the-art modellfreie RL-Algorithmen eine Vielzahl komplexer Verhaltensweisen über einfache Belohnungsspezifikationen synthetisieren können. Darüber hinaus untersuchen wir die Rolle des Offline-RL bei der dateneffizienten Hypothesentestung durch die Wiederverwendung vergangener Erfahrungen. Wir glauben, dass die Erkenntnisse aus dieser Vorstudie und die Verfügbarkeit von Systemen wie der Box o Flows den Weg für die Entwicklung systematischer RL-Algorithmen ebnen, die allgemein auf komplexe, dynamische Systeme angewendet werden können. Ergänzendes Material und Videos der Experimente sind verfügbar unter https://sites.google.com/view/box-o-flows/home.