Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Mathematisches Denken stellt für Sprachmodelle eine erhebliche Herausforderung dar, da es komplex und strukturiert ist. In diesem Artikel stellen wir DeepSeekMath 7B vor, das durch Fortsetzung des Vortrainings von DeepSeek-Coder-Base-v1.5 7B mit 120B mathematikbezogenen Tokens aus Common Crawl, zusammen mit natürlicher Sprache und Code-Daten, entwickelt wurde. DeepSeekMath 7B hat einen beeindruckenden Wert von 51,7 % auf dem wettbewerbsorientierten MATH-Benchmark erreicht, ohne auf externe Toolkits oder Abstimmungstechniken zurückzugreifen, und nähert sich damit der Leistungsfähigkeit von Gemini-Ultra und GPT-4. Selbstkonsistenz über 64 Stichproben von DeepSeekMath 7B erreicht 60,9 % auf MATH. Die mathematische Denkfähigkeit von DeepSeekMath ist auf zwei Schlüsselfaktoren zurückzuführen: Erstens nutzen wir das erhebliche Potenzial öffentlich verfügbarer Webdaten durch eine sorgfältig konstruierte Datenauswahlpipeline. Zweitens führen wir Group Relative Policy Optimization (GRPO) ein, eine Variante von Proximal Policy Optimization (PPO), die die mathematischen Denkfähigkeiten verbessert und gleichzeitig den Speicherverbrauch von PPO optimiert.
Text-to-Image-Modelle bieten ein neues Maß an kreativer Flexibilität, indem sie Nutzern ermöglichen, den Bildgenerierungsprozess durch natürliche Sprache zu steuern. Die konsistente Darstellung desselben Subjekts über verschiedene Prompts hinweg bleibt jedoch eine Herausforderung. Bestehende Ansätze feintunen das Modell, um ihm neue Wörter beizubringen, die spezifische, vom Nutzer bereitgestellte Subjekte beschreiben, oder fügen dem Modell eine Bildkonditionierung hinzu. Diese Methoden erfordern eine zeitaufwändige Optimierung pro Subjekt oder ein groß angelegtes Pre-Training. Darüber hinaus haben sie Schwierigkeiten, generierte Bilder mit Textprompts in Einklang zu bringen und mehrere Subjekte darzustellen. Hier präsentieren wir ConsiStory, einen trainingsfreien Ansatz, der eine konsistente Subjektgenerierung durch die gemeinsame Nutzung interner Aktivierungen des vortrainierten Modells ermöglicht. Wir führen einen subjektgesteuerten Shared-Attention-Block und eine korrespondenzbasierte Feature-Injection ein, um die Subjektkonsistenz zwischen Bildern zu fördern. Zudem entwickeln wir Strategien, um die Layoutvielfalt zu erhöhen, während die Subjektkonsistenz erhalten bleibt. Wir vergleichen ConsiStory mit einer Reihe von Baselines und demonstrieren state-of-the-art Leistung in Bezug auf Subjektkonsistenz und Textausrichtung, ohne einen einzigen Optimierungsschritt zu benötigen. Schließlich kann ConsiStory natürlich auf Multi-Subjekt-Szenarien erweitert werden und sogar trainingsfreie Personalisierung für gängige Objekte ermöglichen.
Um der Open-Source-Community ein besseres Verständnis von Mixture-of-Experts (MoE)-basierten großen Sprachmodellen (LLMs) zu ermöglichen, trainieren und veröffentlichen wir OpenMoE, eine Reihe vollständig quelloffener und reproduzierbarer Decoder-only-MoE-LLMs, die von 650M bis 34B Parametern reichen und mit bis zu über 1T Tokens trainiert wurden. Unsere Untersuchung bestätigt, dass MoE-basierte LLMs ein günstigeres Kosten-Nutzen-Verhältnis bieten können als dichte LLMs, was das Potenzial für die zukünftige Entwicklung von LLMs unterstreicht. Ein weiterer wichtiger Beitrag dieser Studie ist eine detaillierte Analyse der Routing-Mechanismen innerhalb unserer OpenMoE-Modelle, die zu drei bedeutenden Erkenntnissen führt: Kontextunabhängige Spezialisierung, Frühes Routing-Lernen und Drop-towards-the-End. Wir haben festgestellt, dass Routing-Entscheidungen in MoE-Modellen überwiegend auf Token-IDs basieren, mit minimaler Kontextrelevanz. Die Token-zu-Expert-Zuordnungen werden früh in der Pre-Training-Phase bestimmt und bleiben weitgehend unverändert. Dieses unvollkommene Routing kann zu Leistungseinbußen führen, insbesondere bei sequenziellen Aufgaben wie mehrschrittigen Konversationen, bei denen Tokens, die später in einer Sequenz erscheinen, mit höherer Wahrscheinlichkeit verworfen werden. Abschließend überdenken wir unser Design basierend auf den oben genannten Beobachtungen und Analysen. Um die zukünftige Entwicklung von MoE-LLMs zu erleichtern, schlagen wir potenzielle Strategien vor, um die von uns identifizierten Probleme zu mildern und die vorhandenen MoE-LLM-Designs weiter zu verbessern.
State-Space-Modelle (SSMs) haben kürzlich bei groß angelegten Sprachmodellierungs-Benchmarks eine wettbewerbsfähige Leistung im Vergleich zu Transformern gezeigt, während sie eine lineare Zeit- und Speicherkomplexität in Abhängigkeit von der Sequenzlänge erreichen. Mamba, ein kürzlich veröffentlichter SSM-Modell, zeigt beeindruckende Leistungen sowohl in der Sprachmodellierung als auch bei Aufgaben zur Verarbeitung langer Sequenzen. Gleichzeitig haben Mixture-of-Expert-Modelle (MoE) bemerkenswerte Leistungen gezeigt, während sie die Rechen- und Latenzkosten der Inferenz erheblich reduzieren, allerdings auf Kosten eines größeren Speicherbedarfs. In diesem Artikel präsentieren wir BlackMamba, eine neuartige Architektur, die das Mamba-SSM mit MoE kombiniert, um die Vorteile beider Ansätze zu nutzen. Wir zeigen, dass BlackMamba sowohl gegen Mamba als auch gegen Transformer-Baselines wettbewerbsfähig abschneidet und in Bezug auf Inferenz- und Trainings-FLOPs übertrifft. Wir trainieren vollständig und veröffentlichen 340M/1,5B und 630M/2,8B BlackMamba-Modelle auf 300B Token eines benutzerdefinierten Datensatzes. Wir zeigen, dass BlackMamba die Vorteile sowohl der SSM- als auch der MoE-Architekturen erbt und kombiniert, indem es die lineare Komplexität der Generierung von SSM mit der kostengünstigen und schnellen Inferenz von MoE verbindet. Wir veröffentlichen alle Gewichte, Checkpoints und Inferenz-Code Open-Source. Inferenz-Code unter: https://github.com/Zyphra/BlackMamba
Interpretierbares maschinelles Lernen hat sich im letzten Jahrzehnt als Forschungsgebiet rasant entwickelt, angeregt durch den Aufstieg immer größerer Datensätze und tiefer neuronaler Netzwerke. Gleichzeitig haben große Sprachmodelle (Large Language Models, LLMs) bemerkenswerte Fähigkeiten in einer Vielzahl von Aufgaben gezeigt und bieten die Möglichkeit, Chancen im Bereich des interpretierbaren maschinellen Lernens neu zu überdenken. Insbesondere die Fähigkeit, Erklärungen in natürlicher Sprache zu liefern, ermöglicht es LLMs, das Ausmaß und die Komplexität der Muster zu erweitern, die einem Menschen vermittelt werden können. Diese neuen Fähigkeiten bringen jedoch auch neue Herausforderungen mit sich, wie etwa halluzinierte Erklärungen und immense Rechenkosten. In diesem Positionspapier beginnen wir mit einer Überprüfung bestehender Methoden zur Bewertung des aufstrebenden Feldes der LLM-Interpretation (sowohl die Interpretation von LLMs als auch die Verwendung von LLMs zur Erklärung). Wir vertreten die Ansicht, dass LLMs trotz ihrer Grenzen die Möglichkeit bieten, Interpretierbarkeit mit einem ehrgeizigeren Anwendungsbereich neu zu definieren, einschließlich der Überprüfung von LLMs selbst. Wir heben zwei aufkommende Forschungsschwerpunkte für die LLM-Interpretation hervor: die direkte Analyse neuer Datensätze durch LLMs und die Erzeugung interaktiver Erklärungen.
Die Ausrichtung von Sprachmodellen (LMs) an kuratiertem menschlichem Feedback ist entscheidend, um ihr Verhalten in realen Anwendungen zu steuern. Mehrere aktuelle Policy-Optimierungsmethoden, wie DPO und SLiC, bieten vielversprechende Alternativen zum traditionellen Ansatz des Reinforcement Learning from Human Feedback (RLHF). In der Praxis liegt menschliches Feedback oft in Form einer Rangliste über mehrere Antworten vor, um die Kosten für das Lesen von Prompts zu amortisieren. Mehrere Antworten können auch durch Belohnungsmodelle oder KI-Feedback gerankt werden. Es mangelt jedoch an Studien, die sich direkt auf eine Liste von Antworten konzentrieren. In dieser Arbeit formulieren wir die LM-Ausrichtung als ein listweises Ranking-Problem und beschreiben das Listwise Preference Optimization (LiPO)-Framework, bei dem die Policy potenziell effektiver aus einer Rangliste plausibler Antworten auf den Prompt lernen kann. Diese Sichtweise stellt eine explizite Verbindung zum Learning-to-Rank (LTR) her, wobei die meisten bestehenden Präferenzoptimierungsarbeiten auf bestehende Ranking-Ziele, insbesondere paarweise, abgebildet werden können. Im Anschluss an diese Verbindung untersuchen wir Ranking-Ziele, die für die LM-Ausrichtung mit DPO und SLiC als Spezialfälle bei einer Listengröße von zwei nicht gut untersucht sind. Insbesondere heben wir eine spezifische Methode, LiPO-{\lambda}, hervor, die ein modernes listweises Ranking-Ziel nutzt und jedes Präferenzpaar auf fortschrittlichere Weise gewichtet. Wir zeigen, dass LiPO-{\lambda} DPO und SLiC bei zwei Präferenzausrichtungsaufgaben deutlich übertreffen kann.
Aktuelle Text-zu-Video-Diffusionsmodelle haben beeindruckende Fortschritte erzielt. In der Praxis wünschen sich Benutzer oft die Möglichkeit, Objektbewegungen und Kamerabewegungen unabhängig voneinander zu steuern, um maßgeschneiderte Videos zu erstellen. Allerdings fehlt es aktuellen Methoden an der Fokussierung auf die getrennte Steuerung von Objektbewegungen und Kamerabewegungen in einer entkoppelten Weise, was die Kontrollierbarkeit und Flexibilität von Text-zu-Video-Modellen einschränkt. In diesem Artikel stellen wir Direct-a-Video vor, ein System, das es Benutzern ermöglicht, Bewegungen für ein oder mehrere Objekte und/oder Kamerabewegungen unabhängig voneinander festzulegen, als ob sie ein Video inszenieren würden. Wir schlagen eine einfache, aber effektive Strategie für die entkoppelte Steuerung von Objektbewegungen und Kamerabewegungen vor. Die Objektbewegung wird durch räumliche Cross-Attention-Modulation unter Verwendung der inhärenten Prioritäten des Modells gesteuert, ohne dass zusätzliche Optimierung erforderlich ist. Für die Kamerabewegung führen wir neue temporale Cross-Attention-Schichten ein, um quantitative Kamerabewegungsparameter zu interpretieren. Wir verwenden weiterhin einen augmentationsbasierten Ansatz, um diese Schichten in einer selbstüberwachten Weise auf einem kleinen Datensatz zu trainieren, wodurch die Notwendigkeit expliziter Bewegungsannotationen entfällt. Beide Komponenten arbeiten unabhängig voneinander, ermöglichen eine individuelle oder kombinierte Steuerung und können sich auf offene Domänenszenarien verallgemeinern. Umfangreiche Experimente demonstrieren die Überlegenheit und Effektivität unserer Methode. Projektseite: https://direct-a-video.github.io/.
Wir stellen InteractiveVideo vor, ein benutzerzentriertes Framework für die Videogenerierung. Im Gegensatz zu traditionellen generativen Ansätzen, die auf benutzerbereitgestellten Bildern oder Texten basieren, ist unser Framework für dynamische Interaktion konzipiert. Es ermöglicht Benutzern, das generative Modell während des gesamten Generierungsprozesses durch verschiedene intuitive Mechanismen zu steuern, wie z.B. Text- und Bildaufforderungen, Malen, Drag-and-Drop usw. Wir schlagen einen Synergistischen Multimodalen Instruktionsmechanismus vor, der darauf abzielt, die multimodalen Anweisungen der Benutzer nahtlos in generative Modelle zu integrieren und so eine kooperative und reaktionsschnelle Interaktion zwischen Benutzereingaben und dem Generierungsprozess zu fördern. Dieser Ansatz ermöglicht eine iterative und fein abgestimmte Verfeinerung des Generierungsergebnisses durch präzise und effektive Benutzeranweisungen. Mit InteractiveVideo erhalten Benutzer die Flexibilität, Schlüsselaspekte eines Videos detailliert anzupassen. Sie können das Referenzbild malen, Semantik bearbeiten und Videobewegungen anpassen, bis ihre Anforderungen vollständig erfüllt sind. Code, Modelle und eine Demo sind verfügbar unter https://github.com/invictus717/InteractiveVideo.
Strukturiertes Pruning moderner großer Sprachmodelle (LLMs) hat sich als Methode etabliert, um deren hohen Rechenbedarf zu verringern. Beim Width-Pruning wird die Größe der Projektionsgewichtmatrizen reduziert (z. B. durch das Entfernen von Aufmerksamkeitsköpfen), während die Anzahl der Schichten beibehalten wird. Im Gegensatz dazu entfernt Depth-Pruning ganze Schichten oder Blöcke, während die Größe der verbleibenden Gewichte unverändert bleibt. Der Großteil der aktuellen Forschung konzentriert sich entweder auf rein Width-Pruning oder eine Kombination aus Width- und Depth-Pruning, wobei vergleichende Analysen zwischen den beiden Einheiten (Width vs. Depth) hinsichtlich ihrer Auswirkungen auf die Inferenzeffizienz von LLMs kaum vorhanden sind. In dieser Arbeit zeigen wir, dass ein einfacher Depth-Pruning-Ansatz mit aktuellen Width-Pruning-Methoden in Bezug auf die Zero-Shot-Aufgabenleistung mithalten kann. Unser Pruning-Verfahren steigert die Inferenzgeschwindigkeiten, insbesondere unter speicherbeschränkten Bedingungen, die begrenzte Batch-Größen für die Ausführung von LLMs erfordern, wo Width-Pruning unwirksam ist. Wir hoffen, dass diese Arbeit dazu beitragen kann, LLMs auf lokalen und Edge-Geräten einzusetzen.
Es gibt eine sensorische Kluft zwischen der Erde, die der Mensch bewohnt, und den digitalen Sphären, in denen moderne KI-Agenten erschaffen werden. Um KI-Agenten zu entwickeln, die in realen Umgebungen ebenso flexibel wahrnehmen, denken und handeln können wie Menschen, ist es unerlässlich, den Realismus-Gap zwischen der digitalen und der physischen Welt zu überbrücken. Wie können wir Agenten in einer Umgebung verkörpern, die so reich und vielfältig ist wie die, die wir bewohnen, ohne die Einschränkungen durch reale Hardware und Steuerung? Zu diesem Zweck stellen wir V-IRL vor: eine Plattform, die es Agenten ermöglicht, skalierbar mit der realen Welt in einer virtuellen, aber realistischen Umgebung zu interagieren. Unsere Plattform dient als Spielwiese für die Entwicklung von Agenten, die verschiedene praktische Aufgaben bewältigen können, und als umfangreiches Testfeld, um Fortschritte in den Fähigkeiten der Wahrnehmung, Entscheidungsfindung und Interaktion mit realen Daten weltweit zu messen.
Angesichts der jüngsten Fortschritte bei multimodalen Large Language Models (LLMs) richtet sich die Aufmerksamkeit zunehmend darauf, diese von Bild-Text-Daten auf informativeres Echtzeit-Videomaterial zu skalieren. Im Vergleich zu statischen Bildern stellt Video aufgrund der Modellierung seiner raumzeitlichen Dynamik einzigartige Herausforderungen für ein effektives groß angelegtes Pre-Training dar. In diesem Papier gehen wir auf diese Einschränkungen beim Video-Sprache-Pre-Training ein, indem wir eine effiziente Videozerlegung vorschlagen, die jedes Video als Keyframes und zeitliche Bewegungen darstellt. Diese werden dann mithilfe gut durchdachter Tokenizer an ein LLM angepasst, die visuelle und zeitliche Informationen als wenige Token diskretisieren, wodurch ein einheitliches generatives Pre-Training von Videos, Bildern und Text ermöglicht wird. Bei der Inferenz werden die vom LLM generierten Token sorgfältig in den ursprünglichen kontinuierlichen Pixelraum zurückgeführt, um verschiedene Videoinhalte zu erstellen. Unser vorgeschlagenes Framework ist sowohl in der Lage, Bild- und Videoinhalte zu verstehen als auch zu generieren, wie seine wettbewerbsfähige Leistung über 13 multimodale Benchmarks in den Bereichen Bild- und Videoverständnis sowie -generierung zeigt. Unser Code und unsere Modelle werden unter https://video-lavit.github.io verfügbar sein.
Die Erweiterung großer Sprachmodelle (LLMs) um das Verständnis von Audio – einschließlich Nicht-Sprach-Geräuschen und nicht-verbaler Sprache – ist von entscheidender Bedeutung für vielfältige reale Anwendungen von LLMs. In diesem Artikel stellen wir Audio Flamingo vor, ein neuartiges Audio-Sprachmodell mit 1) starken Fähigkeiten im Audio-Verständnis, 2) der Fähigkeit, sich schnell über In-Context-Lernen und Retrieval an unbekannte Aufgaben anzupassen, und 3) ausgeprägten Fähigkeiten für mehrschrittige Dialoge. Wir führen eine Reihe von Trainingstechniken, Architekturdesigns und Datenstrategien ein, um unser Modell mit diesen Fähigkeiten zu verbessern. Umfangreiche Evaluierungen über verschiedene Audio-Verständnisaufgaben bestätigen die Wirksamkeit unserer Methode und setzen neue Maßstäbe für den State-of-the-Art.
Die Leistungsfähigkeit großer Sprachmodelle (LLMs) wurde durch zahlreiche Daten und Rechenressourcen unter Beweis gestellt. Die Anwendung von Sprachmodellen auf mobilen Geräten steht jedoch vor enormen Herausforderungen in Bezug auf Rechen- und Speicherkosten, sodass dringend kleine Sprachmodelle mit hoher Leistung benötigt werden. Aufgrund des hochkomplexen Trainingsprozesses gibt es viele Details zur Optimierung von Sprachmodellen, die bisher kaum gründlich untersucht wurden. In dieser Studie entwerfen wir basierend auf einem kleinen Sprachmodell mit 1B Parametern eine Reihe empirischer Untersuchungen, um die Auswirkungen jeder Komponente zu analysieren. Dabei werden hauptsächlich drei Perspektiven diskutiert: neuronale Architektur, Parameterinitialisierung und Optimierungsstrategie. Mehrere Designformeln erweisen sich empirisch als besonders effektiv für kleine Sprachmodelle, darunter Tokenizer-Kompression, Architektur-Anpassungen, Parametervererbung und mehrfaches Training. Anschließend trainieren wir PanGu-pi-1B Pro und PanGu-pi-1.5B Pro auf einem 1.6T umfassenden multilingualen Korpus, wobei wir die etablierten Formeln befolgen. Die experimentellen Ergebnisse zeigen, dass die verbesserte Optimierung und Architektur eine durchschnittliche Steigerung von 8.87 auf Benchmark-Evaluierungsdatensätzen für PanGu-pi-1B Pro bewirken. Darüber hinaus übertrifft PanGu-pi-1.5B Pro eine Reihe von SOTA-Modellen mit größeren Modellgrößen, was seine überlegene Leistung bestätigt. Der Code wird bald veröffentlicht (https://github.com/YuchuanTian/RethinkTinyLM).
Aktuelle Studien haben gezeigt, dass Code-Sprachmodelle in großem Maßstab signifikante Leistungssteigerungen bei nachgelagerten Aufgaben, wie z.B. der Code-Generierung, erzielen. Die meisten bestehenden Arbeiten zum Erlernen von Code-Repräsentationen trainieren jedoch Modelle mit hundert Millionen Parametern unter Verwendung sehr begrenzter Vorabtrainingskorpora. In dieser Arbeit beleben wir das Erlernen von Code-Repräsentationen mit einer großen Menge an Code-Daten durch ein zweistufiges Vorabtrainingsschema. Zunächst trainieren wir die Encoder über eine Mischung, die sowohl die Zufälligkeit beim Maskieren von Sprachmodellen als auch den strukturellen Aspekt von Programmiersprachen nutzt. Anschließend verbessern wir die Repräsentationen durch kontrastives Lernen mit hart-negativen und hart-positiven Beispielen, die auf unüberwachte Weise konstruiert werden. Wir etablieren ein sofort einsetzbares Encoder-Modell, das bestehende Modelle bei einer Vielzahl von nachgelagerten Aufgaben deutlich übertrifft. Um die Faktoren zu verstehen, die zum erfolgreichen Erlernen von Code-Repräsentationen beitragen, führen wir detaillierte Ablationen durch und teilen unsere Erkenntnisse zu (i) einem maßgeschneiderten und effektiven Token-Level-Entrauschungsschema für Quellcode; (ii) der Bedeutung von hart-negativen und hart-positiven Beispielen; (iii) wie das vorgeschlagene bimodale kontrastive Lernen die Leistung bei der cross-lingualen semantischen Suche steigert; und (iv) wie die Vorabtrainingsschemata die Skalierung der Leistung bei nachgelagerten Aufgaben mit der Modellgröße bestimmen.
Groß angelegte Text-zu-Bild (T2I) Diffusionsmodelle haben die Bildgenerierung in den letzten Jahren revolutioniert. Obwohl sie über vielfältige und hochwertige Generierungsfähigkeiten verfügen, bleibt die Übertragung dieser Fähigkeiten auf die fein abgestimmte Bildbearbeitung eine Herausforderung. In diesem Artikel schlagen wir DiffEditor vor, um zwei Schwächen in der bestehenden diffusionsbasierten Bildbearbeitung zu beheben: (1) In komplexen Szenarien fehlt es den Bearbeitungsergebnissen oft an Genauigkeit und es treten unerwartete Artefakte auf; (2) Es mangelt an Flexibilität, um Bearbeitungsoperationen zu harmonisieren, z. B. um neue Inhalte zu imaginieren. In unserer Lösung führen wir Bildprompts in der fein abgestimmten Bildbearbeitung ein, die mit dem Textprompt zusammenarbeiten, um den Bearbeitungsinhalt besser zu beschreiben. Um die Flexibilität zu erhöhen und gleichzeitig die Inhaltskonsistenz zu wahren, kombinieren wir lokal stochastische Differentialgleichungen (SDE) in die gewöhnliche Differentialgleichung (ODE) Sampling. Darüber hinaus integrieren wir regionsbasierte Score-Gradienten-Führung und eine Zeitreise-Strategie in das Diffusions-Sampling, was die Bearbeitungsqualität weiter verbessert. Umfangreiche Experimente zeigen, dass unsere Methode effizient state-of-the-art Leistung bei verschiedenen fein abgestimmten Bildbearbeitungsaufgaben erreichen kann, einschließlich der Bearbeitung innerhalb eines einzelnen Bildes (z. B. Objektverschiebung, Größenänderung und Inhaltsziehen) und über Bilder hinweg (z. B. Erscheinungsbildersetzung und Objekteinfügung). Unser Quellcode ist unter https://github.com/MC-E/DragonDiffusion veröffentlicht.