Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren DeepSeek-Coder-V2, ein Open-Source-Sprachmodell für Code auf Basis eines Mixture-of-Experts (MoE), das eine Leistung erzielt, die mit GPT4-Turbo in codespezifischen Aufgaben vergleichbar ist. Speziell wurde DeepSeek-Coder-V2 weiter vorab trainiert, ausgehend von einem Zwischen-Checkpoint von DeepSeek-V2, mit zusätzlichen 6 Billionen Tokens. Durch dieses fortgesetzte Vorab-Training verbessert DeepSeek-Coder-V2 wesentlich die Kodier- und mathematischen Denkfähigkeiten von DeepSeek-V2, während es eine vergleichbare Leistung in allgemeinen Sprachaufgaben beibehält. Im Vergleich zu DeepSeek-Coder-33B zeigt DeepSeek-Coder-V2 signifikante Fortschritte in verschiedenen Aspekten von codebezogenen Aufgaben sowie Denk- und allgemeinen Fähigkeiten. Darüber hinaus erweitert DeepSeek-Coder-V2 die Unterstützung für Programmiersprachen von 86 auf 338 und verlängert die Kontextlänge von 16K auf 128K. In standardisierten Benchmark-Evaluationen erzielt DeepSeek-Coder-V2 eine überlegene Leistung im Vergleich zu Closed-Source-Modellen wie GPT4-Turbo, Claude 3 Opus und Gemini 1.5 Pro in Kodier- und Mathematik-Benchmarks.
Die genaue Schätzung der Tiefe in 360-Grad-Bildern ist entscheidend für Virtual Reality, autonome Navigation und immersive Medienanwendungen. Bestehende Tiefenschätzmethoden, die für perspektivische Bilder entwickelt wurden, versagen, wenn sie auf 360-Grad-Bilder angewendet werden, aufgrund unterschiedlicher Kameraprojektionen und Verzerrungen, während 360-Grad-Methoden aufgrund des Mangels an beschrifteten Datenpaaren unterlegen sind. Wir schlagen ein neues Tiefenschätzungsframework vor, das unlabeled 360-Grad-Daten effektiv nutzt. Unser Ansatz verwendet modernste perspektivische Tiefenschätzmodelle als Lehrmodelle, um Pseudomarkierungen durch eine Sechsflächenwürfelprojektionstechnik zu generieren, die eine effiziente Beschriftung der Tiefe in 360-Grad-Bildern ermöglicht. Diese Methode nutzt die zunehmende Verfügbarkeit großer Datensätze. Unser Ansatz umfasst zwei Hauptphasen: die Offline-Maskenerzeugung für ungültige Regionen und ein Online-Semi-supervised-Joint-Training-Regime. Wir haben unseren Ansatz an Benchmark-Datensätzen wie Matterport3D und Stanford2D3D getestet und dabei signifikante Verbesserungen bei der Tiefenschätzungsgenauigkeit gezeigt, insbesondere in Zero-Shot-Szenarien. Unsere vorgeschlagene Trainingspipeline kann jeden 360-Monokulartiefenschätzer verbessern und zeigt eine effektive Wissensübertragung über verschiedene Kameraprojektionen und Datentypen hinweg. Sehen Sie unsere Projektseite für Ergebnisse: https://albert100121.github.io/Depth-Anywhere/
Die menschliche Ausrichtung in großen Sprachmodellen (LLMs) ist ein aktiver Forschungsbereich. Ein kürzlich bahnbrechendes Werk, die direkte Präferenzoptimierung (DPO), hat den Prozess im Vergleich zu früheren Arbeiten im Bereich des verstärkenden Lernens aus menschlichem Feedback (RLHF) erheblich vereinfacht, indem es die Belohnungslernphase in RLHF umgeht. DPO stellt nach dem Training ein implizites Belohnungsmodell bereit. In dieser Arbeit machen wir eine neuartige Beobachtung, dass dieses implizite Belohnungsmodell an sich in einer Art von Bootstrapping verwendet werden kann, um das LLM weiter auszurichten. Unser Ansatz besteht darin, die Belohnungen aus einem aktuellen LLM-Modell zu verwenden, um einen Präferenzdatensatz zu erstellen, der dann in nachfolgenden DPO-Runden verwendet wird. Wir integrieren Verfeinerungen, die die Länge der Antworten entzerren und die Qualität des Präferenzdatensatzes verbessern, um unseren Ansatz weiter zu verbessern. Unser Ansatz, benannt Selbstausrichtung mit DPO ImpliCit rEwards (DICE), zeigt große Verbesserungen in der Ausrichtung und erreicht eine überlegene Leistung als Gemini Pro auf AlpacaEval 2, mit einer Längenkontrollgewinnrate von 27,55% gegenüber GPT-4 Turbo, jedoch mit nur 8B Parametern und ohne externes Feedback. Unser Code ist verfügbar unter https://github.com/sail-sg/dice.
Große Sprach- und Bildmodelle (LLVMs) wurden durch die Generalisierungskraft großer Sprachmodelle (LLMs) und das Aufkommen der visuellen Anleitungsoptimierung vorangetrieben. Neben der direkten Skalierung ermöglichen diese Modelle LLVMs, leistungsstarke Visionssprach-Performances zu präsentieren, indem sie verschiedene Aufgaben über natürlichsprachliche Anweisungen abdecken. Allerdings gelten bestehende Open-Source-LLVMs, die vergleichbar mit Closed-Source-LLVMs wie GPT-4V abschneiden, oft als zu groß (z. B. 26 Mrd., 34 Mrd. und 110 Mrd. Parameter) und haben eine größere Anzahl von Schichten. Diese großen Modelle erfordern teure, leistungsstarke Ressourcen sowohl für das Training als auch für die Inferenz. Um dieses Problem anzugehen, präsentieren wir eine neue effiziente LLVM-Familie mit den Größen von 1,8 Mrd., 3,8 Mrd. und 7 Mrd. LLM-Modellen, Traversal of Layers (TroL), die es ermöglicht, Schichten auf tokenweiser Ebene wiederzuverwenden. Diese Schichttraversierungstechnik simuliert den Effekt des Zurückblickens und Nachverfolgens des Antwortstroms, während die Anzahl der Vorwärtspropagationsschichten erhöht wird, ohne physisch mehr Schichten hinzuzufügen. Wir zeigen, dass TroL einen einfachen Schichttraversierungsansatz verwendet, der jedoch effizient Open-Source-LLVMs mit größeren Modellgrößen übertrifft und die Leistungen der Closed-Source-LLVMs mit erheblichen Größen erreicht.
Wir stellen ChatGLM vor, eine sich entwickelnde Familie großer Sprachmodelle, an der wir im Laufe der Zeit gearbeitet haben. Dieser Bericht konzentriert sich hauptsächlich auf die GLM-4-Sprachserie, zu der GLM-4, GLM-4-Air und GLM-4-9B gehören. Sie repräsentieren unsere leistungsfähigsten Modelle, die mit allen Erkenntnissen und Lehren trainiert wurden, die aus den vorangegangenen drei Generationen von ChatGLM gewonnen wurden. Bisher wurden die GLM-4-Modelle auf zehn Billionen Tokens hauptsächlich in Chinesisch und Englisch vorab trainiert, zusammen mit einem kleinen Korpus aus 24 Sprachen, hauptsächlich für den Gebrauch in Chinesisch und Englisch. Die hochwertige Ausrichtung wird durch einen mehrstufigen Nachschulungsprozess erreicht, der überwachtes Feintuning und das Lernen aus menschlichem Feedback beinhaltet. Bewertungen zeigen, dass GLM-4 1) GPT-4 in Bezug auf allgemeine Metriken wie MMLU, GSM8K, MATH, BBH, GPQA und HumanEval nahezu ebenbürtig ist oder übertrifft, 2) in der Anweisungsbefolgung GPT-4-Turbo nahekommt, wie durch IFEval gemessen, 3) GPT-4 Turbo (128K) und Claude 3 für Aufgaben mit langem Kontext ebenbürtig ist und 4) GPT-4 in chinesischen Ausrichtungen, wie durch AlignBench gemessen, übertrifft. Das GLM-4 All Tools-Modell ist zusätzlich darauf ausgerichtet, Benutzerabsichten zu verstehen und autonom zu entscheiden, wann und welche Werkzeuge - einschließlich Webbrowser, Python-Interpreter, Text-zu-Bild-Modell und benutzerdefinierte Funktionen - effektiv zur Bewältigung komplexer Aufgaben eingesetzt werden sollen. In praktischen Anwendungen ist es in der Lage, und übertrifft sogar GPT-4 All Tools bei Aufgaben wie dem Zugriff auf Online-Informationen über Web-Browsing und dem Lösen von mathematischen Problemen mit dem Python-Interpreter. Im Laufe der Zeit haben wir eine Reihe von Modellen als Open-Source veröffentlicht, darunter ChatGLM-6B (drei Generationen), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM und CodeGeeX, die allein im Jahr 2023 über 10 Millionen Downloads auf Hugging Face angezogen haben. Die Open-Source-Modelle können über https://github.com/THUDM und https://huggingface.co/THUDM abgerufen werden.
Vision-Language-Modelle (VLMs) haben bemerkenswerte Erfolge bei verschiedenen multimodalen Aufgaben erzielt, sind jedoch häufig durch das begrenzte Kontextfenster und die hohe Rechenleistung bei der Verarbeitung von hochauflösenden Bildern und Videos eingeschränkt. Die Vision-Kompression kann dieses Problem durch die Reduzierung der Anzahl der Vision-Token lindern. Frühere Ansätze komprimieren Vision-Token mit externen Modulen und zwingen LLMs, die komprimierten zu verstehen, was zu einem Verlust visueller Informationen führt. Der Verständnisparadigma der Vision-Token durch LLMs wird jedoch im Kompressionslernprozess nicht vollständig genutzt. Wir schlagen VoCo-LLaMA vor, den ersten Ansatz zur Komprimierung von Vision-Token unter Verwendung von LLMs. Durch die Einführung von Vision-Kompressions-Token während der Phase der Feinabstimmung der Vision-Anweisung und die Nutzung der Aufmerksamkeitsdestillation destilliert unsere Methode, wie LLMs Vision-Token verstehen, in ihre Verarbeitung von VoCo-Token. VoCo-LLaMA erleichtert eine effektive Vision-Kompression und verbessert die Recheneffizienz während der Inferenzphase. Speziell erreicht unsere Methode minimale Leistungseinbußen bei einem Kompressionsverhältnis von 576mal, was zu bis zu 94,8 % weniger FLOPs und einer Beschleunigung der Inferenzzeit um 69,6 % führt. Darüber hinaus zeigt VoCo-LLaMA durch kontinuierliches Training mit zeitlich komprimierten Token-Sequenzen von Videoframes die Fähigkeit, zeitliche Korrelationen zu verstehen und übertrifft frühere Methoden in gängigen Benchmarktests für Video-Fragenbeantwortung. Unser Ansatz bietet einen vielversprechenden Weg, um das volle Potenzial des Kontextfensters von VLMs zu erschließen und damit skalierbarere multimodale Anwendungen zu ermöglichen. Die Projektseite sowie der zugehörige Code sind über https://yxxxb.github.io/VoCo-LLaMA-Seite/{diese https-URL} abrufbar.
Software-Agenten haben sich als vielversprechende Werkzeuge zur Bewältigung komplexer Softwaretechnikaufgaben herausgestellt. Allerdings vereinfachen bestehende Arbeiten Softwareentwicklungsworkflows, indem sie dem Wasserfallmodell folgen. Daher schlagen wir AgileCoder vor, ein Multi-Agenten-System, das die Agile Methodik (AM) in das Framework integriert. Dieses System weist spezifische AM-Rollen wie Produktmanager, Entwickler und Tester verschiedenen Agenten zu, die dann gemeinsam Software basierend auf Benutzereingaben entwickeln. AgileCoder verbessert die Entwicklungseffizienz, indem er die Arbeit in Sprints organisiert und sich darauf konzentriert, die Software inkrementell durch Sprints zu entwickeln. Darüber hinaus führen wir den Dynamischen Code-Graph-Generator ein, ein Modul, das dynamisch einen Code-Abhängigkeitsgraphen erstellt, während Aktualisierungen am Codebestand vorgenommen werden. Dies ermöglicht es den Agenten, den Codebestand besser zu verstehen, was zu präziserer Codegenerierung und -modifikationen im gesamten Softwareentwicklungsprozess führt. AgileCoder übertrifft bestehende Benchmarks wie ChatDev und MetaGPT, setzt einen neuen Standard und zeigt die Fähigkeiten von Multi-Agenten-Systemen in fortgeschrittenen Softwaretechnikumgebungen auf. Unser Quellcode ist unter https://github.com/FSoft-AI4Code/AgileCoder verfügbar.
Die Retrieval Augmented Generation (RAG) verbessert die Fähigkeit von Sprachmodellen, mithilfe externer Kontexte zu argumentieren, um Antworten auf eine bestimmte Benutzeranfrage zu erweitern. Dieser Ansatz hat aufgrund praktischer Anwendungen in verschiedenen Bereichen wie der Suche, Fragebeantwortung und Chatbots an Popularität gewonnen. Allerdings ist die genaue Funktionsweise dieses Ansatzes nicht klar verstanden. In diesem Artikel untersuchen wir mechanistisch den RAG-Pipeline, um hervorzuheben, dass Sprachmodelle Abkürzungen nehmen und stark dazu neigen, nur die Kontextinformationen zu nutzen, um die Frage zu beantworten, wobei sie minimal auf ihr parametrisches Gedächtnis angewiesen sind. Wir untersuchen dieses mechanistische Verhalten in Sprachmodellen mit: (i) Kausaler Mediationsanalyse, um zu zeigen, dass das parametrische Gedächtnis minimal genutzt wird, wenn eine Frage beantwortet wird, und (ii) Aufmerksamkeitsbeiträgen und Ausschaltungen, um zu zeigen, dass der Reststrom des letzten Tokens nicht aus dem Subjekt-Token in der Frage angereichert wird, sondern aus anderen informativen Tokens im Kontext. Wir stellen fest, dass dieses ausgeprägte Abkürzungsverhalten sowohl bei LLaMa- als auch bei Phi-Modellen zutrifft.
Das überwachte Feintuning verbessert die Problemlösungsfähigkeiten von Sprachmodellen bei verschiedenen mathematischen Denkaufgaben. Um solche Vorteile zu maximieren, konzentriert sich die bestehende Forschung darauf, den Trainingsdatensatz mit verschiedenen Datenvergrößerungstechniken zu erweitern, was für herkömmliche Einzelrunden-Frage-Antwort-Szenarien effektiv ist. Unsere Arbeit stellt eine neuartige Technik vor, die darauf abzielt, ein tieferes Verständnis der vorliegenden Trainingsprobleme zu fördern, um die Leistung nicht nur in herkömmlichen Einstellungen, sondern auch in komplexeren Szenarien zu verbessern, die reflektives Denken erfordern. Konkret schlagen wir reflektive Datenvergrößerung vor, eine Methode, die die Problembetrachtung in jede Trainingseinheit einbettet. Sie trainiert das Modell, alternative Perspektiven zu berücksichtigen und sich mit Abstraktionen und Analogien auseinanderzusetzen, um so ein gründliches Verständnis durch reflektives Denken zu fördern. Umfangreiche Experimente bestätigen die Erreichung unseres Ziels und unterstreichen die einzigartigen Vorteile unserer Methode sowie ihre ergänzende Natur im Vergleich zu bestehenden Vergrößerungstechniken.
Sicherheitsausgerichtete Sprachmodelle zeigen oft fragile und unausgewogene Sicherheitsmechanismen, was die Wahrscheinlichkeit erhöht, unsichere Inhalte zu generieren. Darüber hinaus kann das Einbeziehen neuer Kenntnisse durch Bearbeitungstechniken in Sprachmodellen die Sicherheit weiter beeinträchtigen. Um diese Probleme anzugehen, schlagen wir SafeInfer vor, eine kontextadaptive, dekodierungszeitliche Sicherheitsausrichtungsstrategie zur Generierung sicherer Antworten auf Benutzeranfragen. SafeInfer besteht aus zwei Phasen: der Sicherheitsverstärkungsphase, die sich sicherer Demonstrationsbeispiele bedient, um die verborgenen Zustände des Modells anzupassen und die Wahrscheinlichkeit sichererer Ausgaben zu erhöhen, und der sicherheitsgeleiteten Dekodierungsphase, die die Tokenauswahl basierend auf sicherheitsoptimierten Verteilungen beeinflusst, um sicherzustellen, dass die generierten Inhalte den ethischen Richtlinien entsprechen. Darüber hinaus präsentieren wir HarmEval, einen neuartigen Benchmark für umfassende Sicherheitsevaluierungen, der entwickelt wurde, um potenzielle Missbrauchsszenarien gemäß den Richtlinien führender KI-Technologiegiganten zu behandeln.
Große Sprachmodelle (LLMs) werden auf riesigen Datenmengen trainiert, die größtenteils automatisch aus dem Internet extrahiert werden. Diese Daten umfassen enzyklopädische Dokumente, die eine große Menge an Allgemeinwissen enthalten (z. B. Wikipedia), aber auch potenziell mit Benchmark-Datensätzen überlappen, die zur Evaluierung von LLMs verwendet werden. Daher ist die Bewertung von Modellen anhand von Testaufteilungen, die möglicherweise in den Trainingssatz gelangt sind, anfällig für irreführende Schlussfolgerungen. Um eine fundierte Bewertung von Sprachmodellen zu fördern, stellen wir einen neuen Testdatensatz namens RepLiQA vor, der für Frage-Antwort- und Themenabrufaufgaben geeignet ist. RepLiQA ist eine Sammlung von fünf Aufteilungen von Testsets, von denen vier vor dieser Veröffentlichung nicht ins Internet gestellt oder LLM-APIs ausgesetzt wurden. Jedes Beispiel in RepLiQA besteht aus (1) einem von einem menschlichen Annotator erstellten Referenzdokument, das ein imaginäres Szenario darstellt (z. B. ein Nachrichtenartikel), das nicht im Internet vorhanden ist; (2) einer Frage zum Thema des Dokuments; (3) einer aus dem Dokument direkt abgeleiteten richtigen Antwort; und (4) dem Absatz aus dem Referenzdokument, der die Antwort enthält. Daher können genaue Antworten nur generiert werden, wenn ein Modell relevante Inhalte im bereitgestellten Dokument finden kann. Wir führen einen groß angelegten Benchmark durch, der mehrere erstklassige LLMs umfasst, um Unterschiede in der Leistung verschiedener Modelle unterschiedlicher Typen und Größen in einem kontextbedingten Sprachmodellierungsumfeld aufzudecken. Veröffentlichte Aufteilungen von RepLiQA finden Sie hier: https://huggingface.co/datasets/ServiceNow/repliqa.
Die sichere Ausrichtung großer Sprachmodelle (LLMs) mit menschlichen Werten ist entscheidend, da sie integraler Bestandteil von Anwendungen wie Übersetzung und Fragebeantwortung werden. Aktuelle Ausrichtungsmethoden haben Schwierigkeiten mit dynamischen Benutzerabsichten und komplexen Zielen, was Modelle anfällig macht für die Erzeugung von schädlichen Inhalten. Wir schlagen Safety Arithmetic vor, ein trainingsfreies Framework zur Verbesserung der Sicherheit von LLMs in verschiedenen Szenarien: Basismodelle, überwachte feinabgestimmte Modelle (SFT) und bearbeitete Modelle. Safety Arithmetic beinhaltet Harm Direction Removal, um schädliche Inhalte zu vermeiden, und Safety Alignment, um sichere Antworten zu fördern. Darüber hinaus präsentieren wir NoIntentEdit, einen Datensatz, der Edit-Instanzen hervorhebt, die die Modellsicherheit gefährden könnten, wenn sie unbeabsichtigt verwendet werden. Unsere Experimente zeigen, dass Safety Arithmetic die Sicherheitsmaßnahmen signifikant verbessert, Über-Sicherheit reduziert und die Modellnutzen aufrechterhält, wodurch bestehende Methoden bei der Sicherstellung der sicheren Inhaltsgenerierung übertroffen werden.
Sprachmodelle unterteilen rohen Text in der Regel in Sequenzen von Teilwortidentifikatoren aus einem vordefinierten Vokabular, ein Prozess, der inhärent empfindlich auf typografische Fehler, Längenvariationen und weitgehend unempfindlich gegenüber der internen Struktur von Tokens ist - Probleme, die wir als das Fluch der Tokenisierung bezeichnen. In dieser Studie gehen wir auf diese Nachteile ein und zeigen, dass große Sprachmodelle (LLMs) anfällig für diese Probleme bleiben. Diese Studie untersucht systematisch diese Herausforderungen und ihren Einfluss auf LLMs anhand von drei zentralen Forschungsfragen: (1) komplexe Problemlösung, (2) Untersuchung der Tokenstruktur und (3) Widerstandsfähigkeit gegen typografische Variationen. Unsere Ergebnisse zeigen, dass das Skalieren von Modellparametern das Problem der Tokenisierung mildern kann; dennoch leiden LLMs weiterhin unter durch Tippfehler und andere Textformatvariationen induzierten Verzerrungen. Unsere Experimente zeigen, dass die Unterstützung von Teilwörtern, wie z.B. BPE-Dropout, dieses Problem mildern kann. Wir werden unseren Code und unsere Daten veröffentlichen, um weitere Forschung zu erleichtern.
Der Fortschritt großer Sprachmodelle (LLMs) hat das Anwendungsspektrum in der natürlichen Sprachverarbeitung erheblich erweitert, wobei Multi-Modal-LMMs diese Fähigkeiten erweitern, um visuelle Daten zu integrieren und zu interpretieren. Allerdings konzentrieren sich bestehende Benchmarks für visuelle Sprachmodelle (VLMs) hauptsächlich auf Einzelbild-Eingaben und vernachlässigen den entscheidenden Aspekt des Verstehens von Multi-Bildern. In diesem Paper stellen wir einen Multi-Bild-Relationen-Benchmark MIRB vor, der entwickelt wurde, um die Fähigkeit von VLMs zu vergleichen, zu analysieren und über mehrere Bilder hinweg zu argumentieren. Unser Benchmark umfasst vier Kategorien: Wahrnehmung, visuelles Weltwissen, Argumentation und mehrstufige Argumentation. Durch eine umfassende Bewertung einer Vielzahl von Open-Source- und Closed-Source-Modellen zeigen wir, dass Open-Source-VLMs zwar gezeigt haben, dass sie sich in Einzelbild-Aufgaben der Leistung von GPT-4V annähern, jedoch eine signifikante Leistungslücke bei Multi-Bild-Argumentationsaufgaben besteht. Unsere Ergebnisse zeigen auch, dass selbst das modernste GPT-4V-Modell mit unserem Benchmark zu kämpfen hat, was die Notwendigkeit weiterer Forschung und Entwicklung in diesem Bereich unterstreicht. Wir glauben, dass unser Beitrag des MIRB als Testumgebung für die Entwicklung von Multi-Modal-Modellen der nächsten Generation dienen könnte.
Die Evolution der Künstlichen Intelligenz (KI) wurde maßgeblich durch Fortschritte in großen Sprachmodellen (LLMs) und großen multimodalen Modellen (LMMs) beschleunigt, die allmählich potenzielle kognitive Denkfähigkeiten in der Problemlösung und wissenschaftlichen Entdeckung (d. h. KI für Wissenschaft) zeigen, die einst ausschließlich dem menschlichen Intellekt vorbehalten waren. Um die Leistung aktueller Modelle in kognitiven Denkfähigkeiten umfassend zu bewerten, stellen wir OlympicArena vor, die 11.163 zweisprachige Probleme in reinen Text- und Text-Bild-Modalitäten umfasst. Diese Herausforderungen umfassen eine Vielzahl von Disziplinen aus sieben Bereichen und 62 internationalen olympischen Wettbewerben, die sorgfältig auf Datenleckagen überprüft wurden. Wir argumentieren, dass die Herausforderungen in den olympischen Wettbewerbsproblemen ideal sind, um die kognitive Denkfähigkeit der KI zu bewerten, aufgrund ihrer Komplexität und interdisziplinären Natur, die für die Bewältigung komplexer wissenschaftlicher Herausforderungen und die Förderung von Entdeckungen unerlässlich sind. Über die Bewertung der Leistung in verschiedenen Disziplinen anhand von reinen Antwortkriterien hinaus führen wir detaillierte Experimente und Analysen aus verschiedenen Perspektiven durch. Wir gehen auf die kognitive Denkfähigkeit der Modelle ein, ihre Leistung in verschiedenen Modalitäten und ihre Ergebnisse in Evaluierungen auf Prozessebene, die für Aufgaben mit komplexem Denken und langen Lösungen von entscheidender Bedeutung sind. Unsere umfangreichen Bewertungen zeigen, dass selbst fortschrittliche Modelle wie GPT-4o nur eine Gesamtgenauigkeit von 39,97% erreichen, was die aktuellen KI-Beschränkungen im komplexen Denken und der multimodalen Integration verdeutlicht. Durch die OlympicArena streben wir danach, die KI hin zu Superintelligenz voranzutreiben, um sie für die Bewältigung komplexerer Herausforderungen in Wissenschaft und darüber hinaus zu rüsten. Wir stellen auch eine umfassende Reihe von Ressourcen zur Unterstützung der KI-Forschung bereit, darunter einen Benchmark-Datensatz, eine Open-Source-Annotationplattform, ein detailliertes Evaluierungstool und eine Rangliste mit automatischen Einreichungsfunktionen.
Trotz der jüngsten Fortschritte bei hochauflösender menschlicher Rekonstruktionstechniken behindern die Anforderungen an dicht erfasste Bilder oder zeitaufwändige Optimierung pro Instanz erheblich ihre Anwendungen in breiteren Szenarien. Um diese Probleme anzugehen, präsentieren wir HumanSplat, das die 3D-Gaußsche Splatting-Eigenschaften eines beliebigen Menschen aus einem einzigen Eingabebild auf eine generalisierbare Weise vorhersagt. Insbesondere umfasst HumanSplat ein 2D-Multi-View-Diffusionsmodell und einen latenten Rekonstruktions-Transformer mit menschlichen Strukturpriors, die geometrische Priors und semantische Merkmale geschickt in einem vereinheitlichten Rahmen integrieren. Eine hierarchische Verlustfunktion, die menschliche semantische Informationen einbezieht, wurde zusätzlich entwickelt, um eine hochauflösende Texturmodellierung zu erreichen und die geschätzten mehreren Ansichten besser zu beschränken. Umfassende Experimente an Standard-Benchmarks und In-the-Wild-Bildern zeigen, dass HumanSplat bestehende State-of-the-Art-Methoden bei der Erzielung fotorealistischer Neuansicht-Synthese übertrifft.
Tabellendaten - strukturierte, heterogene Daten im Tabellenformat mit Zeilen und Spalten - werden in der Praxis in vielen Bereichen weit verbreitet eingesetzt. Obwohl neuere Grundlagenmodelle den Bedarf an der Entwicklung aufgabenspezifischer Datensätze und Vorhersagemodelle in Bereichen wie der Sprachmodellierung und der Computer Vision reduziert haben, hat dieses Transfer-Learning-Paradigma keinen ähnlichen Einfluss im Bereich tabellarischer Daten gehabt. In dieser Arbeit möchten wir diese Lücke verkleinern und TabuLa-8B vorstellen, ein Sprachmodell für tabellarische Vorhersagen. Wir definieren einen Prozess zur Extraktion eines großen, hochwertigen Trainingsdatensatzes aus dem TabLib-Korpus und schlagen Methoden für die Filterung und Qualitätskontrolle von Tabellendaten vor. Unter Verwendung des resultierenden Datensatzes, der über 1,6 Milliarden Zeilen aus 3,1 Millionen eindeutigen Tabellen umfasst, feinabstimmen wir ein großes Sprachmodell Llama 3-8B (LLM) für die Vorhersage von tabellarischen Daten (Klassifizierung und gruppierte Regression) unter Verwendung eines neuartigen Verpackungs- und Aufmerksamkeitsschemas für tabellarische Vorhersagen. Durch die Evaluation anhand eines Testsets von 329 Datensätzen stellen wir fest, dass TabuLa-8B eine Null-Schuss-Genauigkeit auf unbekannten Tabellen aufweist, die über 15 Prozentpunkte höher ist als zufälliges Raten, eine Leistung, die mit bestehenden modernsten tabellarischen Vorhersagemodellen (z. B. XGBoost, TabPFN) nicht möglich ist. Im Few-Shot-Szenario (1-32 Schüsse), ohne Feinabstimmung auf die Ziel-Datensätze, ist TabuLa-8B 5-15 Prozentpunkte genauer als XGBoost- und TabPFN-Modelle, die explizit auf gleichen oder sogar bis zu 16-mal mehr Daten trainiert wurden. Wir veröffentlichen unser Modell, den Code und die Daten zusammen mit der Veröffentlichung dieses Papers.
Zur Bewertung des Wissens in großen Sprachmodellen (LLMs) verwenden aktuelle Methoden Abfragen des Modells und bewerten dann die generierten Antworten. In dieser Arbeit stellen wir die Frage, ob die Bewertung erfolgen kann, bevor das Modell Text generiert hat. Konkret geht es darum, abzuschätzen, wie gut ein Modell über eine bestimmte Entität informiert ist, nur anhand seiner internen Berechnungen. Wir untersuchen diese Frage anhand von zwei Aufgaben: Gegeben eine bestimmte Entität, soll das Ziel sein, (a) die Fähigkeit des Modells vorherzusagen, allgemeine Fragen über die Entität zu beantworten, und (b) die Faktentreue der vom Modell über die Entität generierten Antworten. Experimente mit verschiedenen LLMs zeigen, dass KEEN, eine einfache Sonde, die über interne Entitätsrepräsentationen trainiert wurde, bei beiden Aufgaben erfolgreich ist - was stark mit der QA-Genauigkeit des Modells pro Entität und FActScore korreliert, einer aktuellen Faktentreue-Metrik bei offener Generierung. Darüber hinaus passt sich KEEN natürlich dem Abschwächungsverhalten des Modells an und spiegelt treu Veränderungen im Wissensstand des Modells nach Feinabstimmung wider. Schließlich zeigen wir eine interpretierbarere, aber ebenso leistungsfähige Variante von KEEN, die eine kleine Menge von Tokens hervorhebt, die mit dem Wissensmangel des Modells korrelieren. Da KEEN einfach und leichtgewichtig ist, kann es genutzt werden, um Lücken und Cluster im Entitätswissen von LLMs zu identifizieren und Entscheidungen wie die Erweiterung von Abfragen mit Retrieval zu lenken.
Medizinisches Wissen ist kontextabhängig und erfordert konsistentes Argumentieren über verschiedene natürlichsprachliche Ausdrücke semantisch äquivalenter Phrasen. Dies ist besonders wichtig für Arzneimittelnamen, da Patienten oft Markennamen wie Advil oder Tylenol anstelle ihrer generischen Äquivalente verwenden. Um dies zu untersuchen, haben wir einen neuen robusten Datensatz namens RABBITS erstellt, um Leistungsunterschiede bei medizinischen Benchmarks nach dem Austausch von Marken- und generischen Arzneimittelnamen mithilfe von Expertenannotationen von Ärzten zu bewerten. Wir bewerten sowohl Open-Source- als auch API-basierte LLMs in MedQA und MedMCQA und zeigen eine konsistente Leistungseinbuße von 1-10\%. Darüber hinaus identifizieren wir eine potenzielle Ursache dieser Fragilität als die Kontamination von Testdaten in weit verbreiteten Vortrainingsdatensätzen. Der gesamte Code ist unter https://github.com/BittermanLab/RABBITS verfügbar, und ein HuggingFace-Leaderboard ist unter https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard abrufbar.
Text-zu-Bild (T2I) Diffusionsmodelle haben beeindruckende Bildgenerierungsfähigkeiten gezeigt. Ihre hohe Rechenintensität hindert jedoch ressourcenbeschränkte Organisationen daran, T2I-Modelle nach dem Feintuning auf ihren internen Ziel-Daten einzusetzen. Während Beschneidungstechniken eine potenzielle Lösung bieten, um die Rechenlast von T2I-Modellen zu reduzieren, verwenden statische Beschneidungsmethoden dasselbe beschnittene Modell für alle Eingabeaufforderungen, ohne auf die unterschiedlichen Kapazitätsanforderungen verschiedener Aufforderungen einzugehen. Die dynamische Beschneidung behebt dieses Problem, indem für jede Aufforderung ein separates Teilnetzwerk verwendet wird, aber sie verhindert die Batch-Parallelität auf GPUs. Um diese Einschränkungen zu überwinden, stellen wir Adaptive Prompt-basierte Beschneidung (APTP) vor, eine neuartige auf Aufforderungen basierende Beschneidungsmethode, die für T2I-Diffusionsmodelle entwickelt wurde. Zentral für unseren Ansatz ist ein Aufforderungsrouter-Modell, das lernt, die erforderliche Kapazität für eine Eingabetext-Aufforderung zu bestimmen und sie einem Architekturcode zuzuweisen, basierend auf einem insgesamt gewünschten Rechenbudget für Aufforderungen. Jeder Architekturcode repräsentiert ein spezialisiertes Modell, das auf die ihm zugewiesenen Aufforderungen zugeschnitten ist, und die Anzahl der Codes ist ein Hyperparameter. Wir trainieren den Aufforderungsrouter und die Architekturcodes unter Verwendung von kontrastivem Lernen, um sicherzustellen, dass ähnliche Aufforderungen nahe beieinander liegenden Codes zugeordnet werden. Darüber hinaus verwenden wir den optimalen Transport, um zu verhindern, dass die Codes in einen einzigen zusammenfallen. Wir zeigen die Wirksamkeit von APTP, indem wir Stable Diffusion (SD) V2.1 unter Verwendung von CC3M und COCO als Ziel-Datensätze beschneiden. APTP übertrifft die Einzelmodell-Beschneidungs-Baselines in Bezug auf FID, CLIP und CMMD-Werte. Unsere Analyse der von APTP gelernten Cluster zeigt, dass sie semantisch sinnvoll sind. Wir zeigen auch, dass APTP automatisch zuvor empirisch herausfordernde Aufforderungen für SD entdecken kann, z. B. Aufforderungen zur Generierung von Textbildern, indem sie diesen höheren Kapazitätscodes zuweist.
Die rasante Entwicklung von Sprachmodellen hat die Notwendigkeit der Entwicklung anspruchsvollerer Benchmarks mit sich gebracht. Aktuelle statische Benchmarks haben oft Schwierigkeiten, die Fähigkeiten verschiedener Modelle konsistent zu unterscheiden und entsprechen nicht den Vorlieben realer Benutzer. Andererseits sammeln lebendige, von der Crowd erstellte Plattformen wie die Chatbot Arena eine Vielzahl natürlicher Anfragen und Benutzerfeedbacks. Diese Anfragen variieren jedoch in ihrer Komplexität, und das Feedback kann offline nicht auf neue Modelle angewendet werden. Um sicherzustellen, dass Benchmarks mit der Entwicklung von LLMs Schritt halten, untersuchen wir, wie Benchmarks hinsichtlich ihrer Fähigkeit, Modelle sicher voneinander zu trennen, und ihrer Übereinstimmung mit menschlichen Vorlieben bewertet werden können. Unter diesen Grundsätzen haben wir BenchBuilder entwickelt, einen lebendigen Benchmark, der hochwertige Anfragen aus Live-Datenquellen filtert, um eine Offline-Bewertung anhand frischer, anspruchsvoller Anfragen zu ermöglichen. BenchBuilder identifiziert sieben Indikatoren einer hochwertigen Anfrage, wie z.B. den Bedarf an Fachwissen, und nutzt einen LLM-Annotator, um eine hochwertige Teilmenge von Anfragen aus verschiedenen Themenclustern auszuwählen. Der LLM-Bewertungsprozess verwendet einen LLM-Richter, um einen vollständig automatisierten, hochwertigen und ständig aktualisierten Benchmark sicherzustellen. Wir wenden BenchBuilder auf Anfragen aus der Chatbot Arena an, um Arena-Hard-Auto v0.1 zu erstellen: 500 anspruchsvolle Benutzeranfragen aus einer Vielzahl von Aufgaben. Arena-Hard-Auto v0.1 bietet 3-mal engere Vertrauensintervalle als MT-Bench und erreicht eine Spitzenübereinstimmung von 89,1% mit menschlichen Präferenzranglisten, alles zu Kosten von nur 25 $ und ohne menschliche Labeler. Die BenchBuilder-Pipeline verbessert Evaluierungsbenchmarks und bietet Entwicklern ein wertvolles Werkzeug, um hochwertige Benchmarks aus umfangreichen Daten mit minimalem Aufwand zu extrahieren.
Die Binarisierung, die Gewichtsparameter in binäre Werte umwandelt, hat sich als eine effektive Strategie zur Reduzierung der Größe großer Sprachmodelle (LLMs) erwiesen. Allerdings verringern typische Binarisierungstechniken die sprachliche Effektivität von LLMs erheblich. Um dieses Problem zu lösen, stellen wir eine neue Binarisierungstechnik namens Mixture of Scales (BinaryMoS) vor. Im Gegensatz zu herkömmlichen Methoden verwendet BinaryMoS mehrere Skalierungsexperten für binäre Gewichte, die diese Experten dynamisch für jedes Token zusammenführen, um adaptiv Skalierungsfaktoren zu generieren. Dieser tokenadaptive Ansatz steigert die Repräsentationskraft binarisierter LLMs, indem er kontextuelle Anpassungen an die Werte binärer Gewichte ermöglicht. Darüber hinaus, da dieser adaptive Prozess nur die Skalierungsfaktoren betrifft und nicht die gesamte Gewichtsmatrix, behält BinaryMoS eine ähnliche Komprimierungseffizienz wie traditionelle statische Binarisierungsmethoden bei. Unsere experimentellen Ergebnisse zeigen, dass BinaryMoS herkömmliche Binarisierungstechniken in verschiedenen natürlichsprachlichen Verarbeitungsaufgaben übertrifft und sogar 2-Bit-Quantisierungsmethoden übertrifft, während es eine ähnliche Modellgröße wie statische Binarisierungstechniken beibehält.
Die direkte Ausrichtung von Präferenzen (DAP) hat sich als vielversprechendes Paradigma für die Ausrichtung großer Sprachmodelle (LLMs) an menschliche Wünsche aus zuvor gesammelten, offline Präferenzdatensätzen herauskristallisiert. Während aktuelle Studien darauf hindeuten, dass bestehende offline DAP-Methoden direkt von Online-Trainingssamples profitieren können, betonen wir die Notwendigkeit, spezifische Online-DAP-Algorithmen zu entwickeln, um die volle Leistungsfähigkeit des Online-Trainings auszuschöpfen. Insbesondere identifizieren wir, dass das erlernte LLM der Nähe des Verhaltens-LLM entsprechen sollte, das die Trainingssamples sammelt. Zu diesem Zweck schlagen wir die Online-Präferenzoptimierung in der Nähe des Verhaltens-LLM (BPO) vor und betonen die Bedeutung der Konstruktion einer angemessenen Vertrauensregion für die LLM-Ausrichtung. Wir führen umfangreiche Experimente durch, um die Wirksamkeit und Anwendbarkeit unseres Ansatzes zu validieren, indem wir ihn mit verschiedenen DAP-Methoden integrieren, was zu signifikanten Leistungsverbesserungen über eine Vielzahl von Aufgaben führt, wenn mit derselben Menge an Präferenzdaten trainiert wird. Selbst wenn nur eine zusätzliche Datensammlungsphase eingeführt wird, verbessert unser Online-BPO seine offline DAP-Basislinie von 72,0 % auf 80,2 % bei TL;DR und von 82,2 % auf 89,1 % bei Anthropischer Hilfsbereitschaft in Bezug auf den Gewinnanteil gegenüber menschlichem Referenztext.
Die Videobearbeitung bildet das Fundament digitaler Medien, von Unterhaltung und Bildung bis hin zur professionellen Kommunikation. Bisherige Methoden vernachlässigen jedoch oft die Notwendigkeit, globale und lokale Kontexte umfassend zu verstehen, was zu ungenauen und inkonsistenten Bearbeitungen in der Raum-Zeit-Dimension führt, insbesondere bei langen Videos. In diesem Paper stellen wir VIA vor, ein vereinheitlichtes raumzeitliches Videoanpassungsframework für globale und lokale Videobearbeitung, das die Grenzen der konsistenten Bearbeitung von kurzen Videos erweitert. Zunächst gewährleistet VIA zur Sicherung der lokalen Konsistenz innerhalb einzelner Frames eine neuartige Testzeit-Bearbeitungsanpassungsmethode, die ein vortrainiertes Bildbearbeitungsmodell anpasst, um die Konsistenz zwischen potenziellen Bearbeitungsrichtungen und der Textanweisung zu verbessern, und angepasste maskierte latente Variablen für präzise lokale Steuerung verwendet. Darüber hinaus führen wir zur Aufrechterhaltung der globalen Konsistenz über die Videosequenz eine raumzeitliche Anpassung ein, die konsistente Aufmerksamkeitsvariablen in Schlüsselbildern anpasst und sie strategisch über die gesamte Sequenz anwendet, um die Bearbeitungseffekte zu realisieren. Umfangreiche Experimente zeigen, dass unser VIA-Ansatz im Vergleich zu Basislinienmethoden Bearbeitungen produziert, die treuer zu den Ausgangsvideos sind, kohärenter im raumzeitlichen Kontext und präziser in der lokalen Steuerung. Vor allem zeigen wir, dass VIA konsistente Bearbeitungen langer Videos in Minuten erreichen kann, was das Potenzial für fortgeschrittene Videobearbeitungsaufgaben über lange Videosequenzen freisetzt.
Die Bewertung der Wirksamkeit großer Sprachmodelle (LLMs) bei der Bewältigung verschiedener Aufgaben ist entscheidend, um ihre Stärken und Schwächen zu verstehen. Herkömmliche Evaluierungstechniken wenden in der Regel eine einzige Aufforderungsstrategie einheitlich auf Datensätze an, ohne die unterschiedlichen Grade der Aufgabenschwierigkeit zu berücksichtigen. Wir stellen die Hierarchische Aufforderungstaxonomie (HPT) vor, eine Taxonomie, die ein Hierarchisches Aufforderungsframework (HPF) verwendet, das aus fünf einzigartigen Aufforderungsstrategien besteht, angeordnet von der einfachsten bis zur komplexesten, um LLMs genauer zu bewerten und eine klarere Perspektive zu bieten. Diese Taxonomie weist Datensätzen sowie LLMs basierend auf den Regeln der Taxonomie eine Punktzahl zu, die als Hierarchischer Aufforderungspunktewert (HP-Score) bezeichnet wird, um ein differenziertes Verständnis ihrer Fähigkeit zur Lösung verschiedener Aufgaben zu bieten und ein universelles Maß für die Aufgabenschwierigkeit anzubieten. Darüber hinaus stellen wir das Adaptive Hierarchische Aufforderungsframework vor, das die Auswahl geeigneter Aufforderungsstrategien für jede Aufgabe automatisiert. Diese Studie vergleicht manuelle und adaptive hierarchische Aufforderungsframeworks unter Verwendung von vier anweisungsgesteuerten LLMs, nämlich Llama 3 8B, Phi 3 3.8B, Mistral 7B und Gemma 7B, über vier Datensätze: BoolQ, CommonSenseQA (CSQA), IWSLT-2017 en-fr (IWSLT) und SamSum. Experimente zeigen die Wirksamkeit von HPT auf und bieten eine zuverlässige Möglichkeit, verschiedene Aufgaben und LLM-Fähigkeiten zu vergleichen. Dieser Artikel führt zur Entwicklung eines universellen Bewertungsmaßstabs, der sowohl zur Bewertung der Komplexität der Datensätze als auch der Fähigkeiten von LLMs verwendet werden kann. Die Implementierung sowohl des manuellen HPF als auch des adaptiven HPF ist öffentlich verfügbar.
Vision-enabled Language Models (VLMs) werden nun verwendet, um autonome multimodale Agenten zu entwickeln, die in der Lage sind, Aktionen in realen Umgebungen auszuführen. In diesem Artikel zeigen wir, dass multimodale Agenten neue Sicherheitsrisiken aufwerfen, obwohl die Attacke auf Agenten aufgrund des begrenzten Zugangs zu und des Wissens über die Umgebung anspruchsvoller ist als frühere Angriffe. Unsere Angriffe verwenden adversarielle Textzeichenfolgen, um eine Gradienten-basierte Störung über ein Auslösebild in der Umgebung zu lenken: (1) Unser Captioner-Angriff zielt auf White-Box-Captioner ab, wenn sie verwendet werden, um Bilder in Bildunterschriften umzuwandeln und diese als zusätzliche Eingaben für das VLM zu verwenden; (2) Unser CLIP-Angriff greift eine Gruppe von CLIP-Modellen gemeinsam an, was auf proprietäre VLMs übertragen werden kann. Zur Bewertung der Angriffe haben wir VisualWebArena-Adv erstellt, eine Reihe von adversariellen Aufgaben basierend auf VisualWebArena, einer Umgebung für webbasierte multimodale Agentenaufgaben. Innerhalb einer L-Infinity-Norm von 16/256 auf einem einzelnen Bild kann der Captioner-Angriff einen mit Bildunterschriften erweiterten GPT-4V-Agenten dazu bringen, die adversariellen Ziele mit einer Erfolgsquote von 75% zu erreichen. Wenn wir den Captioner entfernen oder GPT-4V verwenden, um seine eigenen Bildunterschriften zu generieren, kann der CLIP-Angriff Erfolgsraten von 21% bzw. 43% erzielen. Experimente mit Agenten, die auf anderen VLMs basieren, wie Gemini-1.5, Claude-3 und GPT-4o, zeigen interessante Unterschiede in ihrer Robustheit. Eine weitere Analyse zeigt mehrere Schlüsselfaktoren auf, die zum Erfolg des Angriffs beitragen, und wir diskutieren auch die Auswirkungen auf Verteidigungsstrategien. Projektseite: https://chenwu.io/attack-agent Code und Daten: https://github.com/ChenWu98/agent-attack
In diesem Paper weisen wir darauf hin, dass eine suboptimale Rauschdaten-Zuordnung zu einem langsamen Training von Diffusionsmodellen führt. Während des Diffusionstrainings verbreiten aktuelle Methoden jedes Bild über den gesamten Rauschraum, was zu einer Mischung aller Bilder an jedem Punkt in der Rauschschicht führt. Wir betonen, dass diese zufällige Mischung von Rauschdaten-Zuordnungen die Optimierung der Entrauschungsfunktion in Diffusionsmodellen erschwert. Inspiriert von dem unvermischbaren Phänomen in der Physik schlagen wir die Immiscible Diffusion vor, eine einfache und effektive Methode, um die zufällige Mischung von Rauschdaten-Zuordnungen zu verbessern. In der Physik kann die Mischbarkeit je nach verschiedenen intermolekularen Kräften variieren. Somit bedeutet Unvermischbarkeit, dass die Vermischung der molekularen Quellen unterscheidbar ist. Inspiriert davon schlagen wir eine Zuweisungs-und-Diffusion-Trainingsstrategie vor. Spezifisch weisen wir vor der Diffusion der Bilddaten in den Rausch den Bilddaten das Zielrauschen zu, indem wir die Gesamtdistanz der Bild-Rausch-Paare in einem Mini-Batch minimieren. Die Zuweisungsfunktionen wirken analog zu externen Kräften, um die diffundierbaren Bereiche der Bilder zu trennen und somit die inhärenten Schwierigkeiten im Diffusionstraining zu mildern. Unser Ansatz ist bemerkenswert einfach und erfordert nur eine Codezeile, um den diffundierbaren Bereich für jedes Bild zu begrenzen, während die Gaußsche Verteilung des Rauschens erhalten bleibt. Dies stellt sicher, dass jedes Bild nur in die nahegelegenen Rauschbereiche projiziert wird. Um die hohe Komplexität des Zuweisungsalgorithmus zu bewältigen, verwenden wir eine quantisierte Zuweisungsmethode, um den Rechenaufwand auf ein vernachlässigbares Niveau zu reduzieren. Experimente zeigen, dass unsere Methode eine bis zu 3-fach schnellere Schulung für Konsistenzmodelle und DDIM auf dem CIFAR-Datensatz erreicht und bis zu 1,3-fach schneller auf CelebA-Datensätzen für Konsistenzmodelle. Darüber hinaus führen wir eine gründliche Analyse zur Immiscible Diffusion durch, die aufzeigt, wie sie die Geschwindigkeit des Diffusionstrainings verbessert und gleichzeitig die Treue erhöht.
Große Modelle für die Generierung von Text-zu-Musik haben signifikante Fortschritte erzielt, indem sie die Erstellung hochwertiger und vielfältiger musikalischer Kompositionen aus bereitgestellten Textvorgaben erleichtern. Allerdings können Eingabetextvorgaben die Benutzeranforderungen möglicherweise nicht präzise erfassen, insbesondere wenn das Ziel darin besteht, Musik zu generieren, die ein bestimmtes Konzept verkörpert, das aus einer festgelegten Referenzsammlung abgeleitet wurde. In diesem Papier schlagen wir eine neuartige Methode für die maßgeschneiderte Generierung von Text-zu-Musik vor, die das Konzept aus einer zweiminütigen Referenzmusik erfassen und ein neues Musikstück entsprechend dem Konzept generieren kann. Dies erreichen wir, indem wir ein vortrainiertes Text-zu-Musik-Modell mithilfe der Referenzmusik feinabstimmen. Direktes Feintuning aller Parameter führt jedoch zu Overfitting-Problemen. Um dieses Problem zu lösen, schlagen wir eine Methode zur Feinabstimmung von Schlüsselparametern vor, die es dem Modell ermöglicht, das neue Konzept zu assimilieren, während es seine ursprünglichen generativen Fähigkeiten bewahrt. Darüber hinaus identifizieren wir einen potenziellen Konflikt von Konzepten bei der Einführung mehrerer Konzepte in das vortrainierte Modell. Wir präsentieren eine Strategie zur Konzeptverbesserung, um mehrere Konzepte zu unterscheiden, sodass das feinabgestimmte Modell Musik generieren kann, die entweder einzelne oder mehrere Konzepte gleichzeitig einbezieht. Da wir die ersten sind, die an der Aufgabe der maßgeschneiderten Musikgenerierung arbeiten, stellen wir auch einen neuen Datensatz und ein Bewertungsprotokoll für die neue Aufgabe vor. Unser vorgeschlagener Jen1-DreamStyler übertrifft mehrere Basislinien sowohl in qualitativen als auch quantitativen Bewertungen. Demos sind verfügbar unter https://www.jenmusic.ai/research#DreamStyler.
Die Superausrichtung, bei der Menschen schwache Aufsichtspersonen von übermenschlichen Modellen sind, ist zu einem wichtigen und weit verbreiteten Thema in der aktuellen Ära der schnellen Entwicklung von großen Sprachmodellen (LLMs) geworden. Die jüngste Arbeit untersucht dieses Problem vorläufig, indem schwache Modelle starke Modelle überwachen. Es wurde festgestellt, dass schwach überwachte starke Schüler konsequent schwache Lehrer in Richtung des Ausrichtungsziels übertreffen können, was zu einem Phänomen der schwach-zu-starken Verallgemeinerung führt. Wir sind jedoch besorgt, ob hinter einem so vielversprechenden Phänomen ein Problem der schwach-zu-starken Täuschung besteht, bei der starke Modelle schwache Modelle täuschen können, indem sie in Bereichen, die schwache Modelle kennen, gut ausgerichtet erscheinen lassen, aber in Fällen, in denen schwache Modelle keine Kenntnisse haben, fehlgeleitetes Verhalten produzieren. Wir unternehmen dann einen ersten Schritt zur Erkundung dieses Sicherheitsproblems in einem spezifischen, aber realistischen Mehrziel-Ausrichtungsfall, bei dem möglicherweise einige Ausrichtungsziele miteinander in Konflikt stehen (z. B. Hilfreichkeit vs. Harmlosigkeit). Ein solcher Konflikt kann dazu führen, dass starke Modelle schwache Modelle in einer Ausrichtungsdimension täuschen, um in einer anderen Ausrichtungsdimension hohe Belohnungen zu erzielen. Unsere Experimente sowohl in der Belohnungsmodellierungsaufgabe als auch im Szenario der Präferenzoptimierung zeigen: (1) die Existenz der schwach-zu-starken Täuschung; (2) das Täuschungsphänomen kann sich verstärken, wenn die Fähigkeitslücke zwischen schwachen und starken Modellen zunimmt. Wir diskutieren auch potenzielle Lösungen und stellen fest, dass die Verwendung eines Zwischenmodells im Bootstrapping das Täuschungsphänomen in gewissem Maße mildern kann. Unsere Arbeit hebt die dringende Notwendigkeit hervor, mehr Aufmerksamkeit auf die wahre Zuverlässigkeit der Superausrichtung zu richten.
In diesem Paper stellen wir eine von Unterräumen inspirierte Methode zur Anpassung von niedriger Rangordnung (Low-Rank Adaptation, LoRA) vor, die rechnerisch effizient, einfach umzusetzen und leicht auf große Sprach-, multimodale und Diffusionsmodelle anwendbar ist. Zunächst zerlegen wir die Gewichte von LoRA äquivalent in zwei Unterräume und stellen fest, dass eine einfache Vermischung von ihnen die Leistung verbessern kann. Um ein solches Phänomen zu untersuchen, betrachten wir es durch eine fein abgestufte Unterraumlinse und zeigen, dass eine solche Modifikation äquivalent dazu ist, einen festen Mischer zur Verschmelzung der Unterräume zu verwenden. Um flexibler zu sein, lernen wir den Mischer gemeinsam mit den ursprünglichen LoRA-Gewichten und bezeichnen die Methode als Mixture-of-Subspaces LoRA (MoSLoRA). MoSLoRA übertrifft konsequent LoRA in Aufgaben in verschiedenen Modalitäten, einschließlich Common-Sense-Argumentation, visueller Anleitungseinstellung und subjektgesteuerter Text-zu-Bild-Erzeugung, was seine Wirksamkeit und Robustheit zeigt. Der Code ist verfügbar unter https://github.com/wutaiqiang/MoSLoRA.