Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Können große Sprachmodelle (LLMs) direkt als leistungsstarke Weltmodelle für agentenbasierte Modelle dienen? Obwohl Unterschiede zwischen dem vorhandenen Wissen von LLMs und der Dynamik der spezifizierten Umgebung bestehen, zeigt unsere Studie, dass diese Unterschiede durch die Ausrichtung eines LLM auf seine implementierte Umgebung überbrückt werden können. Eine solche "Weltausrichtung" kann effizient durch das Erlernen von Regeln auf LLMs erreicht werden. Angesichts des umfangreichen vorhandenen Wissens von LLMs genügen nur wenige zusätzliche Regeln, um die Vorhersagen des LLM mit der Dynamik der spezifizierten Umgebung in Einklang zu bringen. Zu diesem Zweck schlagen wir einen neurosymbolischen Ansatz vor, um diese Regeln gradientenfrei durch LLMs zu erlernen, indem Regeln auf der Grundlage von Vergleichen von Agenten-erkundeten Trajektorien und Weltmodellvorhersagen induziert, aktualisiert und beschnitten werden. Das resultierende Weltmodell besteht aus dem LLM und den erlernten Regeln. Unser verkörperter LLM-Agent "WALL-E" basiert auf modellprädiktiver Regelung (MPC). Durch Optimierung von vorausschauenden Aktionen auf der Grundlage des präzisen Weltmodells verbessert MPC die Erkundung und Lerneffizienz erheblich. Im Vergleich zu bestehenden LLM-Agenten erfordert das Denken von WALL-E nur wenige grundlegende Regeln anstelle von ausführlichen gepufferten Trajektorien, die in die LLM-Eingabe einbezogen werden. Bei offenen Herausforderungen in Minecraft und ALFWorld erzielt WALL-E höhere Erfolgsraten als bestehende Methoden, bei geringeren Kosten für die Neuplanungszeit und die Anzahl der für das Denken verwendeten Token. In Minecraft übertrifft WALL-E die Baselines um 15-30% in der Erfolgsrate und benötigt 8-20 weniger Neuplanungsrunden sowie nur 60-80% der Tokens. In ALFWorld steigt seine Erfolgsrate nach nur 6 Iterationen auf einen neuen Rekordwert von 95%.
Code hat sich als wirksam erwiesen, um die mathematischen Denkfähigkeiten großer Sprachmodelle aufgrund seiner Präzision und Genauigkeit zu verbessern. Frühere Arbeiten zur fortgesetzten mathematischen Vortrainierung beinhalten oft Code, der mathematische Pakete verwendet, die hauptsächlich für Bereiche wie Ingenieurwesen, maschinelles Lernen, Signalverarbeitung oder Modultests entwickelt wurden, anstatt direkt auf mathematisches Denken ausgerichtet zu sein. In diesem Paper stellen wir eine neuartige Methode zur Generierung von mathematischem Code vor, begleitet von entsprechenden Denkschritten für die fortgesetzte Vortrainierung. Unser Ansatz beginnt mit der Erstellung eines hochwertigen mathematischen Vortrainierungsdatensatzes, indem wir mathematische Webdaten, Code unter Verwendung mathematischer Pakete, Mathematiklehrbücher und synthetische Daten integrieren. Anschließend erstellen wir Denkschritte, indem wir LaTeX-Ausdrücke, die für die Ausdrücke benötigten Bedingungen und die Ergebnisse der Ausdrücke aus dem zuvor gesammelten Datensatz extrahieren. Basierend auf diesen extrahierten Informationen generieren wir entsprechenden Code, um den mathematischen Denkprozess genau zu erfassen. Durch das Anhängen des generierten Codes an jeden Denkschritt entsteht ein Datensatz, der aus gepaarten natürlichsprachlichen Denkschritten und ihrem entsprechenden Code besteht. Die Kombination dieser Daten mit dem Originaldatensatz ergibt ein 19,2-Milliarden-Token leistungsstarkes mathematisches Vortrainierungskorpus, das wir MathCode-Pile nennen. Das Training mehrerer beliebter Basismodelle mit diesem Korpus verbessert signifikant ihre mathematischen Fähigkeiten und führt zur Schaffung der Modellfamilie MathCoder2. Alle unsere Datenverarbeitungs- und Trainingscodes sind Open Source, was die vollständige Transparenz und einfache Reproduzierbarkeit des gesamten Datensammlungs- und Trainingsprozesses gewährleistet. Der Code ist unter https://github.com/mathllm/MathCoder2 verfügbar.
MLLM-Agenten zeigen Potenzial für komplexe verkörperte Aufgaben, indem sie multimodale, aufgabenrelevante Trajektoriendaten abrufen. Allerdings konzentrieren sich aktuelle Abrufmethoden hauptsächlich auf oberflächliche Ähnlichkeiten von textuellen oder visuellen Hinweisen in Trajektorien und vernachlässigen deren Effektivität für die spezifische Aufgabe. Um dieses Problem anzugehen, schlagen wir eine neuartige Methode vor, MLLM als ReTriever (MART), die die Leistung von verkörperten Agenten verbessert, indem sie Interaktionsdaten nutzt, um einen MLLM-Abruf anhand von Präferenzlernen feinzustimmen. Dadurch berücksichtigt der Abruf die Effektivität von Trajektorien vollständig und priorisiert sie für unbekannte Aufgaben. Wir führen auch Trajektorienabstraktion ein, einen Mechanismus, der die Zusammenfassungsfähigkeiten von MLLMs nutzt, um Trajektorien mit weniger Tokens darzustellen, während wichtige Informationen erhalten bleiben, was Agenten ermöglicht, Meilensteine in der Trajektorie besser zu verstehen. Experimentelle Ergebnisse in verschiedenen Umgebungen zeigen, dass unsere Methode die Erfolgsraten bei Aufgaben in unbekannten Szenen im Vergleich zu Basislinienmethoden signifikant verbessert. Diese Arbeit präsentiert ein neues Paradigma für multimodalen Abruf bei verkörperten Agenten, indem ein allgemeiner MLLM als Abruf feinabgestimmt wird, um die Effektivität von Trajektorien zu bewerten. Alle Benchmark-Aufgabensets und Simulatorcode-Modifikationen für Aktions- und Beobachtungsräume werden veröffentlicht.
Die Quantisierung ist entscheidend für die Bereitstellung großer Sprachmodelle (LLMs), da sie die Speichereffizienz und die Inferenzgeschwindigkeit verbessert. Bestehende Methoden zur Aktivierungsquantisierung befassen sich hauptsächlich mit kanalweisen Ausreißern, vernachlässigen jedoch oft tokenweise Ausreißer, was zu einer Abhängigkeit von kostspieliger dynamischer Quantisierung pro Token führt. Um dies zu lösen, stellen wir PrefixQuant vor, eine neuartige Technik, die Ausreißer-Token offline isoliert, ohne eine erneute Schulung durchzuführen. Konkret identifiziert PrefixQuant hochfrequente Ausreißer-Token und präfixt sie im KV-Cache, um die Generierung von Ausreißer-Token während der Inferenz zu verhindern und die Quantisierung zu vereinfachen. Nach unserem Kenntnisstand ist PrefixQuant das erste Verfahren, das eine effiziente statische Quantisierung pro Tensor ermöglicht, um die teure dynamische Quantisierung pro Token zu übertreffen. Zum Beispiel erreicht PrefixQuant mit statischer Quantisierung pro Tensor in W4A4KV4 (4-Bit-Gewicht, 4-Bit-Aktivierung und 4-Bit-KV-Cache) Llama-3-8B eine WikiText2-Perplexität von 7,43 und eine durchschnittliche Genauigkeit von 71,08% bei 5 Aufgaben zur gesunden Menschenverstandsbildung, wodurch bisherige Methoden mit dynamischer Quantisierung pro Token wie QuaRot um 0,98 Perplexitätsverbesserung und +5,98 Punkte Genauigkeit übertroffen werden. Darüber hinaus ist die Inferenzgeschwindigkeit von W4A4-quantisierten Modellen mit PrefixQuant 1,60x bis 2,81x schneller als FP16-Modelle und übertrifft QuaRot-Modelle um das 1,2- bis 1,3-fache. Unser Code ist verfügbar unter https://github.com/ChenMnZ/PrefixQuant.
Große Sprachmodelle (LLMs) haben mit ihrer außergewöhnlichen Fähigkeit, eine Vielzahl von Aufgaben zu bewältigen, signifikante Fortschritte bei der Bewältigung von Denk- und Planungsaufgaben vorangetrieben, bei denen die Zerlegung komplexer Probleme in ausführbare Workflows ein entscheidender Schritt in diesem Prozess ist. Bestehende Workflow-Bewertungsrahmen konzentrieren sich entweder ausschließlich auf ganzheitliche Leistung oder leiden unter Einschränkungen wie begrenzter Szenarioabdeckung, simplen Workflow-Strukturen und laxen Bewertungsstandards. Zu diesem Zweck stellen wir WorFBench vor, einen vereinheitlichten Workflow-Generierungsbenchmark mit vielschichtigen Szenarien und komplexen Graph-Workflow-Strukturen. Darüber hinaus präsentieren wir WorFEval, ein systematisches Bewertungsprotokoll, das Subsequenz- und Subgraphen-Matching-Algorithmen verwendet, um die Workflow-Generierungsfähigkeiten des LLM-Agenten genau zu quantifizieren. Durch umfassende Bewertungen verschiedener Arten von LLMs entdecken wir deutliche Unterschiede zwischen den Sequenzplanungsfähigkeiten und den Graphplanungsfähigkeiten von LLM-Agenten, wobei selbst GPT-4 eine Lücke von etwa 15% aufweist. Wir trainieren auch zwei Open-Source-Modelle und bewerten ihre Verallgemeinerungsfähigkeiten bei zurückgehaltenen Aufgaben. Darüber hinaus beobachten wir, dass die generierten Workflows die nachgelagerten Aufgaben verbessern können, indem sie ihnen ermöglichen, eine überlegene Leistung mit weniger Zeit während der Inferenz zu erzielen. Der Code und der Datensatz sind verfügbar unter https://github.com/zjunlp/WorFBench.
Wir präsentieren Agent S, ein offenes agentisches Framework, das autonome Interaktion mit Computern durch eine grafische Benutzeroberfläche (GUI) ermöglicht und darauf abzielt, die Mensch-Computer-Interaktion zu transformieren, indem komplexe, mehrstufige Aufgaben automatisiert werden. Agent S zielt darauf ab, drei Schlüsselherausforderungen bei der Automatisierung von Computeraufgaben zu bewältigen: das Erlangen domänenspezifischen Wissens, die Planung über lange Aufgabenhorizonte und den Umgang mit dynamischen, nicht einheitlichen Schnittstellen. Zu diesem Zweck führt Agent S erfahrungsverstärkte hierarchische Planung ein, die durch externe Wissenssuche und interne Erfahrungsabfrage auf mehreren Ebenen lernt und effiziente Aufgabenplanung und Teilausführung ermöglicht. Darüber hinaus verwendet es eine Agent-Computer-Schnittstelle (ACI), um die Denk- und Steuerungsfähigkeiten von GUI-Agenten auf der Grundlage von Multimodalen Großen Sprachmodellen (MLLMs) besser zu erfassen. Die Auswertung am OSWorld-Benchmark zeigt, dass Agent S die Basislinie um 9,37% in der Erfolgsrate übertrifft (eine relative Verbesserung von 83,6%) und einen neuen Stand der Technik erreicht. Eine umfassende Analyse hebt die Wirksamkeit der einzelnen Komponenten hervor und liefert Erkenntnisse für zukünftige Verbesserungen. Darüber hinaus zeigt Agent S eine breite Generalisierbarkeit auf verschiedene Betriebssysteme am neu veröffentlichten WindowsAgentArena-Benchmark. Der Code ist verfügbar unter https://github.com/simular-ai/Agent-S.
Diffusionsmodelle sind zum dominanten Ansatz für die visuelle Generierung geworden. Sie werden trainiert, indem ein Markovscher Prozess zur Rauschunterdrückung verwendet wird, der allmählich Rauschen zum Eingang hinzufügt. Wir argumentieren, dass die Markovsche Eigenschaft die Fähigkeit der Modelle einschränkt, die Generierungsbahn vollständig zu nutzen, was zu Ineffizienzen während des Trainings und der Inferenz führt. In diesem Paper schlagen wir DART vor, ein auf Transformer basierendes Modell, das autoregressives (AR) und Diffusion innerhalb eines nicht-markovschen Rahmens vereint. DART unterdrückt iterativ Bildausschnitte räumlich und spektral unter Verwendung eines AR-Modells mit derselben Architektur wie Standard-Sprachmodelle. DART ist nicht auf Bildquantisierung angewiesen, was eine effektivere Bildmodellierung ermöglicht, während die Flexibilität erhalten bleibt. Darüber hinaus kann DART nahtlos mit Text- und Bilddaten in einem vereinheitlichten Modell trainiert werden. Unser Ansatz zeigt eine wettbewerbsfähige Leistung bei klassenbedingten und Text-zu-Bild-Generierungsaufgaben und bietet eine skalierbare, effiziente Alternative zu traditionellen Diffusionsmodellen. Durch diesen vereinheitlichten Rahmen setzt DART einen neuen Maßstab für skalierbare, hochwertige Bildsynthese.
Diskrete Diffusionsmodelle haben Erfolg bei Aufgaben wie der Bildgenerierung und dem maskierten Sprachmodellieren erzielt, stoßen jedoch an Grenzen bei der kontrollierten Inhaltsbearbeitung. Wir stellen DICE (Discrete Inversion for Controllable Editing) vor, den ersten Ansatz zur präzisen Inversion für diskrete Diffusionsmodelle, einschließlich multinomialer Diffusion und maskierter generativer Modelle. Durch Aufzeichnung von Rauschsequenzen und Maskierungsmustern während des umgekehrten Diffusionsprozesses ermöglicht DICE eine genaue Rekonstruktion und flexible Bearbeitung diskreter Daten ohne vordefinierte Masken oder Aufmerksamkeitsmanipulation. Wir zeigen die Wirksamkeit von DICE in Bild- und Textdomänen und evaluieren es an Modellen wie VQ-Diffusion, Paella und RoBERTa. Unsere Ergebnisse zeigen, dass DICE eine hohe Datenfidelität bewahrt und die Bearbeitungsfähigkeiten verbessert, wodurch neue Möglichkeiten für feinkörnige Inhaltsmanipulation in diskreten Räumen geboten werden. Für die Projektwebseite siehe https://hexiaoxiao-cs.github.io/DICE/.
Diffusionsmodelle haben die visuelle Generierung erheblich verbessert, werden jedoch durch die langsame Generierungsgeschwindigkeit aufgrund der rechenaufwändigen Natur der Lösung generativer ODEs behindert. Die geradlinige Strömung, eine weit verbreitete Lösung, verbessert die Generierungsgeschwindigkeit, indem der ODE-Pfad geglättet wird. Zu den Schlüsselkomponenten gehören: 1) die Verwendung der Diffusionsform der Flussanpassung, 2) die Verwendung von fettgedruckter v-Vorhersage und 3) die Durchführung der Rektifizierung (auch als Rückfluss bezeichnet). In diesem Papier argumentieren wir, dass der Erfolg der Rektifizierung hauptsächlich darin besteht, ein vorab trainiertes Diffusionsmodell zu verwenden, um passende Paare von Rauschen und Mustern zu erhalten, gefolgt von einem erneuten Training mit diesen passenden Rausch-Muster-Paaren. Basierend darauf sind die Komponenten 1) und 2) unnötig. Darüber hinaus heben wir hervor, dass Geradlinigkeit kein wesentliches Trainingsziel für die Rektifizierung ist; vielmehr handelt es sich um einen spezifischen Fall von Flussanpassungsmodellen. Das wichtigere Trainingsziel ist es, einen ODE-Pfad erster Ordnung anzunähern, der für Modelle wie DDPM und Sub-VP von Natur aus gekrümmt ist. Aufbauend auf dieser Erkenntnis schlagen wir die Rektifizierte Diffusion vor, die den Designraum und den Anwendungsbereich der Rektifizierung verallgemeinert, um die breitere Kategorie der Diffusionsmodelle zu umfassen, anstatt auf Flussanpassungsmodelle beschränkt zu sein. Wir validieren unsere Methode anhand von Stable Diffusion v1-5 und Stable Diffusion XL. Unsere Methode vereinfacht nicht nur erheblich das Schulungsverfahren früherer Arbeiten auf der Grundlage von geradliniger Strömung (z. B. InstaFlow), sondern erzielt auch eine überlegene Leistung bei noch niedrigeren Schulungskosten. Unser Code ist verfügbar unter https://github.com/G-U-N/Rectified-Diffusion.
Aktuelle Modelle für die Verbreitung von Videos an der Grenze der Technologie haben bemerkenswerte Ergebnisse bei der Erzeugung hochwertiger Videos gezeigt. Sie können jedoch nur kurze Videoclips generieren, normalerweise etwa 10 Sekunden oder 240 Frames, aufgrund von Rechenbeschränkungen während des Trainings. In dieser Arbeit zeigen wir, dass bestehende Modelle natürlicherweise zu autoregressiven Videoverbreitungsmodellen erweitert werden können, ohne die Architekturen zu ändern. Unsere Schlüsselidee besteht darin, den latenten Frames allmählich zunehmende Rauschniveaus zuzuweisen, anstatt ein einzelnes Rauschniveau, was eine feinkörnige Bedingung zwischen den Latenten und große Überlappungen zwischen den Aufmerksamkeitsfenstern ermöglicht. Eine solche progressive Videobildentrauschung ermöglicht es unseren Modellen, Video-Frames autoregressiv zu generieren, ohne Qualitätsverschlechterung oder abrupte Szenenwechsel. Wir präsentieren Spitzenresultate bei der Erzeugung langer Videos von 1 Minute (1440 Frames mit 24 FPS). Videos aus diesem Paper sind verfügbar unter https://desaixie.github.io/pa-vdm/.
In dieser Arbeit schlagen wir eine neuartige Methode (GLOV) vor, die es Large Language Models (LLMs) ermöglicht, als implizite Optimierer für Vision-Language Models (VLMs) zu fungieren, um nachgelagerte Visionstasks zu verbessern. Unser GLOV meta-promptet ein LLM mit der Beschreibung der nachgelagerten Aufgabe und fragt es nach geeigneten VLM-Prompts (z. B. für Zero-Shot-Klassifikation mit CLIP). Diese Prompts werden gemäß eines Reinheitsmaßes, das durch eine Fitnessfunktion erhalten wird, eingestuft. In jedem entsprechenden Optimierungsschritt werden die eingestuften Prompts als In-Context-Beispiele (mit ihren Genauigkeiten) zugeführt, um das LLM mit dem Wissen über den Typ von Textprompts auszustatten, die vom nachgelagerten VLM bevorzugt werden. Darüber hinaus lenken wir auch explizit den Generierungsprozess des LLM in jedem Optimierungsschritt, indem wir speziell einen Offset-Differenzvektor der Einbettungen der positiven und negativen Lösungen, die vom LLM in vorherigen Optimierungsschritten gefunden wurden, der Zwischenschicht des Netzwerks für den nächsten Generierungsschritt hinzufügen. Dieser Offset-Vektor lenkt die Generierung des LLM in Richtung der vom nachgelagerten VLM bevorzugten Sprache und führt zu einer verbesserten Leistung bei den nachgelagerten Visionstasks. Wir evaluieren unser GLOV umfassend an 16 verschiedenen Datensätzen unter Verwendung von zwei Familien von VLMs, nämlich Dual-Encoder-Modellen (z. B. CLIP) und Encoder-Decoder-Modellen (z. B. LLaVa) - und zeigen, dass die entdeckten Lösungen die Erkennungsleistung um bis zu 15,0 % bzw. 57,5 % (im Durchschnitt um 3,8 % bzw. 21,6 %) für diese Modelle verbessern können.
In letzter Zeit haben große Sprach- und Bildmodelle (LLVMs) aufgrund ihrer bemerkenswerten Verallgemeinerungsleistung über eine Vielzahl von Aufgaben, die Wahrnehmung und kognitive Fähigkeiten erfordern, erhebliche Aufmerksamkeit und Entwicklungsanstrengungen erhalten. Ein Schlüsselfaktor hinter ihrem Erfolg ist ihre einfache Architektur, die aus einem Bildencoder, einem Projektor und einem großen Sprachmodell (LLM) besteht. Trotz ihrer Leistungen bei fortgeschrittenen Denkaufgaben bleibt ihre Leistung bei grundlegenden wahrnehmungsbezogenen Aufgaben (z.B. MMVP) überraschend niedrig. Diese Diskrepanz wirft die Frage auf, wie LLVMs Bilder tatsächlich wahrnehmen und die Vorteile des Bildencoders nutzen. Um dies zu klären, untersuchen wir systematisch diese Frage in Bezug auf mehrere Aspekte: Permutationsinvarianz, Robustheit, mathematisches Denken, Erhaltung und Bedeutung der Ausrichtung, indem wir die häufigsten LLVM-Familien (d.h. LLaVA) über 10 Evaluierungsbenchmarks bewerten. Unsere umfangreichen Experimente enthüllen mehrere faszinierende Eigenschaften aktueller LLVMs: (1) Sie verarbeiten das Bild intern global, auch wenn die Reihenfolge der visuellen Patch-Sequenzen zufällig vertauscht wird; (2) Sie sind manchmal in der Lage, mathematische Probleme zu lösen, ohne detaillierte numerische Informationen vollständig wahrzunehmen; (3) Die kreuzmodale Ausrichtung ist an komplexe Denkaufgaben überangepasst, wodurch sie einige der ursprünglichen Wahrnehmungsfähigkeiten ihres Bildencoders verlieren; (4) Der Darstellungsraum in den unteren Schichten (<25%) spielt eine entscheidende Rolle bei der Bestimmung der Leistung und der Verbesserung des visuellen Verständnisses. Abschließend schlagen wir basierend auf den oben genannten Beobachtungen potenzielle zukünftige Richtungen für den Aufbau besserer LLVMs und die Konstruktion anspruchsvollerer Evaluierungsbenchmarks vor.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten zum Lernen im Kontext (ICL) gezeigt. In dieser Studie untersuchen wir ein überraschendes Phänomen im Zusammenhang mit ICL: LLMs können mehrere, rechnerisch unterschiedliche ICL-Aufgaben gleichzeitig während eines einzigen Inferenzaufrufs ausführen, eine Fähigkeit, die wir als "Aufgaben-Superposition" bezeichnen. Wir liefern empirische Beweise für dieses Phänomen über verschiedene LLM-Familien und Skalen hinweg und zeigen, dass dieses Phänomen auch dann auftritt, wenn wir das Modell darauf trainieren, jeweils eine Aufgabe im Kontext zu erlernen. Wir bieten theoretische Erklärungen dafür, dass diese Fähigkeit im Rahmen der Ausdrucksstärke von Transformatoren liegt. Wir untersuchen auch, wie LLMs während der Superposition intern Aufgabenvektoren komponieren. Darüber hinaus zeigen wir, dass größere Modelle mehr ICL-Aufgaben parallel lösen können und ihre Ausgabeverteilung besser kalibrieren können. Unsere Ergebnisse bieten Einblicke in die latenten Fähigkeiten von LLMs, untermauern weiterhin die Perspektive der "LLMs als Superposition von Simulatoren" und werfen Fragen zu den Mechanismen auf, die eine gleichzeitige Aufgabenausführung ermöglichen.
In diesem Paper schlagen wir eine neue Methode vor, um die zusammensetzende Verständnisfähigkeit in vorab trainierten Modellen für Bild und Sprache (VLMs) zu verbessern, ohne die Leistung bei Zero-Shot Multi-Modal-Aufgaben zu beeinträchtigen. Traditionelle Feinabstimmungsansätze verbessern oft das zusammensetzende Denken auf Kosten der Verschlechterung der Multi-Modal-Fähigkeiten, hauptsächlich aufgrund der Verwendung von globalen harten negativen (HN) Verlusten, die globale Repräsentationen von Bildern und Texten gegenüberstellen. Dieser globale HN-Verlust drängt HN-Texte, die dem Original sehr ähnlich sind, und schädigt die Multi-Modal-Repräsentationen des Modells. Um diese Einschränkung zu überwinden, schlagen wir Feinabgestimmtes Selektives Kalibriertes CLIP (FSC-CLIP) vor, das lokale harte negative Verluste und selektive kalibrierte Regularisierung integriert. Diese Innovationen bieten fein abgestimmte negative Überwachung und bewahren gleichzeitig die Repräsentationsintegrität des Modells. Unsere umfangreichen Bewertungen über verschiedene Benchmarks sowohl für Zusammensetzbarkeit als auch für Multi-Modal-Aufgaben zeigen, dass FSC-CLIP nicht nur Zusammensetzbarkeit auf Augenhöhe mit modernsten Modellen erreicht, sondern auch starke Multi-Modal-Fähigkeiten beibehält. Der Code ist verfügbar unter: https://github.com/ytaek-oh/fsc-clip.
Monte Carlo Tree Search (MCTS) hat sich kürzlich als leistungsstarke Technik zur Verbesserung der Argumentationsfähigkeiten von LLMs herauskristallisiert. Techniken wie SFT oder DPO haben es LLMs ermöglicht, hochwertige Verhaltensweisen aus MCTS zu destillieren, was ihre Argumentationsleistung verbessert hat. Allerdings nutzen bestehende Destillationsmethoden die umfangreichen Trajektorieinformationen, die von MCTS generiert werden, nicht ausreichend, was das Potenzial für Verbesserungen in der Argumentationsfähigkeit von LLMs einschränkt. In diesem Paper schlagen wir AlphaLLM-CPL vor, ein neuartiges paarweises Schulungsframework, das es LLMs ermöglicht, sich durch die Destillation von MCTS-Verhalten selbst zu verbessern. AlphaLLM-CPL nutzt MCTS-Trajektorien effizient über zwei Schlüsselinnovationen: (1) AlphaLLM-CPL erstellt schrittweise Trajektorienpaare von Kindknoten, die denselben Elternknoten im Suchbaum teilen, um schrittweise Informationen für eine effektivere Destillation des MCTS-Verhaltens bereitzustellen. (2) AlphaLLM-CPL führt Curriculum-Präferenzlernen ein, das die Schulungsreihenfolge von Trajektorienpaaren in jedem Offline-Schulungsepochen dynamisch anpasst, um kritische Lernschritte zu priorisieren und Überanpassung zu reduzieren. Experimentelle Ergebnisse zu mathematischen Argumentationsaufgaben zeigen, dass AlphaLLM-CPL signifikant besser abschneidet als bisherige MCTS-Verhaltensdestillationsmethoden und die Argumentationsfähigkeiten von LLMs erheblich steigert.
Große Sprachmodell (LLM)-basierte Multi-Agenten-Systeme (MAS) zeigen bemerkenswertes Potenzial bei der kollaborativen Problemlösung, stehen jedoch immer noch vor kritischen Herausforderungen: geringe Kommunikationseffizienz, schlechte Skalierbarkeit und ein Mangel an effektiven Optimierungsmethoden für die Parameteraktualisierung. Wir stellen Optima vor, ein neuartiges Framework, das diese Probleme durch eine signifikante Verbesserung sowohl der Kommunikationseffizienz als auch der Aufgabeneffektivität in LLM-basierten MAS durch LLM-Training angeht. Optima verwendet ein iteratives Generieren, Rangieren, Auswählen und Trainieren-Paradigma mit einer Belohnungsfunktion, die die Aufgabenausführung, Token-Effizienz und Kommunikationslesbarkeit ausbalanciert. Wir untersuchen verschiedene RL-Algorithmen, einschließlich Überwachtes Feintuning, Direkte Präferenzoptimierung und deren hybride Ansätze, um Einblicke in ihre Effektivitäts-Effizienz-Abwägungen zu geben. Wir integrieren Monte Carlo Tree Search-inspirierte Techniken für die DPO-Datengenerierung, behandeln Gesprächswendungen als Baumknoten, um verschiedene Interaktionspfade zu erkunden. Anhand gängiger Multi-Agenten-Aufgaben, einschließlich informationsasymmetrischer Fragebeantwortung und komplexer Schlussfolgerungen, zeigt Optima konsistente und signifikante Verbesserungen gegenüber Einzelagenten-Baselines und Vanilla-MAS basierend auf Llama 3 8B, mit einer Leistungssteigerung um bis zu 2,8-fach bei weniger als 10\% der Tokens bei Aufgaben, die einen intensiven Informationsaustausch erfordern. Darüber hinaus eröffnen die Effizienzgewinne von Optima neue Möglichkeiten, um Inferenz-Berechnungen effektiver zu nutzen, was zu verbesserten Skalierungsgesetzen für die Inferenzzeit führt. Indem Optima grundlegende Herausforderungen in LLM-basierten MAS angeht, zeigt es das Potenzial für skalierbare, effiziente und effektive MAS (https://chenweize1998.github.io/optima-project-page).
Dieses Paper schlägt das Paradigma großer Faltungskerne bei der Gestaltung moderner Faltungsneuronaler Netzwerke (ConvNets) vor. Wir zeigen, dass die Verwendung weniger großer Kerne anstelle des Stapelns mehrerer kleiner Kerne eine überlegene Designstrategie sein kann. Unsere Arbeit stellt eine Reihe von Architektur-Designrichtlinien für ConvNets mit großen Kernen vor, die deren Effizienz und Leistung optimieren. Wir schlagen die Architektur UniRepLKNet vor, die systematische Architekturdesignprinzipien speziell für ConvNets mit großen Kernen bietet und ihre einzigartige Fähigkeit betont, umfangreiche räumliche Informationen ohne tiefe Schichtstapelung zu erfassen. Dies führt zu einem Modell, das nicht nur seine Vorgänger mit einer ImageNet-Genauigkeit von 88,0%, einer ADE20K mIoU von 55,6% und einem COCO-Box-AP von 56,4% übertrifft, sondern auch eine beeindruckende Skalierbarkeit und Leistungsfähigkeit in verschiedenen Modalitäten wie Zeitreihenprognosen, Audio, Punktwolken und Videokennung zeigt. Diese Ergebnisse deuten auf die universellen Modellierungsfähigkeiten von ConvNets mit großen Kernen hin, die im Vergleich zu Vision-Transformern eine schnellere Inferenzgeschwindigkeit aufweisen. Unsere Ergebnisse zeigen, dass ConvNets mit großen Kernen größere effektive rezeptive Felder und eine höhere Formbias besitzen, die sich von der Texturbias kleinerer Kernel-CNNs entfernen. Alle Codes und Modelle sind öffentlich unter https://github.com/AILab-CVC/UniRepLKNet verfügbar, um weitere Forschung und Entwicklung in der Gemeinschaft zu fördern.
Automatische LLM-Benchmarks wie AlpacaEval 2.0, Arena-Hard-Auto und MT-Bench sind aufgrund ihrer Kosteneffizienz und Skalierbarkeit im Vergleich zur menschlichen Bewertung beliebt geworden. Hohe Gewinnraten bei diesen Benchmarks können die Werbewirkung neu veröffentlichter Sprachmodelle erheblich steigern. Dieser Werbeeffekt kann Tricks motivieren, wie die Manipulation der Ausgabelänge oder des Stils, um Gewinnraten zu beeinflussen, obwohl mehrere Mechanismen entwickelt wurden, um die Länge zu kontrollieren und den Stil zu entwirren, um die Manipulierbarkeit zu reduzieren. Dennoch zeigen wir, dass selbst ein "Nullmodell", das immer eine konstante Antwort ausgibt (unabhängig von den Eingabeanweisungen), automatische Benchmarks betrügen und Spitzen-Gewinnraten erzielen kann: eine Gewinnrate von 86,5 % bei AlpacaEval 2.0; eine Punktzahl von 83,0 bei Arena-Hard-Auto; und eine Punktzahl von 9,55 bei MT-Bench. Darüber hinaus sind die manipulierten betrügerischen Ausgaben übertragbar, da wir davon ausgehen, dass die Anweisungen dieser Benchmarks (z. B. 805 Beispiele von AlpacaEval 2.0) privat und nicht zugänglich sind. Obwohl unsere Experimente hauptsächlich als Machbarkeitsnachweis dienen, könnte ein Angreifer LLMs verwenden, um noch unauffälligere betrügerische Antworten zu generieren und sich unethisch von hohen Gewinnraten und Werbewirkung zu profitieren. Unsere Ergebnisse fordern die Entwicklung von Mechanismen gegen Betrug für zuverlässige automatische Benchmarks. Der Code ist verfügbar unter https://github.com/sail-sg/Cheating-LLM-Benchmarks.
Wir untersuchen die Leistung von Transformatoren in Abhängigkeit von der Anzahl der Wiederholungen von Trainingsbeispielen mit algorithmisch generierten Datensätzen. Anhand von drei mathematischen Problemen - dem größten gemeinsamen Teiler, der modularen Multiplikation und den Eigenwerten von Matrizen - zeigen wir, dass Modelle, die auf kleineren Sets wiederholter Beispiele trainiert wurden, bei einer festen Anzahl von Trainingsschritten besser abschneiden als Modelle, die auf größeren Sets von einmalig verwendeten Beispielen trainiert wurden. Wir zeigen auch, dass das Training mit zwei Sets - der wiederholten Verwendung eines kleinen zufälligen Teils von Beispielen zusammen mit der normalen Stichprobenahme aus dem Rest des Trainingssets - zu schnellerem Lernen und besserer Leistung führt. Dies verdeutlicht, dass die Vorteile der Wiederholung die der Datenvielfalt überwiegen können. Diese Datensätze und Probleme bieten eine kontrollierte Umgebung, um das noch immer schlecht verstandene Zusammenspiel von Verallgemeinerung und Memorierung im Deep Learning zu beleuchten.
Um gewünschtes Verhalten in großen Sprachmodellen (LLMs) für interaktionsgesteuerte Aufgaben zu induzieren, trainiert die Anweisungsabstimmungsphase in der Regel LLMs anhand von Anweisungs-Antwort-Paaren unter Verwendung des Verlusts der nächsten Token-Vorhersage (NTP). Frühere Arbeiten, die darauf abzielen, die Leistung der Anweisungsabstimmung zu verbessern, betonen oft die Notwendigkeit von qualitativ hochwertigen überwachten Feinabstimmungsdatensätzen, die in der Regel teure Datenauswahl mit proprietären LLMs oder arbeitsintensive Datenerzeugung durch menschliche Annotatoren beinhalten. Diese Ansätze nutzen jedoch nicht vollständig die intrinsischen Eigenschaften der Datensätze, was zu hohen Rechen- und Arbeitskosten führt und somit die Skalierbarkeit und Leistungssteigerungen einschränkt. In diesem Artikel schlagen wir SFTMix vor, ein neuartiges Rezept, das die Leistung der Anweisungsabstimmung über das herkömmliche NTP-Paradigma hinaus hebt, ohne auf sorgfältig kuratierte Datensätze angewiesen zu sein. Unter der Beobachtung, dass LLMs eine ungleichmäßige Zuversicht über den semantischen Repräsentationsraum zeigen, argumentieren wir, dass Beispiele mit unterschiedlichen Zuversichtsniveaus während des Anweisungsabstimmungsprozesses unterschiedliche Rollen spielen sollten. Basierend auf dieser Erkenntnis nutzt SFTMix Trainingsdynamiken, um Beispiele mit unterschiedlichen Zuversichtsniveaus zu identifizieren, wendet dann eine Mixup-basierte Regularisierung an, um Überanpassung an zuversichtliche Beispiele zu mildern, während gleichzeitig Überwachungssignale zur Verbesserung des Lernens bei relativ unzuversichtlichen Beispielen propagiert werden. Dieser Ansatz ermöglicht es SFTMix, NTP signifikant in einer Vielzahl von Anweisungsfolge- und gesundheitsspezifischen SFT-Aufgaben zu übertreffen, was seine Anpassungsfähigkeit an verschiedene LLM-Familien und die Skalierbarkeit auf Datensätze beliebiger Größe zeigt. Umfassende Ablationsstudien bestätigen weiterhin die Robustheit der Designentscheidungen von SFTMix und unterstreichen seine Vielseitigkeit bei der kontinuierlichen Verbesserung der Leistung verschiedener LLMs und Datensätze in breiteren Anwendungen der natürlichen Sprachverarbeitung.
Die Verstärkungslernmethode aus menschlichem Feedback (RLHF) hat sich als entscheidendes Werkzeug zur Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Präferenzen herausgestellt. Die Direkte Präferenzoptimierung (DPO), einer der beliebtesten Ansätze, formuliert RLHF als ein Problem der Richtlinienoptimierung, ohne die Belohnungsfunktion explizit zu schätzen. Sie überwindet die Stabilitäts- und Effizienzprobleme von Zwei-Schritt-Ansätzen, die typischerweise zunächst die Belohnungsfunktion schätzen und dann die Richtlinie über die Proximal Policy Optimization (PPO) optimieren. Da RLHF im Wesentlichen ein Optimierungsproblem darstellt und bekannt ist, dass Momentum-Techniken die Optimierung sowohl theoretisch als auch empirisch beschleunigen können, stellt sich eine natürliche Frage: Kann RLHF durch Momentum beschleunigt werden? Dieses Papier beantwortet diese Frage bejahend. Im Detail zeigen wir zunächst, dass die iterative Präferenzoptimierungsmethode als proximaler Punktansatz betrachtet werden kann. Basierend auf dieser Beobachtung schlagen wir ein allgemeines Beschleunigtes Präferenzoptimierungs (APO) Rahmenwerk vor, das viele bestehende Präferenzoptimierungsalgorithmen vereint und die Nesterov-Momentum-Technik einsetzt, um die Ausrichtung von LLMs zu beschleunigen. Theoretisch zeigen wir, dass APO eine schnellere Konvergenzrate als die standardmäßigen iterativen Präferenzoptimierungsmethoden erreichen kann, einschließlich DPO und Selbstspiel-Präferenzoptimierung (SPPO). Empirisch zeigen wir die Überlegenheit von APO gegenüber DPO, iterativem DPO und anderen starken Baselines für RLHF im AlpacaEval 2.0 Benchmark.
Die dynamische Szenenrekonstruktion ist eine langfristige Herausforderung im Bereich der 3D-Vision. In letzter Zeit hat das Aufkommen von 3D-Gauß-Splatting neue Einblicke in dieses Problem ermöglicht. Obwohl nachfolgende Bemühungen statisches 3D-Gauß schnell auf dynamische Szenen ausdehnen, fehlen ihnen oft explizite Einschränkungen bezüglich der Objektbewegung, was zu Optimierungsschwierigkeiten und Leistungsabfall führt. Um die oben genannten Probleme anzugehen, schlagen wir ein neuartiges deformierbares 3D-Gauß-Splatting-Framework namens MotionGS vor, das explizite Bewegungsprioritäten erforscht, um die Deformation von 3D-Gaußen zu lenken. Speziell führen wir zunächst ein optisches Flussentkopplungsmodul ein, das den optischen Fluss in Kamerafluss und Bewegungsfluss aufteilt, die der Kamerabewegung bzw. der Objektbewegung entsprechen. Dann kann der Bewegungsfluss die Deformation von 3D-Gaußen effektiv einschränken und somit die Bewegung dynamischer Objekte simulieren. Darüber hinaus wird ein Kamerapositionsverfeinerungsmodul vorgeschlagen, um abwechselnd 3D-Gaußen und Kamerapositionen zu optimieren und so den Einfluss ungenauer Kamerapositionen zu mildern. Umfangreiche Experimente in monokularen dynamischen Szenen bestätigen, dass MotionGS die Methoden auf dem neuesten Stand der Technik übertrifft und sowohl qualitative als auch quantitative Ergebnisse von erheblicher Überlegenheit aufweist. Projektseite: https://ruijiezhu94.github.io/MotionGS_page
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten zum kontextbezogenen Lernen (ICL) auf textuellen Daten gezeigt. Wir untersuchen, ob diese Fähigkeiten auf kontinuierliche Vektoren aus verschiedenen Domänen erweitert werden können, die von Black-Box-vortrainierten Encodern erhalten wurden. Durch die Ausrichtung der Eingabedaten mit dem Einbettungsraum eines LLMs mittels leichtgewichtiger Projektoren stellen wir fest, dass LLMs diese projizierten Vektoren effektiv verarbeiten und lernen können, was wir als Vektor-ICL bezeichnen. Insbesondere stellen wir fest, dass das Vortrainieren von Projektoren mit allgemeinen sprachmodellierenden Zielen Vektor-ICL ermöglicht, während eine aufgabenbezogene Feinabstimmung die Leistung weiter verbessert. In unseren Experimenten über verschiedene Aufgaben und Modalitäten, einschließlich Textrekonstruktion, numerischer Funktionsregression, Textklassifikation, Zusammenfassung, Molekülbeschriftung, Zeitreihenklassifikation, Graphenklassifikation und fMRI-Dekodierung, übertrifft Vektor-ICL oft sowohl ICL mit wenigen Daten als auch domänenspezifische Modelle oder Feinabstimmungen. Wir führen außerdem Analysen und Fallstudien durch, die auf das Potenzial von LLMs hinweisen, Vektorrepräsentationen jenseits traditioneller tokenbasierter Paradigmen zu verarbeiten.
Daten sind ein entscheidendes Element bei der Ausrichtung großer Sprachmodelle (LLMs). In jüngsten Studien wurde untersucht, wie LLMs zur effizienten Datensammlung genutzt werden können. Allerdings leiden von LLMs generierte Daten oft unter Qualitätsproblemen, wie unterrepräsentierte oder fehlende Aspekte und Datensätze von geringer Qualität. Um diese Probleme anzugehen, schlagen wir Data Advisor vor, eine verbesserte, auf LLMs basierende Methode zur Generierung von Daten, die die Merkmale des gewünschten Datensatzes berücksichtigt. Ausgehend von einem Satz vordefinierter Prinzipien überwacht Data Advisor den Status der generierten Daten, identifiziert Schwächen im aktuellen Datensatz und gibt entsprechende Ratschläge für die nächste Iteration der Datenerzeugung. Data Advisor kann problemlos in bestehende Methoden zur Datenerzeugung integriert werden, um die Datenqualität und -abdeckung zu verbessern. Experimente zur Sicherheitsausrichtung von drei repräsentativen LLMs (Mistral, Llama2 und Falcon) zeigen die Wirksamkeit von Data Advisor bei der Verbesserung der Modellsicherheit gegen verschiedene feingranulare Sicherheitsprobleme, ohne die Modell-Nützlichkeit zu beeinträchtigen.
Trotz der herausragenden Leistung wird die Neural Architecture Search (NAS) für ihre massive Rechenleistung kritisiert. Kürzlich hat sich die Zero-shot NAS als vielversprechender Ansatz herausgestellt, indem sie Zero-cost (ZC) Proxies nutzt, die den Rechenbedarf erheblich reduzieren. Trotzdem basieren bestehende ZC Proxies stark auf Expertenwissen und verursachen erhebliche Versuchs- und Irrtumskosten. Insbesondere bei NLP-Aufgaben können die meisten bestehenden ZC Proxies die Leistung des naiven Baseline nicht übertreffen. Um diese Herausforderungen anzugehen, stellen wir ein neuartiges Framework, LPZero, vor, das als erstes automatisch ZC Proxies für verschiedene Aufgaben entwirft und eine höhere Rangkonsistenz als von Menschen entworfene Proxies erreicht. Speziell modellieren wir den ZC Proxy als eine symbolische Gleichung und integrieren einen vereinheitlichten Proxy-Suchraum, der bestehende ZC Proxies umfasst, die aus einem vordefinierten Satz mathematischer Symbole bestehen. Um heuristisch nach dem besten ZC Proxy zu suchen, verwendet LPZero genetische Programmierung, um die optimale symbolische Zusammensetzung zu finden. Wir schlagen eine regelbasierte Beschneidungsstrategie (RPS) vor, die vielversprechende Proxies vorzeitig eliminiert und so das Risiko einer Proxy-Verschlechterung mindert. Umfangreiche Experimente mit FlexiBERT, GPT-2 und LLaMA-7B zeigen die überlegene Rangfähigkeit und Leistung von LPZero bei nachgelagerten Aufgaben im Vergleich zu aktuellen Ansätzen.
Die Lösung zeitabhängiger parametrischer partieller Differentialgleichungen (PDEs) ist eine Herausforderung, da Modelle sich an Variationen in Parametern wie Koeffizienten, erzwungene Terme und Randbedingungen anpassen müssen. Datengetriebene neuronale Solver trainieren entweder auf Daten, die aus der Verteilung der PDE-Parameter entnommen wurden, in der Hoffnung, dass das Modell auf neue Instanzen verallgemeinert, oder verlassen sich auf gradientenbasierte Anpassung und Meta-Learning, um die Dynamik aus Beobachtungen implizit zu codieren. Dies geht oft mit einer erhöhten Inferenzkomplexität einher. Inspiriert von den Fähigkeiten des kontextbezogenen Lernens großer Sprachmodelle (LLMs) stellen wir Zebra vor, einen neuartigen generativen autoregressiven Transformer, der entwickelt wurde, um parametrische PDEs zu lösen, ohne dass bei der Inferenz eine Gradientenanpassung erforderlich ist. Durch die Nutzung von kontextbezogenen Informationen sowohl während des Pre-Trainings als auch der Inferenz passt sich Zebra dynamisch an neue Aufgaben an, indem es auf Eingabesequenzen konditioniert, die Kontexttrajektorien oder vorhergehende Zustände einbeziehen. Dieser Ansatz ermöglicht es Zebra, flexibel mit beliebig großen Kontexteingaben umzugehen und die Unsicherheit durch das Samplen mehrerer Lösungstrajektorien zu quantifizieren. Wir evaluieren Zebra in verschiedenen anspruchsvollen PDE-Szenarien und zeigen seine Anpassungsfähigkeit, Robustheit und überlegene Leistung im Vergleich zu bestehenden Ansätzen.