Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Dieser Artikel untersucht die Nachschulung großer Sprachmodelle (LLMs), die Präferenzrückmeldungen von einem leistungsstarken Orakel verwenden, um einem Modell dabei zu helfen, sich iterativ zu verbessern. Der typische Ansatz für die Nachschulung von LLMs beinhaltet das Lernen aus menschlichem Feedback mittels Verstärkungslernen (RLHF), das traditionell das Lernen von Belohnungen und die anschließende Optimierung der Richtlinie trennt. Jedoch ist ein solcher Ansatz zur Belohnungsmaximierung durch die Natur von "punktweisen" Belohnungen (wie dem Bradley-Terry-Modell) begrenzt, da er komplexe intransitive oder zyklische Präferenzbeziehungen nicht ausdrücken kann. Während Fortschritte im RLHF zeigen, dass das Lernen von Belohnungen und die Optimierung der Richtlinie zu einem einzigen kontrastiven Ziel zur Stabilität verschmolzen werden können, bleiben sie dennoch dem Rahmen der Belohnungsmaximierung verpflichtet. Kürzlich umgeht eine neue Welle von Forschungsergebnissen die Annahmen zur Belohnungsmaximierung zugunsten einer direkten Optimierung von "paarweisen" oder allgemeinen Präferenzen. In diesem Artikel stellen wir die Direkte Nash-Optimierung (DNO) vor, einen nachweisbaren und skalierbaren Algorithmus, der die Einfachheit und Stabilität des kontrastiven Lernens mit der theoretischen Allgemeingültigkeit der Optimierung allgemeiner Präferenzen verbindet. Da DNO ein stapelverarbeiteter On-Policy-Algorithmus ist, der ein objektives Regressionsverfahren verwendet, ist seine Implementierung einfach und effizient. Darüber hinaus profitiert DNO von einer monotonen Verbesserung über Iterationen hinweg, die es ihm ermöglicht, sich sogar über einem starken Lehrer (wie GPT-4) zu verbessern. In unseren Experimenten erreicht ein resultierendes 7B-Parameter-Modell Orca-2.5, das durch DNO ausgerichtet ist, die Spitzenposition gegenüber GPT-4-Turbo mit einer Gewinnrate von 33% auf AlpacaEval 2.0 (selbst nach Kontrolle der Antwortlänge), ein absoluter Gewinn von 26% (von 7% auf 33%) gegenüber dem initialen Modell. Es übertrifft Modelle mit weit mehr Parametern, einschließlich Mistral Large, Self-Rewarding LM (70B Parameter) und älteren Versionen von GPT-4.
Sprachmodelle werden während des Trainings selten fruchtbare Fehler gezeigt. Sie haben dann Schwierigkeiten, über das nächste Token hinauszuschauen, leiden unter einer Schneeballeffekt von Fehlern und kämpfen damit, die Konsequenz ihrer Handlungen mehrere Schritte im Voraus vorherzusagen. In diesem Papier zeigen wir, wie Sprachmodelle durch die Darstellung des Suchprozesses in Sprache als eine flache Zeichenfolge - einen Strom der Suche (SoS) - beigebracht werden können. Wir schlagen eine einheitliche Sprache für die Suche vor, die eine Vielzahl verschiedener symbolischer Suchstrategien erfasst. Wir demonstrieren unseren Ansatz anhand des einfachen, aber schwierigen Spiels Countdown, bei dem das Ziel darin besteht, Eingabezahlen mit arithmetischen Operationen zu kombinieren, um eine Zielzahl zu erreichen. Wir trainieren ein auf Transformer basierendes Sprachmodell von Grund auf auf einem Datensatz von Suchströmen, die von heuristischen Lösungsalgorithmen generiert wurden. Wir stellen fest, dass das SoS-Training die Suchgenauigkeit um 25 % gegenüber Modellen erhöht, die nur auf die Vorhersage der optimalen Suchtrajektorie trainiert sind. Wir verfeinern dieses Modell weiter mit zwei Methoden zur Verbesserung der Richtlinie: Advantage-Induced Policy Alignment (APA) und Self-Taught Reasoner (STaR). Die verfeinerten SoS-Modelle lösen 36 % der zuvor ungelösten Probleme, einschließlich Probleme, die von keinem der heuristischen Lösungsverfahren gelöst werden können. Unsere Ergebnisse deuten darauf hin, dass Sprachmodelle lernen können, Probleme durch Suche zu lösen, sich selbst verbessern, um flexibel verschiedene Suchstrategien zu nutzen, und möglicherweise neue zu entdecken.
Web-crawled Pretraining-Datensätze bilden die Grundlage für die beeindruckende "Zero-Shot"-Evaluationsleistung multimodaler Modelle wie CLIP für Klassifizierung/Abruf und Stable-Diffusion für die Bildgenerierung. Es ist jedoch unklar, wie sinnvoll der Begriff der "Zero-Shot"-Verallgemeinerung für solche multimodalen Modelle ist, da nicht bekannt ist, inwieweit ihre Pretraining-Datensätze die für die "Zero-Shot"-Evaluation anvisierten nachgelagerten Konzepte umfassen. In dieser Arbeit stellen wir die Frage: Wie wird die Leistung multimodaler Modelle bei nachgelagerten Konzepten durch die Häufigkeit dieser Konzepte in ihren Pretraining-Datensätzen beeinflusst? Wir untersuchen diese Frage umfassend über 34 Modelle und fünf Standard-Pretraining-Datensätze (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics) und generieren über 300 GB an Datenartefakten. Wir stellen konsequent fest, dass multimodale Modelle keineswegs "Zero-Shot"-Verallgemeinerung aufweisen, sondern exponentiell mehr Daten benötigen, um lineare Verbesserungen in der nachgelagerten "Zero-Shot"-Leistung zu erzielen, wobei ein sample-ineffizienter log-linearer Skalierungstrend befolgt wird. Dieser Trend besteht auch dann fort, wenn die Ähnlichkeit auf der Sample-Ebene zwischen Pretraining- und nachgelagerten Datensätzen kontrolliert wird und Tests auf rein synthetischen Datenverteilungen durchgeführt werden. Darüber hinaus zeigen wir bei der Benchmarking-Prüfung von Modellen anhand von langschwänzigen Daten, die auf unserer Analyse basieren, dass multimodale Modelle insgesamt schlecht abschneiden. Wir stellen diesen Long-Tail-Testdatensatz als Benchmark "Let it Wag!" zur weiteren Forschung in diese Richtung vor. Zusammenfassend zeigt unsere Studie einen exponentiellen Bedarf an Trainingsdaten auf, was darauf hindeutet, dass der Schlüssel zu den Verallgemeinerungsfähigkeiten im "Zero-Shot"-Modus unter groß angelegten Trainingsparadigmen noch gefunden werden muss.
Große Sprachmodelle (LLMs) haben viele intelligente Agentenaufgaben angetrieben, wie z. B. die Webnavigation - jedoch erfüllen die meisten bestehenden Agenten auf realen Webseiten bei weitem nicht die Anforderungen, aufgrund von drei Faktoren: (1) die Vielseitigkeit von Aktionen auf Webseiten, (2) HTML-Text, der die Verarbeitungskapazität des Modells übersteigt, und (3) die Komplexität der Entscheidungsfindung aufgrund der offenen Natur des Webs. Angesichts dieser Herausforderung entwickeln wir AutoWebGLM, einen automatisierten Webnavigationsagenten, der auf ChatGLM3-6B aufbaut und GPT-4 übertrifft. Inspiriert von menschlichen Browsermustern entwerfen wir einen HTML-Vereinfachungsalgorithmus, um Webseiten darzustellen und wichtige Informationen prägnant zu erhalten. Wir verwenden eine hybride menschlich-künstliche Intelligenz Methode, um Web-Browsing-Daten für das Lehrplantraining zu erstellen. Anschließend bootstrappen wir das Modell durch Verstärkungslernen und Ablehnungsabtastung, um die Webseite-Verständlichkeit, Browseroperationen und effiziente Aufgabenzerlegung weiter zu fördern. Für Tests richten wir einen zweisprachigen Benchmark ein - AutoWebBench - für reale Web-Browsing-Aufgaben. Wir evaluieren AutoWebGLM anhand verschiedener Webnavigations-Benchmarks, die Verbesserungen aufzeigen, aber auch zugrunde liegende Herausforderungen bei der Bewältigung realer Umgebungen. Der zugehörige Code, das Modell und die Daten werden unter https://github.com/THUDM/AutoWebGLM veröffentlicht.
In jüngster Zeit haben Fortschritte bei der Anpassung von Anweisungsdatensätzen hauptsächlich auf spezifische Aufgaben wie mathematische oder logische Schlussfolgerungen abgezielt. Es gab eine bemerkenswerte Lücke bei Daten, die darauf ausgelegt sind, Sprachmodelle auf das Beibehalten der Themenrelevanz in Gesprächen auszurichten - ein entscheidender Aspekt für die Bereitstellung von Chatbots in der Produktion. Wir stellen den CantTalkAboutThis-Datensatz vor, um Sprachmodelle dabei zu unterstützen, während aufgabenorientierter Interaktionen auf das vorliegende Thema fokussiert zu bleiben. Er besteht aus synthetischen Dialogen zu einer Vielzahl von Gesprächsthemen aus verschiedenen Bereichen. Diese Dialoge werden mit Ablenkungsbeiträgen durchsetzt, die den Chatbot absichtlich vom vordefinierten Thema ablenken. Das Feintuning von Sprachmodellen auf diesem Datensatz hilft dabei, sie widerstandsfähiger gegen Abweichungen von der zugewiesenen Rolle zu machen und verbessert ihre Fähigkeit, thematische Kohärenz im Vergleich zu allgemeinen anweisungsgesteuerten LLMs wie GPT-4-turbo und Mixtral-Instruct aufrechtzuerhalten. Darüber hinaus legen vorläufige Beobachtungen nahe, dass das Training von Modellen auf diesem Datensatz auch deren Leistung bei feinkörnigen Anweisungsfolgeaufgaben verbessert.
Menschen verlassen sich auf soziale Fähigkeiten wie Konfliktlösung, um effektiv zu kommunizieren und sowohl im Berufs- als auch im Privatleben erfolgreich zu sein. Allerdings sind Übungsumgebungen für soziale Fähigkeiten in der Regel für die meisten Menschen unerreichbar. Wie können wir das Training sozialer Fähigkeiten zugänglicher, einfacher erreichbar und einladender gestalten? Basierend auf interdisziplinären Forschungen aus Kommunikation und Psychologie identifiziert dieses Perspektivenpapier Barrieren für den Erwerb sozialer Fähigkeiten in spezialisierten Bereichen. Anschließend präsentieren wir eine Lösung, die große Sprachmodelle für das Training sozialer Fähigkeiten über einen generischen Rahmen nutzt. Unser KI-Partner, KI-Mentor-Rahmen, kombiniert erfahrungsorientiertes Lernen mit realistischer Übung und maßgeschneidertem Feedback. Diese Arbeit ruft letztendlich nach interdisziplinärer Innovation, um die umfassenden Auswirkungen auf die Arbeitskräfteentwicklung und soziale Gleichheit anzugehen.
Das Reinforcement-Learning (RL) hat die gesteuerte Bildgenerierung mit Diffusionsmodellen verbessert, indem es direkt Belohnungen optimiert, die die Bildqualität, Ästhetik und die Fähigkeit zur Befolgung von Anweisungen erfassen. Die resultierenden generativen Richtlinien erben jedoch den gleichen iterativen Prozess der Stichprobenentnahme von Diffusionsmodellen, der zu einer langsamen Generierung führt. Um diese Einschränkung zu überwinden, schlagen Konsistenzmodelle vor, eine neue Klasse generativer Modelle zu erlernen, die direkt Rauschen in Daten abbilden, wodurch ein Modell entsteht, das ein Bild in nur einer Stichprobeniteration generieren kann. In dieser Arbeit schlagen wir zur Optimierung von Text-zu-Bild-generativen Modellen für aufgabenspezifische Belohnungen und zur Ermöglichung schnellen Trainings und Inferenz ein Framework zur Feinabstimmung von Konsistenzmodellen über RL vor. Unser Framework, genannt Reinforcement Learning for Consistency Model (RLCM), fasst den iterativen Inferenzprozess eines Konsistenzmodells als ein RL-Verfahren auf. RLCM verbessert die Fähigkeiten von RL-feinabgestimmten Diffusionsmodellen in der Text-zu-Bild-Generierung und tauscht Rechenleistung während der Inferenzzeit gegen Probenqualität. Experimentell zeigen wir, dass RLCM Text-zu-Bild-Konsistenzmodelle an Zielen anpassen kann, die schwer mit Aufforderungen auszudrücken sind, wie z.B. Bildkomprimierbarkeit, und solche, die sich aus menschlichem Feedback ableiten, wie z.B. ästhetische Qualität. Im Vergleich zu RL-feinabgestimmten Diffusionsmodellen trainiert RLCM signifikant schneller, verbessert die Qualität der Generierung gemessen an den Belohnungszielen und beschleunigt das Inferenzverfahren, indem hochwertige Bilder mit nur zwei Inferenzschritten generiert werden. Unser Code ist verfügbar unter https://rlcm.owenoertell.com.
In dieser Studie stellen wir CT-LLM vor, ein 2B großes Sprachmodell (LLM), das einen entscheidenden Schritt hin zur Priorisierung der chinesischen Sprache bei der Entwicklung von LLMs darstellt. Einzigartig von Grund auf initiiert, weicht CT-LLM von der herkömmlichen Methodik ab, indem es hauptsächlich chinesische Textdaten einbezieht und einen umfangreichen Korpus von 1.200 Milliarden Tokens verwendet, darunter 800 Milliarden chinesische Tokens, 300 Milliarden englische Tokens und 100 Milliarden Code-Tokens. Diese strategische Zusammensetzung erleichtert die außergewöhnliche Kompetenz des Modells im Verstehen und Verarbeiten von Chinesisch, eine Fähigkeit, die durch Ausrichtungstechniken weiter verbessert wird. Durch die herausragende Leistung im CHC-Bench zeigt CT-LLM herausragende Leistungen bei chinesischen Sprachaufgaben und demonstriert seine Geschicklichkeit im Englischen durch SFT. Diese Forschung stellt das vorherrschende Paradigma in Frage, LLMs hauptsächlich auf englischen Korpora zu trainieren und sie dann an andere Sprachen anzupassen, und erweitert die Horizonte für LLM-Trainingsmethoden. Durch die Open-Source-Bereitstellung des gesamten Prozesses zur Schulung eines chinesischen LLM, einschließlich eines detaillierten Datenverarbeitungsverfahrens mit dem erhaltenen Massive Appropriate Pretraining Chinese Corpus (MAP-CC), eines sorgfältig ausgewählten multidisziplinären Chinese Hard Case Benchmark (CHC-Bench) und des 2B-großen chinesischen Tiny LLM (CT-LLM), zielen wir darauf ab, weitere Erkundungen und Innovationen sowohl in der akademischen Welt als auch in der Industrie zu fördern und den Weg für inklusivere und vielseitigere Sprachmodelle zu ebnen.
In diesem Paper behandeln wir häufige Fehlerquellen für 3D-Gauß-Splatting (3DGS), darunter Unschärfe, unvollkommene Kamerapositionen und Farbinkonsistenzen, mit dem Ziel, seine Robustheit für praktische Anwendungen wie Rekonstruktionen aus handgehaltenen Handy-Aufnahmen zu verbessern. Unser Hauptbeitrag besteht darin, Bewegungsunschärfe als Gauß-Verteilung über Kamerapositionen zu modellieren, was es uns ermöglicht, sowohl die Verfeinerung der Kameraposition als auch die Korrektur der Bewegungsunschärfe auf einheitliche Weise anzugehen. Darüber hinaus schlagen wir Mechanismen zur Kompensation von Defokusunschärfe und zur Behebung von Farbinkonsistenzen vor, die durch Umgebungslicht, Schatten oder kamerabezogene Faktoren wie unterschiedliche Weißabgleicheinstellungen verursacht werden. Unsere vorgeschlagenen Lösungen integrieren sich nahtlos in die 3DGS-Formulierung, wobei sie deren Vorteile in Bezug auf Trainingseffizienz und Rendergeschwindigkeit beibehalten. Wir validieren experimentell unsere Beiträge an relevanten Benchmark-Datensätzen, darunter Scannet++ und Deblur-NeRF, und erzielen erstklassige Ergebnisse sowie konsistente Verbesserungen gegenüber relevanten Basislinien.
Die multimodale semantische Segmentierung verbessert signifikant die Wahrnehmung und Szenenverständnis von KI-Agenten, insbesondere unter widrigen Bedingungen wie schlechten Lichtverhältnissen oder überbelichteten Umgebungen. Durch die Nutzung zusätzlicher Modalitäten (X-Modalität) wie thermischer und Tiefeninformation neben dem traditionellen RGB werden ergänzende Informationen bereitgestellt, die eine robustere und zuverlässigere Segmentierung ermöglichen. In dieser Arbeit stellen wir Sigma vor, ein Siamese Mamba-Netzwerk für multimodale semantische Segmentierung, das das selektive strukturierte Zustandsraummodell Mamba nutzt. Im Gegensatz zu herkömmlichen Methoden, die auf CNNs mit begrenzten lokalen Rezeptionsfeldern oder Vision-Transformern (ViTs) angewiesen sind, die globale Rezeptionsfelder bei quadratischer Komplexität bieten, erreicht unser Modell eine Abdeckung globaler Rezeptionsfelder bei linearer Komplexität. Durch die Verwendung eines Siamese-Encoders und die Innovation eines Mamba-Fusionsmechanismus wählen wir effektiv wesentliche Informationen aus verschiedenen Modalitäten aus. Ein Decoder wird dann entwickelt, um die kanalweise Modellierungsfähigkeit des Modells zu verbessern. Unsere Methode, Sigma, wird sorgfältig auf RGB-Thermal- und RGB-Tiefensegmentierungsaufgaben evaluiert, was ihre Überlegenheit zeigt und die erste erfolgreiche Anwendung von Zustandsraummodellen (SSMs) in multimodalen Wahrnehmungsaufgaben markiert. Der Code ist verfügbar unter https://github.com/zifuwan/Sigma.