Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Schlussfolgerungsmodelle (LRMs) wie OpenAI-o1 haben beeindruckende langfristige schrittweise Schlussfolgerungsfähigkeiten durch groß angelegtes Verstärkungslernen demonstriert. Ihre erweiterten Schlussfolgerungsprozesse leiden jedoch oft an Wissensmangel, was zu häufigen Unsicherheiten und potenziellen Fehlern führt. Um diese Einschränkung zu beheben, stellen wir Search-o1 vor, ein Framework, das LRMs mit einem agierenden Abruf-erweiterten Generierungsmechanismus (RAG) und einem Reason-in-Documents-Modul zur Verfeinerung abgerufener Dokumente verbessert. Search-o1 integriert einen agierenden Suchworkflow in den Schlussfolgerungsprozess, der LRMs ermöglicht, externes Wissen dynamisch abzurufen, wenn sie auf unsichere Wissenspunkte stoßen. Zusätzlich, aufgrund der ausführlichen Natur der abgerufenen Dokumente, entwerfen wir ein separates Reason-in-Documents-Modul, um die abgerufenen Informationen vor dem Einspeisen in die Schlussfolgerungskette gründlich zu analysieren, um Störgeräusche zu minimieren und den kohärenten Schlussfolgerungsfluss zu bewahren. Umfangreiche Experimente zu komplexen Schlussfolgerungsaufgaben in den Bereichen Wissenschaft, Mathematik und Codierung sowie sechs Open-Domain-QA-Benchmarks zeigen die starke Leistung von Search-o1. Dieser Ansatz verbessert die Vertrauenswürdigkeit und Anwendbarkeit von LRMs bei komplexen Schlussfolgerungsaufgaben und ebnet den Weg für zuverlässigere und vielseitigere intelligente Systeme. Der Code ist verfügbar unter https://github.com/sunnynexus/Search-o1.
Es gibt eine weit verbreitete Behauptung, dass GANs schwer zu trainieren sind und GAN-Architekturen in der Literatur mit empirischen Tricks übersät sind. Wir liefern Beweise gegen diese Behauptung und erstellen eine moderne GAN-Basislinie auf eine fundiertere Weise. Zunächst leiten wir einen gut verhaltenden regulierten relativistischen GAN-Verlust her, der Probleme wie Modusausfälle und Nicht-Konvergenz angeht, die zuvor mit einer Vielzahl von Ad-hoc-Tricks gelöst wurden. Wir analysieren unseren Verlust mathematisch und zeigen, dass er lokale Konvergenzgarantien bietet, im Gegensatz zu den meisten bestehenden relativistischen Verlusten. Zweitens ermöglicht es uns unser neuer Verlust, alle Ad-hoc-Tricks zu verwerfen und veraltete Grundstrukturen, die in gängigen GANs verwendet werden, durch moderne Architekturen zu ersetzen. Anhand von StyleGAN2 als Beispiel präsentieren wir einen Weg der Vereinfachung und Modernisierung, der zu einer neuen minimalistischen Basislinie führt - R3GAN. Trotz ihrer Einfachheit übertrifft unsere Methode StyleGAN2 auf den Datensätzen FFHQ, ImageNet, CIFAR und Stacked MNIST und schneidet im Vergleich zu modernsten GANs und Diffusionsmodellen gut ab.
Dieses Papier untersucht die Fortschritte bei der Herstellung von großen Sprachmodellen (LLMs), um sie menschenähnlicher zu gestalten. Wir konzentrieren uns auf Techniken, die das Verständnis natürlicher Sprache, die Kohärenz von Gesprächen und die emotionale Intelligenz in KI-Systemen verbessern. Die Studie bewertet verschiedene Ansätze, einschließlich Feinabstimmung mit vielfältigen Datensätzen, Einbeziehung psychologischer Prinzipien und Gestaltung von Modellen, die menschliche Denkmuster besser nachahmen. Unsere Ergebnisse zeigen, dass diese Verbesserungen nicht nur die Benutzerinteraktionen verbessern, sondern auch neue Möglichkeiten für KI-Anwendungen in verschiedenen Bereichen eröffnen. Zukünftige Arbeiten werden sich mit den ethischen Implikationen und möglichen Verzerrungen befassen, die durch diese menschenähnlichen Merkmale eingeführt werden.
Wir untersuchen empirisch das autoregressive Pre-Training von Videos. Um unsere Studie durchzuführen, konstruieren wir eine Reihe von autoregressiven Videomodellen, genannt Toto. Wir behandeln Videos als Sequenzen von visuellen Tokens und trainieren Transformer-Modelle, um zukünftige Tokens autoregressiv vorherzusagen. Unsere Modelle werden auf einem vielfältigen Datensatz von Videos und Bildern mit über 1 Billion visuellen Tokens vorab trainiert. Wir untersuchen verschiedene architektonische, Trainings- und Inferenz-Designentscheidungen. Wir evaluieren die erlernten visuellen Repräsentationen anhand einer Vielzahl von Aufgaben, darunter Bilderkennung, Videoklassifikation, Objektverfolgung und Robotik. Unsere Ergebnisse zeigen, dass autoregressives Pre-Training trotz minimaler induktiver Vorurteile zu einer wettbewerbsfähigen Leistung bei allen Benchmarks führt. Schließlich stellen wir fest, dass das Skalieren unserer Videomodelle zu ähnlichen Skalierungskurven führt wie bei Sprachmodellen, wenn auch mit einer anderen Rate. Weitere Details unter https://brjathu.github.io/toto/
In jüngster Zeit haben Fortschritte bei Vision-Language-Modellen (VLMs) Interesse an ihrer Verwendung für autonomes Fahren geweckt, insbesondere bei der Generierung interpretierbarer Fahrentscheidungen durch natürliche Sprache. Die Annahme, dass VLMs von Natur aus visuell fundierte, zuverlässige und interpretierbare Erklärungen für das Fahren liefern, bleibt jedoch weitgehend unerforscht. Um diese Lücke zu schließen, stellen wir DriveBench vor, einen Benchmark-Datensatz, der entwickelt wurde, um die Zuverlässigkeit von VLMs in 17 Einstellungen (saubere, korrupte und nur-Text-Eingaben) zu bewerten. Dies umfasst 19.200 Frames, 20.498 Frage-Antwort-Paare, drei Fragetypen, vier gängige Fahraufgaben und insgesamt 12 beliebte VLMs. Unsere Ergebnisse zeigen, dass VLMs oft plausible Antworten generieren, die aus allgemeinem Wissen oder textuellen Hinweisen abgeleitet sind, anstatt aus einer echten visuellen Verankerung, insbesondere bei degradierten oder fehlenden visuellen Eingaben. Dieses Verhalten, das durch Datensatz-Ungleichgewichte und unzureichende Bewertungsmetriken verdeckt wird, birgt erhebliche Risiken in sicherheitskritischen Szenarien wie dem autonomen Fahren. Wir stellen weiterhin fest, dass VLMs Schwierigkeiten mit multimodalem Denken haben und eine erhöhte Empfindlichkeit gegenüber Eingabekorruptionen zeigen, was zu Leistungsinkonsistenzen führt. Um diesen Herausforderungen zu begegnen, schlagen wir verfeinerte Bewertungsmetriken vor, die eine robuste visuelle Verankerung und multimodales Verständnis priorisieren. Darüber hinaus heben wir das Potenzial hervor, die Kenntnis von Korruptionen bei VLMs zu nutzen, um ihre Zuverlässigkeit zu verbessern, und bieten einen Fahrplan für die Entwicklung vertrauenswürdigerer und interpretierbarer Entscheidungssysteme in realen autonomen Fahrszenarien. Das Benchmark-Toolkit ist öffentlich zugänglich.
Die meisten großen Modellen für Bild-Sprache (LVLMs) werden bisher hauptsächlich mit englischen Daten trainiert, was es ihnen schwer macht, nicht-englische Eingaben zu verstehen und Ausgaben in der gewünschten Zielsprache zu generieren. Bestehende Bemühungen mildern diese Probleme, indem sie mehrsprachige Trainingsdaten hinzufügen, tun dies jedoch weitgehend ad hoc, ohne Einblick darin zu haben, wie verschiedene Trainingsmischungen die Waage für verschiedene Sprachgruppen beeinflussen. In dieser Arbeit präsentieren wir eine umfassende Untersuchung der Trainingsstrategien für massiv mehrsprachige LVLMs. Zunächst führen wir eine Reihe von mehrstufigen Experimenten durch, die 13 nachgelagerte Bild-Sprache-Aufgaben und 43 Sprachen umfassen, und untersuchen systematisch: (1) die Anzahl der Trainingsprachen, die ohne Beeinträchtigung der Leistung in Englisch einbezogen werden können, und (2) optimale Sprachverteilungen des Vortrainings sowie (3) Anweisungsabstimmungsdaten. Darüber hinaus untersuchen wir (4), wie die mehrsprachige Text-in-Bild-Verarbeitung verbessert werden kann, und stellen einen neuen Benchmark für die Aufgabe vor. Überraschenderweise zeigt unsere Analyse, dass man (i) gleichzeitig bis zu 100 Trainingsprachen einbeziehen kann, (ii) mit so wenig wie 25-50\% nicht-englischen Daten, um die mehrsprachige Leistung erheblich zu verbessern, während die starke Leistung in Englisch beibehalten wird. Wir finden weiterhin heraus, dass (iii) das Einbeziehen von nicht-englischen OCR-Daten beim Vortraining und bei der Anweisungsabstimmung entscheidend ist, um die mehrsprachige Text-in-Bild-Verarbeitung zu verbessern. Schließlich fassen wir alle unsere Erkenntnisse zusammen und trainieren Centurio, ein 100-sprachiges LVLM, das eine Spitzenleistung in einer Bewertung von 14 Aufgaben und 56 Sprachen bietet.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten bei einer Vielzahl komplexer Aufgaben gezeigt. Eine bedeutende Anwendung von LLMs besteht darin, Softwaretechnik-Herausforderungen anzugehen, insbesondere bei der Lösung realer Aufgaben auf GitHub durch das Beheben von Code basierend auf den von den Benutzern gemeldeten Problemen. Viele derzeitige Ansätze stützen sich jedoch auf proprietäre LLMs, was die Reproduzierbarkeit, Zugänglichkeit und Transparenz einschränkt. Die entscheidenden Komponenten von LLMs zur Bewältigung von Softwaretechnik-Problemen und wie ihre Fähigkeiten effektiv verbessert werden können, bleiben unklar. Um diese Herausforderungen anzugehen, stellen wir SWE-Fixer vor, ein neuartiges Open-Source LLM, das entwickelt wurde, um GitHub-Probleme effektiv und effizient zu lösen. SWE-Fixer besteht aus zwei wesentlichen Modulen: einem Code-Datei-Abrufmodul und einem Code-Bearbeitungsmodul. Das Abrufmodul verwendet BM25 zusammen mit einem leichtgewichtigen LLM-Modell, um eine grob-zu-fein-Dateiabfrage zu erreichen. Anschließend nutzt das Code-Bearbeitungsmodul das andere LLM-Modell, um Patches für die identifizierten Dateien zu generieren. Um den Mangel an öffentlich verfügbaren Datensätzen zu mildern, erstellen wir einen umfangreichen Datensatz, der 110.000 GitHub-Probleme zusammen mit ihren entsprechenden Patches enthält, und trainieren die beiden Module von SWE-Fixer separat. Wir bewerten unseren Ansatz anhand der SWE-Bench Lite und Verified Benchmarks und erzielen eine Spitzenleistung unter Open-Source-Modellen mit Punktzahlen von jeweils 23,3 % und 30,2 %. Diese Ergebnisse unterstreichen die Wirksamkeit unseres Ansatzes. Wir werden unser Modell, unseren Datensatz und den Code öffentlich unter https://github.com/InternLM/SWE-Fixer zur Verfügung stellen.
In jüngster Zeit haben Visual Autoregressive (VAR) Modelle einen bahnbrechenden Fortschritt auf dem Gebiet der Bildgenerierung eingeführt, indem sie einen skalierbaren Ansatz durch ein grob-zu-fein "Next-Scale Prediction"-Paradigma bieten. Die aktuell führende Algorithmus der VAR Modelle in [Tian, Jiang, Yuan, Peng und Wang, NeurIPS 2024] benötigt jedoch eine Rechenzeit von O(n^4), was rechnerisch ineffizient ist. In dieser Arbeit analysieren wir die Rechengrenzen und Effizienzkriterien von VAR Modellen durch eine feinkörnige Komplexitätsbetrachtung. Unser Hauptbeitrag besteht darin, die Bedingungen zu identifizieren, unter denen VAR-Berechnungen eine subquadratische Zeitkomplexität erreichen können. Insbesondere legen wir einen kritischen Schwellenwert für die Norm der Eingabematrizen fest, die in VAR-Aufmerksamkeitsmechanismen verwendet werden. Über diesem Schwellenwert, unter der Annahme der Strong Exponential Time Hypothesis (SETH) aus der feinkörnigen Komplexitätstheorie, ist ein subquartischer Zeitalgorithmus für VAR Modelle unmöglich. Zur Untermauerung unserer theoretischen Erkenntnisse präsentieren wir effiziente Konstruktionen, die auf niedrig-rangigen Approximationen beruhen und mit den abgeleiteten Kriterien übereinstimmen. Diese Arbeit leitet die Untersuchung der Recheneffizienz des VAR Modells aus theoretischer Perspektive ein. Unsere Methode wird dazu beitragen, die skalierbare und effiziente Bildgenerierung in VAR Frameworks voranzutreiben.
Die Verbreitung proprietärer Sprachmodelle hat kritische Datenschutzbedenken aufgeworfen, was Fortschritte im Bereich des privaten Inferenz (PI) erforderlich macht, bei dem Berechnungen direkt auf verschlüsselten Daten durchgeführt werden, ohne die sensiblen Informationen der Benutzer offenzulegen. Obwohl PI eine vielversprechende Lösung bietet, wird seine praktische Umsetzung durch erhebliche Kommunikations- und Latenzüberlastungen behindert, die hauptsächlich auf nichtlineare Operationen zurückzuführen sind. Um dies zu bewältigen, führen wir einen informationstheoretischen Rahmen ein, um die Rolle der Nichtlinearitäten in ausschließlich dekodierenden Sprachmodellen zu charakterisieren und so eine fundierte Grundlage für die Optimierung von Transformer-Architekturen zu schaffen, die auf die Anforderungen von PI zugeschnitten sind. Durch die Nutzung von Shannons Entropie als quantitative Maßeinheit enthüllen wir die zuvor unerforschte doppelte Bedeutung von Nichtlinearitäten: Sie sind nicht nur entscheidend für die Gewährleistung der Trainingsstabilität, sondern auch für die Aufrechterhaltung der Vielfalt der Aufmerksamkeitsköpfe. Insbesondere stellen wir fest, dass ihr Entfernen zwei kritische Fehlermodi auslöst: {\em Entropie-Kollaps} in tieferen Schichten, der das Training destabilisiert, und {\em Entropie-Überlastung} in früheren Schichten, die zu einer Unterbeanspruchung der Repräsentationskapazität der Multi-Head Attention (MHA) führt. Wir schlagen einen entropiegeführten Aufmerksamkeitsmechanismus in Verbindung mit einer neuartigen Entropie-Regularisierungstechnik vor, um die Entropie-Überlastung zu mildern. Darüber hinaus untersuchen wir PI-freundliche Alternativen zur Schichtnormalisierung, um den Entropie-Kollaps zu verhindern und das Training von LLMs mit reduzierten Nichtlinearitäten zu stabilisieren. Unsere Studie schlägt eine Brücke zwischen Informationstheorie und architektonischem Design und etabliert die Entropiedynamik als fundierte Richtlinie für die Entwicklung effizienter PI-Architekturen. Der Code und die Implementierung sind verfügbar unter https://github.com/Nandan91/entropy-guided-attention-llm{entropy-guided-llm}.
Dieses Papier stellt grundlegende Ressourcen und Modelle für die natürliche Sprachverarbeitung (NLP) des historischen Türkischen vor, einem Bereich, der in der Computerlinguistik bisher wenig erforscht wurde. Wir präsentieren den ersten Datensatz für benannte Entitäten (NER) namens HisTR und den ersten Universal Dependencies Treebank, OTA-BOUN, für eine historische Form der türkischen Sprache sowie auf diesen Datensätzen trainierte transformerbasierte Modelle für die Erkennung benannter Entitäten, die Analyse von Abhängigkeiten und die Zuordnung von Wortarten. Darüber hinaus stellen wir das Ottoman Text Corpus (OTC) vor, ein sauberes Korpus transliterierter historischer türkischer Texte, das eine breite Palette historischer Perioden abdeckt. Unsere experimentellen Ergebnisse zeigen signifikante Verbesserungen bei der computerbasierten Analyse des historischen Türkischen und erzielen vielversprechende Ergebnisse bei Aufgaben, die ein Verständnis historischer sprachlicher Strukturen erfordern. Sie heben auch bestehende Herausforderungen hervor, wie die Anpassung an den Bereich und sprachliche Variationen über verschiedene Zeiträume hinweg. Alle präsentierten Ressourcen und Modelle stehen unter https://huggingface.co/bucolin zur Verfügung, um als Benchmark für zukünftige Fortschritte in der NLP des historischen Türkischen zu dienen.