Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Multimodale Large Language Models (MLLMs) haben in verschiedenen Anwendungen signifikantes Potenzial gezeigt, was zu großem Interesse von Forschern und Praktikern gleichermaßen geführt hat. Allerdings bleibt eine umfassende Bewertung ihrer Fähigkeiten im Umgang mit langen Kontexten weitgehend unerforscht. Um diese Lücken zu schließen, stellen wir das MultiModal Needle-in-a-haystack (MMNeedle) Benchmark vor, das speziell entwickelt wurde, um die Fähigkeiten von MLLMs im Umgang mit langen Kontexten zu bewerten. Neben multi-bildlichen Eingaben verwenden wir Bildzusammenfügung, um die Eingabekontextlänge weiter zu erhöhen, und entwickeln ein Protokoll zur automatischen Generierung von Labels für die Abrufung auf der Unterbildebene. Im Wesentlichen bewertet MMNeedle MLLMs, indem sie ihre Fähigkeit testet, ein Zielunterbild (Nadel) innerhalb einer Reihe von Bildern (Heuhaufen) anhand textueller Anweisungen und Beschreibungen der Bildinhalte zu lokalisieren. Dieses Setup erfordert ein fortgeschrittenes Verständnis umfangreicher visueller Kontexte und effektive Informationsabrufung innerhalb von Bildereingaben mit langem Kontext. Mit diesem Benchmark bewerten wir modernste MLLMs, die sowohl auf API-basierten als auch auf Open-Source-Modellen basieren. Die Ergebnisse zeigen, dass GPT-4o in langen Kontextszenarien konsistent andere Modelle übertrifft, jedoch unter Halluzinationsproblemen in negativen Beispielen leidet, d.h. wenn Nadeln nicht in den Heuhaufen sind. Unsere umfassende Bewertung von MLLMs im langen Kontext wirft auch Licht auf die beträchtliche Leistungsdifferenz zwischen API-basierten und Open-Source-Modellen. Der gesamte Code, die Daten und Anweisungen zur Reproduktion der Hauptergebnisse sind unter https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack verfügbar.
Heutzutage entwickeln sich die Bereiche Code und natürliche Sprachverarbeitung schnell weiter. Insbesondere werden Modelle immer besser darin, lange Kontextfenster zu verarbeiten - unterstützte Kontextgrößen haben sich in den letzten Jahren um Größenordnungen erhöht. Es gibt jedoch einen Mangel an Benchmarks für die Codeverarbeitung, die über eine einzelne Kontextdatei hinausgehen, während die beliebtesten auf eine einzelne Methode beschränkt sind. Mit dieser Arbeit zielen wir darauf ab, diese Lücke zu schließen, indem wir Long Code Arena vorstellen, eine Reihe von sechs Benchmarks für Codeverarbeitungsaufgaben, die projektweiten Kontext erfordern. Diese Aufgaben decken verschiedene Aspekte der Codeverarbeitung ab: bibliotheksbasierte Codegenerierung, Reparatur von CI-Builds, Codevervollständigung auf Projektebene, Generierung von Commit-Nachrichten, Lokalisierung von Fehlern und Modulzusammenfassung. Für jede Aufgabe stellen wir einen manuell überprüften Datensatz für Tests, eine Bewertungssuite und Open-Source-Basissolutions basierend auf beliebten LLMs bereit, um die Verwendung des Datensatzes zu demonstrieren und die Übernahme durch andere Forscher zu vereinfachen. Wir veröffentlichen die Benchmark-Seite auf HuggingFace Spaces mit der Bestenliste, Links zum HuggingFace Hub für alle Datensätze und einen Link zum GitHub-Repository mit den Baselines: https://huggingface.co/spaces/JetBrains-Research/long-code-arena.
Vision-Transformer (ViT) sind als ein bedeutender Forschungsbereich in den Fokus gerückt, insbesondere aufgrund ihrer Fähigkeit, gemeinsam mit großen Sprachmodellen trainiert zu werden und als robuste Grundlagenmodelle für die Bildverarbeitung zu dienen. Dennoch hinkt die Entwicklung vertrauenswürdiger Erklärungsmethoden für ViTs hinterher, insbesondere im Kontext von nachträglichen Interpretationen von ViT-Vorhersagen. Bestehende Ansätze zur Auswahl von Teilbildern, wie Merkmalszuweisung und konzeptionelle Modelle, erfüllen diese Anforderungen nicht vollständig. Dieser Artikel schlägt fünf Kriterien zur Erklärung von ViTs vor - Treue, Stabilität, Sparsamkeit, mehrschichtige Struktur und Sparsamkeit - und zeigt die Unzulänglichkeit der aktuellen Methoden bei der umfassenden Erfüllung dieser Kriterien auf. Wir stellen ein variational-bayesianisches Erklärungsframework namens Probabilistische Konzept-Erklärer (PACE) vor, das die Verteilungen von Patch-Einbettungen modelliert, um vertrauenswürdige nachträgliche konzeptionelle Erklärungen zu liefern. Unsere qualitative Analyse zeigt die Verteilungen von Patch-Ebene-Konzepten auf und verdeutlicht die Wirksamkeit von ViTs durch Modellierung der gemeinsamen Verteilung von Patch-Einbettungen und ViT-Vorhersagen. Darüber hinaus überbrücken diese Patch-Ebene-Erklärungen die Kluft zwischen Erklärungen auf Bild- und Datensatzebene und vervollständigen somit die mehrschichtige Struktur von PACE. Durch umfangreiche Experimente sowohl an synthetischen als auch an realen Datensätzen zeigen wir, dass PACE die state-of-the-art Methoden hinsichtlich der definierten Kriterien übertrifft.
Wir präsentieren Self-MoE, einen Ansatz, der ein monolithisches LLM in ein zusammengesetztes, modulares System von selbstspezialisierten Experten namens MiXSE (MiXture of Self-specialized Experts) umwandelt. Unser Ansatz nutzt die Selbstspezialisierung, die Expertenmodule mithilfe von selbstgenerierten synthetischen Daten konstruiert, die jeweils mit einem gemeinsamen Basis-LLM ausgestattet sind und eine selbstoptimierte Routenführung integrieren. Dies ermöglicht eine dynamische und fähigkeitsspezifische Bearbeitung verschiedener Zielaufgaben, wodurch die Gesamtfähigkeiten verbessert werden, ohne umfangreiche menschlich gelabelte Daten und zusätzliche Parameter. Unsere empirischen Ergebnisse zeigen, dass die Spezialisierung von LLMs potenzielle Kompromisse bei der Leistungsfähigkeit auf nicht spezialisierten Aufgaben aufzeigen kann. Andererseits zeigt unser Self-MoE signifikante Verbesserungen gegenüber dem Basis-LLM in verschiedenen Benchmarks wie Wissen, Schlussfolgerung, Mathematik und Codierung. Es übertrifft auch konsistent andere Methoden, einschließlich Instanzfusion und Gewichtsfusion, und bietet gleichzeitig eine bessere Flexibilität und Interpretierbarkeit durch das Design mit semantischen Experten und Routenführung. Unsere Ergebnisse unterstreichen die entscheidende Rolle der Modularität und das Potenzial der Selbstverbesserung bei der Erreichung effizienter, skalierbarer und anpassungsfähiger Systeme.
Die Integration von vortrainierten Sprachmodellen (PLMs) wie BERT und GPT hat die NLP revolutioniert, insbesondere für Englisch, aber auch sprachliche Ungleichgewichte geschaffen. Dieser Artikel identifiziert strategisch die Notwendigkeit sprachlicher Gerechtigkeit, indem er verschiedene Techniken zur Wissensbearbeitung in multilingualen Kontexten untersucht. Wir evaluieren die Leistung von Modellen wie Mistral, TowerInstruct, OpenHathi, Tamil-Llama und Kan-Llama in Sprachen wie Englisch, Deutsch, Französisch, Italienisch, Spanisch, Hindi, Tamil und Kannada. Unsere Forschung identifiziert signifikante Diskrepanzen zwischen normalen und fusionierten Modellen hinsichtlich der sprachübergreifenden Konsistenz. Wir setzen Strategien wie 'jede Sprache für sich' (ELFI) und 'jede Sprache für andere' (ELFO) ein, um diese Modelle zu überprüfen. Unsere Ergebnisse zeigen das Potenzial von LLMs auf, sprachliche Barrieren zu überwinden und legen den Grundstein für zukünftige Forschung zur Erreichung sprachlicher Inklusivität in KI-Technologien.
Selbstüberwachte Sprachmodelle (SSL) sind in letzter Zeit weit verbreitet für viele nachgelagerte Sprachverarbeitungsaufgaben eingesetzt worden. Das allgemeine Anwendungsmuster besteht darin, SSL-Modelle als Merkmalsextraktoren zu verwenden und dann einen nachgelagerten Vorhersagekopf zu trainieren, um eine spezifische Aufgabe zu lösen. Es wurde jedoch gezeigt, dass verschiedene Schichten von SSL-Modellen unterschiedliche Arten von Informationen erfassen, und die Methoden zu ihrer Kombination sind nicht gut untersucht. Zu diesem Zweck erweitern wir das allgemeine Rahmenwerk für die Nutzung von SSL-Modellen, indem wir die Schnittstelle vorschlagen, die das Upstream- und Downstream-Modell verbindet. Unter diesem Gesichtspunkt kann die dominante Technik der Kombination von Merkmalen über eine schichtweise gewichtete Summe als spezifische Schnittstelle betrachtet werden. Wir schlagen mehrere alternative Schnittstellendesigns vor und zeigen, dass die gewichtete Summenschnittstelle für viele Aufgaben suboptimal ist. Insbesondere zeigen wir, dass eine Faltungsschnittstelle, deren Tiefe logarithmisch mit der Tiefe des Upstream-Modells skaliert, konsistent viele andere Schnittstellendesigns übertrifft.
Das Lernen durch Verstärkung mit menschlichem Feedback (RLHF) hat sich als die vorherrschende Methode etabliert, um große Modelle an Benutzerpräferenzen auszurichten. Im Gegensatz zum Feinabgleich, zu dem viele Studien zur Memorierung von Trainingsdaten existieren, ist nicht klar, wie die Memorierung durch den RLHF-Abstimmungsprozess beeinflusst oder eingeführt wird. Das Verständnis dieser Beziehung ist wichtig, da echte Benutzerdaten gesammelt und zur Ausrichtung großer Modelle verwendet werden können; wenn Benutzerdaten während RLHF memorisiert und später wiedergegeben werden, könnte dies Datenschutzbedenken aufwerfen. In dieser Arbeit analysieren wir, wie die Memorierung von Trainingsdaten in jedem Phase des RLHF auftauchen und sich verbreiten kann. Wir konzentrieren uns in unserer Studie auf Code-Vervollständigungsmodelle, da die Code-Vervollständigung eines der beliebtesten Anwendungsfälle für große Sprachmodelle ist. Wir stellen fest, dass RLHF die Wahrscheinlichkeit, dass Daten, die für die Reward-Modellierung und das Lernen durch Verstärkung verwendet werden, memorisiert werden, im Vergleich zur Ausrichtung durch direktes Feinabgleichen dieser Daten, signifikant verringert, aber dass Beispiele, die bereits während der Feinabstimmungsphase von RLHF memorisiert wurden, in der Mehrheit der Fälle nach RLHF memorisiert bleiben.
Die Aufgabe des "Vergessens" bestimmter Konzepte in großen Sprachmodellen (LLMs) hat kürzlich immense Aufmerksamkeit erregt, aufgrund ihrer Bedeutung zur Minderung unerwünschter Verhaltensweisen der Modelle, wie der Erzeugung schädlicher, privater oder falscher Informationen. Aktuelle Protokolle zur Bewertung von Vergessensmethoden stützen sich weitgehend auf Verhaltenstests, ohne die Präsenz vergessenen Wissens innerhalb der Parameter des Modells zu überwachen. Dieses Restwissen kann feindlich ausgenutzt werden, um die gelöschten Informationen nach dem Vergessen wiederherzustellen. Wir argumentieren, dass das Vergessen auch intern bewertet werden sollte, indem Veränderungen in den parametrischen Wissensspuren der vergessenen Konzepte berücksichtigt werden. Zu diesem Zweck schlagen wir eine allgemeine Methodik zur Ermittlung von Richtungen im Parameterraum vor (bezeichnet als "Konzeptvektoren"), die konkrete Konzepte codieren, und erstellen ConceptVectors, einen Benchmark-Datensatz mit Hunderten von gängigen Konzepten und ihren parametrischen Wissensspuren in zwei Open-Source-LLMs. Die Evaluation anhand von ConceptVectors zeigt, dass bestehende Vergessensmethoden Konzeptvektoren minimal beeinflussen, während das direkte Entfernen dieser Vektoren nachweislich das zugehörige Wissen aus den LLMs entfernt und ihre Anfälligkeit für feindliche Manipulationen signifikant reduziert. Unsere Ergebnisse verdeutlichen die Grenzen von verhaltensbasierten Vergessensbewertungen und fordern zukünftige Arbeiten auf, parametrische Bewertungen einzubeziehen. Zur Unterstützung veröffentlichen wir unseren Code und Benchmark unter https://github.com/yihuaihong/ConceptVectors.