Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Retrieval-gestützte Generierung (RAG) ist zu einem leistungsstarken Paradigma geworden, um große Sprachmodelle (LLMs) durch die externe Wissensabfrage zu verbessern. Trotz ihrer weit verbreiteten Aufmerksamkeit konzentrieren sich bestehende wissenschaftliche Untersuchungen hauptsächlich auf den Einzelturn-RAG, was eine signifikante Lücke bei der Bewältigung der Komplexitäten von Mehrturn-Gesprächen in Anwendungen der realen Welt hinterlässt. Um diese Lücke zu schließen, stellen wir CORAL vor, einen groß angelegten Benchmark, der entwickelt wurde, um RAG-Systeme in realistischen Mehrturn-Gesprächssituationen zu bewerten. CORAL umfasst vielfältige informationsuchende Gespräche, die automatisch aus Wikipedia abgeleitet wurden, und behandelt Schlüsselherausforderungen wie die Abdeckung im Open Domain, Wissensintensität, freie Antwortformen und Themenwechsel. Es unterstützt drei Kernaufgaben des konversationellen RAG: Passagenabruf, Antwortgenerierung und Zitationskennzeichnung. Wir schlagen einen einheitlichen Rahmen vor, um verschiedene konversationelle RAG-Methoden zu standardisieren und führen eine umfassende Bewertung dieser Methoden auf CORAL durch, was erhebliche Möglichkeiten zur Verbesserung bestehender Ansätze aufzeigt.
Transformer sind aufgrund ihrer hervorragenden Leistung in verschiedenen Bereichen zur vorherrschenden Architektur in Grundlagenmodellen geworden. Allerdings bleibt die erhebliche Kostensteigerung dieser Modelle ein bedeutendes Anliegen. Dieses Problem entsteht hauptsächlich durch ihre Abhängigkeit von einer festen Anzahl von Parametern innerhalb linearer Projektionen. Wenn architektonische Modifikationen (z.B. Kanaldimensionen) eingeführt werden, erfordert das gesamte Modell in der Regel ein Neutraining von Grund auf. Mit zunehmender Modellgröße führt diese Strategie zu immer höheren Rechenkosten und wird untragbar. Um dieses Problem zu überwinden, stellen wir TokenFormer vor, eine nativ skalierbare Architektur, die den Aufmerksamkeitsmechanismus nicht nur für Berechnungen zwischen Eingabetokens nutzt, sondern auch für Interaktionen zwischen Tokens und Modellparametern, wodurch die architektonische Flexibilität verbessert wird. Indem wir Modellparameter als Tokens behandeln, ersetzen wir alle linearen Projektionen in Transformern durch unsere Token-Parameter-Aufmerksamkeitsschicht, in der Eingabetokens als Abfragen und Modellparameter als Schlüssel und Werte fungieren. Diese Umformulierung ermöglicht eine fortschreitende und effiziente Skalierung, ohne ein Neutraining von Grund auf zu erfordern. Unser Modell skaliert von 124M auf 1.4B Parameter, indem schrittweise neue Schlüssel-Wert-Parameterpaare hinzugefügt werden, und erzielt eine Leistung, die mit von Grund auf trainierten Transformern vergleichbar ist, während die Trainingskosten erheblich reduziert werden. Code und Modelle sind verfügbar unter https://github.com/Haiyang-W/TokenFormer.
In den letzten Jahren gab es im Bereich des Reinforcement Learning (RL) einen Trend zu großen Aktionsmodellen, die offline auf umfangreichen Datensätzen über Sequenzmodellierung trainiert werden. Die bestehenden Modelle basieren hauptsächlich auf der Transformer-Architektur, die leistungsstarke Agenten hervorbringt. Aufgrund langsamer Inferenzzeiten sind Transformer-basierte Ansätze jedoch für Echtzeitanwendungen wie Robotik ungeeignet. In letzter Zeit wurden moderne rekurrente Architekturen wie xLSTM und Mamba vorgeschlagen, die ähnliche Parallelisierungsvorteile während des Trainings wie die Transformer-Architektur aufweisen und schnelle Inferenz ermöglichen. In dieser Arbeit untersuchen wir die Eignung dieser modernen rekurrenten Architekturen für große Aktionsmodelle. Daraus resultierend schlagen wir ein Large Recurrent Action Model (LRAM) mit einem xLSTM im Kern vor, das eine Inferenzkomplexität in linearer Zeit und natürliche Sequenzlängenextrapolationsfähigkeiten bietet. Experimente an 432 Aufgaben aus 6 Domänen zeigen, dass LRAM in Bezug auf Leistung und Geschwindigkeit vorteilhaft im Vergleich zu Transformers abschneidet.
Wir präsentieren REM, ein Framework zur Segmentierung einer Vielzahl von Konzepten in Videos, die durch natürliche Sprache beschrieben werden können. Unsere Methode nutzt visuell-sprachliche Repräsentationen, die von Video-Diffusionsmodellen auf Internet-Maßstabsdatensätzen gelernt wurden. Ein Schlüsselerkenntnis unseres Ansatzes besteht darin, so viel wie möglich von der ursprünglichen Repräsentation des generativen Modells zu bewahren, während es auf schmale Referral Object Segmentation-Datensätze feinabgestimmt wird. Als Ergebnis kann unser Framework seltene und ungesehene Objekte präzise segmentieren und verfolgen, obwohl es auf Objektmasken aus einer begrenzten Anzahl von Kategorien trainiert wurde. Darüber hinaus kann es auf nicht-objektbezogene dynamische Konzepte verallgemeinern, wie beispielsweise Wellen, die im Ozean brechen, wie in unserem neu eingeführten Benchmark für Referral Video Process Segmentation (Ref-VPS) gezeigt. Unsere Experimente zeigen, dass REM auf Augenhöhe mit state-of-the-art Ansätzen auf in-domain Datensätzen wie Ref-DAVIS abschneidet, während es sie auf out-of-domain Daten um bis zu zwölf Punkte in Bezug auf die Regionenähnlichkeit übertrifft, indem es die Leistung des Internet-Maßstabs-Vortrainings nutzt.
Große Sprachmodelle (LLMs) erzielen gute Leistungen bei anspruchsvollen Bewertungsmaßstäben für das Denkvermögen, könnten jedoch auch grundlegende Denkfehler machen. Dieses gegensätzliche Verhalten ist verwirrend, wenn es darum geht, die Mechanismen hinter den Denkfähigkeiten von LLMs zu verstehen. Eine Hypothese besagt, dass die zunehmend hohe und nahezu gesättigte Leistung bei gängigen Denkmaßstäben auf die Memorierung ähnlicher Probleme zurückzuführen sein könnte. In diesem Artikel untersuchen wir diese Hypothese systematisch anhand einer quantitativen Messung der Memorierung bei Denkaufgaben, unter Verwendung eines dynamisch generierten logischen Denkmaßstabs, der auf Ritter-und-Knechte-Rätseln basiert. Wir stellten fest, dass LLMs die Trainingsrätsel interpolieren konnten (nahezu perfekte Genauigkeit erreichten), nach Feinabstimmung jedoch scheiterten, wenn diese Rätsel leicht verändert wurden, was darauf hindeutet, dass die Modelle stark auf Memorierung angewiesen sind, um diese Trainingsrätsel zu lösen. Andererseits zeigen wir, dass während die Feinabstimmung zu einer starken Memorierung führt, sie auch die Verallgemeinerungsleistung kontinuierlich verbessert. Tiefgreifende Analysen mit Perturbationstests, Übertragbarkeit zwischen Schwierigkeitsstufen, Untersuchungen der Modellinterna und Feinabstimmung mit falschen Antworten legen nahe, dass die LLMs trotz Memorierung der Trainingsdaten lernen, auf Ritter-und-Knechte-Rätsel zu schließen. Dieses Phänomen deutet darauf hin, dass LLMs ein komplexes Zusammenspiel zwischen Memorierung und echten Denkfähigkeiten aufweisen. Schließlich beleuchtet unsere Analyse mit dem Memorierungswert pro Beispiel, wie LLMs zwischen dem Denken und Memorieren beim Lösen logischer Rätsel wechseln. Unser Code und unsere Daten sind unter https://memkklogic.github.io verfügbar.
Leser können unterschiedliche Ziele in Bezug auf den Text haben, den sie lesen. Können diese Ziele aus dem Muster ihrer Augenbewegungen über den Text entschlüsselt werden? In dieser Arbeit untersuchen wir erstmals, ob es möglich ist, zwei Arten von Leszielen zu entschlüsseln, die im täglichen Leben häufig vorkommen: die Suche nach Informationen und das gewöhnliche Lesen. Unter Verwendung von umfangreichen Eye-Tracking-Daten wenden wir auf diese Aufgabe eine Vielzahl modernster Modelle für Augenbewegungen und Text an, die verschiedene architektonische und Datenrepräsentationsstrategien abdecken, und stellen zudem ein neues Modellensemble vor. Wir evaluieren diese Modelle systematisch auf drei Generalisierungsebenen: neues Textelement, neuer Teilnehmer und die Kombination beider. Wir stellen fest, dass Augenbewegungen äußerst wertvolle Signale für diese Aufgabe enthalten. Darüber hinaus führen wir eine Fehleranalyse durch, die auf früheren empirischen Erkenntnissen zu Unterschieden zwischen gewöhnlichem Lesen und der Suche nach Informationen aufbaut und reichhaltige textuelle Annotationen nutzt. Diese Analyse enthüllt Schlüsseleigenschaften von Textelementen und den Augenbewegungen der Teilnehmer, die zur Schwierigkeit der Aufgabe beitragen.
Mixture-of-Experts (MoE) Modelle verbessern die Effizienz und Skalierbarkeit von dichten Sprachmodellen, indem sie jedes Token in jeder Schicht einer kleinen Anzahl von Experten zuweisen. In diesem Paper zeigen wir, wie ein Angreifer, der seine Anfragen so arrangieren kann, dass sie im selben Batch von Beispielen wie die Anfragen eines Opfers erscheinen, Experten-Auswahl-Routing ausnutzen kann, um das gesamte Anfrage des Opfers vollständig offenzulegen. Wir demonstrieren erfolgreich die Wirksamkeit dieses Angriffs auf ein Zwei-Schicht Mixtral-Modell, indem wir das Verhalten der torch.topk CUDA-Implementierung bei der Behandlung von Gleichständen ausnutzen. Unsere Ergebnisse zeigen, dass wir die gesamte Anfrage mithilfe von O({VM}^2) Anfragen extrahieren können (mit einer Vokabellänge V und einer Anfrage Länge M) oder durchschnittlich 100 Anfragen pro Token in der betrachteten Konfiguration benötigen. Dies ist der erste Angriff, der architektonische Schwachstellen ausnutzt, um Benutzeranfragen zu extrahieren, und führt eine neue Klasse von LLM-Schwachstellen ein.
Open-Source Large Language Models werden zunehmend von Forschern und Praktikern genutzt und erfreuen sich großer Beliebtheit. Während bedeutende Fortschritte bei Open-Weight-Modellen erzielt wurden, ist das Training mit offenem Datenmaterial eine Praxis, die von den führenden Schöpfern von Open-Weight-Modellen noch nicht übernommen wurde. Gleichzeitig arbeiten Forscher daran, Sprachmodelle sicherer zu machen. Wir schlagen eine Datenkuratierungspipeline vor, um schädliche Ausgaben von Modellen, die auf öffentlich zugänglichen Daten trainiert wurden, zu reduzieren. Es gibt einzigartige Herausforderungen bei der Arbeit mit öffentlich zugänglichen Daten, da sich diese Quellen sowohl in Form als auch Inhalt von Webtexten unterscheiden. Viele Quellen sind historische Dokumente und das Ergebnis von optischer Zeichenerkennung (OCR). Folglich sind die derzeit führenden Ansätze zur Toxizitätsfilterung oft unpraktikabel oder ungeeignet für offene Datenmodelle. In diesem Paper stellen wir eine neue vollständig Open-Source-Pipeline für die Toxizitätsfilterung von Open-Data vor. Unsere Beiträge sind dreifach. Wir erstellen einen benutzerdefinierten Trainingsdatensatz, ToxicCommons, der aus Texten besteht, die in fünf verschiedenen Dimensionen klassifiziert wurden (rassen-/herkunftsbasiert, geschlechtsbasiert, religiös, diskriminierungsbasiert aufgrund von Fähigkeiten und gewalttätig). Wir verwenden diesen Datensatz, um einen benutzerdefinierten Klassifizierer, Celadon, zu trainieren, der dazu verwendet werden kann, toxische Inhalte in offenen Daten effizienter und in größerem Umfang zu erkennen. Schließlich beschreiben wir den ausgewogenen Ansatz zur Inhaltsfiltrierung, der die Sicherheitsfilterung optimiert, unter Berücksichtigung der gefilterten Daten, die für das Training verfügbar sind.
Menschen sind mit einem ergänzenden Lernsystem ausgestattet, das das langsame Lernen allgemeiner Weltdynamiken mit der schnellen Speicherung episodischer Erinnerungen aus neuen Erfahrungen verbindet. Bisherige Modelle zur Videoerzeugung konzentrieren sich jedoch hauptsächlich auf das langsame Lernen durch Vortraining mit großen Datenmengen und vernachlässigen die schnelle Lernphase, die für die Speicherung episodischer Erinnerungen entscheidend ist. Diese Vernachlässigung führt zu Inkonsistenzen zwischen zeitlich entfernten Frames bei der Erzeugung längerer Videos, da diese Frames über das Kontextfenster des Modells hinausgehen. Zu diesem Zweck stellen wir SlowFast-VGen vor, ein neuartiges Dual-Speed-Lernsystem für die aktionsgesteuerte Erzeugung langer Videos. Unser Ansatz integriert ein maskiertes bedingtes Video-Diffusionsmodell für das langsame Lernen von Weltdynamiken sowie eine Inferenzzeit-Schnelllernstrategie, die auf einem temporalen LoRA-Modul basiert. Speziell aktualisiert der schnelle Lernprozess seine temporalen LoRA-Parameter basierend auf lokalen Eingaben und Ausgaben, wodurch episodische Erinnerungen effizient in seinen Parametern gespeichert werden. Wir schlagen außerdem einen Slow-Fast-Lernschleifenalgorithmus vor, der die innere Schnelllernschleife nahtlos in die äußere Langsam-Lernschleife integriert und so das Abrufen früherer multi-episodischer Erfahrungen für kontextbewusstes Fähigkeitenlernen ermöglicht. Um das langsame Lernen eines approximativen Weltmodells zu erleichtern, sammeln wir einen groß angelegten Datensatz von 200.000 Videos mit sprachlichen Aktionsannotationen, die eine Vielzahl von Szenarien abdecken. Umfangreiche Experimente zeigen, dass SlowFast-VGen Baselines in verschiedenen Metriken für die aktionsgesteuerte Videoerzeugung übertrifft, einen FVD-Score von 514 im Vergleich zu 782 erreicht und die Konsistenz in längeren Videos beibehält, mit durchschnittlich 0,37 Szenenwechseln gegenüber 0,89. Der Slow-Fast-Lernschleifenalgorithmus verbessert auch signifikant die Leistung bei langfristigen Planungsaufgaben. Projekthomepage: https://slowfast-vgen.github.io
Wir präsentieren einen Leistungsvergleich für große Sprachmodelle, die entwickelt wurden, um eine der wissensintensivsten Aufgaben in der Datenwissenschaft zu bewältigen: das Schreiben von Feature-Engineering-Code, der neben einem tiefen Verständnis des zugrunde liegenden Problems und der Datenstruktur auch Fachkenntnisse erfordert. Das Modell erhält eine Datensatzbeschreibung als Eingabe und wird gebeten, den entsprechenden Code zur Transformation zu generieren. Die Bewertung erfolgt anhand der Verbesserung, die durch ein XGBoost-Modell erzielt wird, das auf dem modifizierten Datensatz im Vergleich zu den Originaldaten angepasst wurde. Durch eine umfassende Evaluation von modernsten Modellen und den Vergleich mit etablierten Leistungsvergleichen zeigen wir, dass das FeatEng unseres Vorschlags die breiten Fähigkeiten von LLMs kostengünstig und effizient bewerten kann, im Gegensatz zu den bestehenden Methoden.
Die Informationssuche im medizinischen Bereich (MIR) ist entscheidend für die Gewinnung relevanter medizinischer Kenntnisse aus verschiedenen Quellen, einschließlich elektronischer Patientenakten, wissenschaftlicher Literatur und medizinischer Datenbanken. Die Erreichung einer effektiven Null-Schuss-Dichtesuche im medizinischen Bereich stellt jedoch aufgrund des Mangels an relevanten Daten mit Etiketten erhebliche Herausforderungen dar. In diesem Artikel stellen wir einen neuartigen Ansatz namens Selbstlernende hypothetische Dokumenteneinbettungen (SL-HyDE) vor, um dieses Problem anzugehen. SL-HyDE nutzt große Sprachmodelle (LLMs) als Generatoren, um hypothetische Dokumente auf der Grundlage einer gegebenen Abfrage zu generieren. Diese generierten Dokumente umfassen den wesentlichen medizinischen Kontext, der einem dichten Sucher dabei hilft, die relevantesten Dokumente zu identifizieren. Das Selbstlern-Framework verfeinert kontinuierlich sowohl die Pseudodokumentengenerierung als auch die Suche und nutzt unlabeled medizinische Korpora, ohne auf relevante Daten mit Etiketten angewiesen zu sein. Darüber hinaus präsentieren wir das Chinese Medical Information Retrieval Benchmark (CMIRB), einen umfassenden Bewertungsrahmen, der auf realen medizinischen Szenarien basiert und fünf Aufgaben und zehn Datensätze umfasst. Durch den Benchmark von zehn Modellen auf CMIRB setzen wir einen strengen Maßstab für die Bewertung von medizinischen Informationssuchsystemen. Experimentelle Ergebnisse zeigen, dass SL-HyDE die bestehenden Methoden in der Genauigkeit der Suche deutlich übertrifft und dabei eine starke Verallgemeinerung und Skalierbarkeit über verschiedene LLM- und Sucher-Konfigurationen zeigt. Die CMIRB-Daten und Bewertungscode sind öffentlich verfügbar unter: https://github.com/CMIRB-benchmark/CMIRB.