Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren InternLM-XComposer-2.5 (IXC-2.5), ein vielseitiges großformatiges Sprachmodell, das lange kontextuelle Eingaben und Ausgaben unterstützt. IXC-2.5 zeichnet sich in verschiedenen Anwendungen zur Text-Bild-Verständnis und -Komposition aus und erreicht GPT-4V-Niveau mit lediglich 7B LLM-Backend. Trainiert mit 24K interleavierten Bild-Text-Kontexten, kann es nahtlos auf 96K lange Kontexte mittels RoPE-Extrapolation erweitert werden. Diese Fähigkeit für lange Kontexte ermöglicht es IXC-2.5, in Aufgaben zu glänzen, die umfangreiche Eingabe- und Ausgabekontexte erfordern. Im Vergleich zur vorherigen Version 2.0 weist InternLM-XComposer-2.5 drei wesentliche Upgrades in der Vision-Sprach-Verständnis auf: (1) Ultra-High Resolution Understanding, (2) Feinabstufung der Videoverständnis und (3) Mehrfach-Bild-Dialog im Multi-Turn-Format. Neben dem Verständnis erweitert sich IXC-2.5 auf zwei überzeugende Anwendungen unter Verwendung zusätzlicher LoRA-Parameter für die Text-Bild-Komposition: (1) Erstellung von Webseiten und (2) Komposition von hochwertigen Text-Bild-Artikeln. IXC-2.5 wurde an 28 Benchmarks evaluiert und übertrifft bestehende Open-Source-Modelle auf 16 Benchmarks. Es übertrifft auch GPT-4V und Gemini Pro auf 16 Schlüsselaufgaben oder konkurriert eng mit ihnen. Das InternLM-XComposer-2.5 ist öffentlich verfügbar unter https://github.com/InternLM/InternLM-XComposer.
Benchmarks, die eng mit den Szenarien der nachgelagerten Anwendungen übereinstimmen, sind entscheidend für die reibungslose Übernahme neuer Forschungsergebnisse im Bereich des tabellarischen maschinellen Lernens (ML). In dieser Arbeit untersuchen wir bestehende tabellarische Benchmarks und stellen zwei gemeinsame Merkmale von tabellarischen Industriedaten fest, die in den für die akademische Gemeinschaft verfügbaren Datensätzen unterrepräsentiert sind. Erstens ändern sich tabellarische Daten in Echtwelt-Einsatzszenarien im Laufe der Zeit häufig. Dies wirkt sich auf die Modellleistung aus und erfordert zeitbasierte Trainings- und Testaufteilungen für eine korrekte Modellbewertung. Dennoch fehlen in bestehenden akademischen tabellarischen Datensätzen oft Zeitstempel-Metadaten, um eine solche Bewertung zu ermöglichen. Zweitens stammen in Produktionsumgebungen ein erheblicher Teil der Datensätze aus umfangreichen Datenerfassungs- und Merkmalsextraktionspipelines. Für jeden spezifischen Datensatz kann dies unterschiedliche Auswirkungen auf die absoluten und relativen Anzahlen von prädiktiven, nicht informativen und korrelierten Merkmalen haben, was wiederum die Modellauswahl beeinflussen kann. Um die genannten Lücken in akademischen Benchmarks zu schließen, stellen wir TabReD vor - eine Sammlung von acht tabellarischen Industriedatensätzen, die eine Vielzahl von Bereichen von Finanzen bis hin zu Lebensmittellieferdiensten abdecken. Wir bewerten eine große Anzahl von tabellarischen ML-Modellen in der funktionsreichen, zeitlich sich entwickelnden Datenumgebung, die durch TabReD ermöglicht wird. Wir zeigen, dass die Bewertung anhand von zeitbasierten Datenaufteilungen zu unterschiedlichen Methodenrangfolgen führt, im Vergleich zur Bewertung anhand von zufälligen Aufteilungen, die in akademischen Benchmarks häufiger sind. Darüber hinaus erzielen auf den TabReD-Datensätzen MLP-ähnliche Architekturen und GBDT die besten Ergebnisse, während sich herausforderndere DL-Modelle noch nicht in ihrer Wirksamkeit bewährt haben.
Die leitlinienfreie Führung (LFF) hat sich als Standardmethode zur Verbesserung der Qualität von bedingten Diffusionsmodellen etabliert. Die Verwendung von LFF erfordert jedoch entweder das Training eines bedingungslosen Modells neben dem Hauptdiffusionsmodell oder die Anpassung des Schulungsverfahrens durch regelmäßiges Einfügen einer Nullbedingung. Es gibt auch keine klare Erweiterung von LFF auf bedingungslose Modelle. In diesem Artikel überdenken wir die Kernprinzipien von LFF und stellen eine neue Methode vor, die unabhängige Bedingungsführung (UBF), die die Vorteile von LFF ohne spezielle Schulungsverfahren bietet. Unser Ansatz optimiert den Schulungsprozess von bedingten Diffusionsmodellen und kann auch während der Inferenz auf jedes vortrainierte bedingte Modell angewendet werden. Darüber hinaus schlagen wir durch die Nutzung der in allen Diffusionsnetzwerken codierten Zeitschrittinformation eine Erweiterung von LFF vor, die als Zeitschrittführung (ZSF) bezeichnet wird und auf jedes Diffusionsmodell, einschließlich bedingungsloser Modelle, angewendet werden kann. Unsere Führungstechniken sind einfach umzusetzen und haben die gleichen Abtastkosten wie LFF. Durch umfangreiche Experimente zeigen wir, dass UBF die Leistung von Standard-LFF bei verschiedenen bedingten Diffusionsmodellen erreicht. Darüber hinaus zeigen wir, dass ZSF die Generierungsqualität ähnlich wie LFF verbessert, ohne auf bedingte Informationen angewiesen zu sein.
Der visuelle Projektor dient als wesentliche Brücke zwischen dem visuellen Encoder und dem Large Language Model (LLM) in einem Multimodalen LLM (MLLM). In der Regel verwenden MLLMs ein einfaches MLP, um alle visuellen Kontexte über eine Eins-zu-Eins-Transformation zu erhalten. Allerdings sind die visuellen Tokens redundant und können bei der Verarbeitung von hochauflösenden Bildern erheblich zunehmen, was die Effizienz von MLLMs erheblich beeinträchtigt. Einige aktuelle Arbeiten haben Resampler oder Abstraktoren eingeführt, um die Anzahl der resultierenden visuellen Tokens zu reduzieren. Leider gelingt es ihnen nicht, feinere Details zu erfassen und die visuellen Schlussfolgerungsfähigkeiten von MLLMs zu untergraben. In dieser Arbeit schlagen wir einen neuartigen visuellen Projektor vor, der ein Grob-zu-Fein-Schema übernimmt, um die angereicherten Merkmale einzuführen und die kondensierten visuellen Tokens zu generieren. Konkret interpolieren wir zunächst die visuellen Merkmale als eine Punktabfrage mit geringer Auflösung, um die Gesamtdarstellung als Grundlage zu liefern. Anschließend führen wir ein Region-zu-Punkt-Injektionsmodul ein, das hochauflösende, mehrschichtige regionsbasierte Hinweise als feinkörnige Referenzschlüssel und -werte verwendet, um sicherzustellen, dass sie vollständig innerhalb der entsprechenden lokalen Kontextregion absorbiert werden. Dieser Schritt aktualisiert effektiv die grobe Punktabfrage und verwandelt sie in eine angereicherte für das nachfolgende LLM-Argumentieren. Umfangreiche Experimente zeigen, dass unser Ansatz die visuellen Tokens um 75% bis 89% komprimiert, während er vergleichbare oder sogar bessere Leistungen über verschiedene Benchmarks mit deutlich höherer Effizienz erzielt. Die Quellcodes sind unter https://github.com/CircleRadon/TokenPacker verfügbar.
In letzter Zeit haben Audio-Generierungsaufgaben beträchtliche Forschungsinteressen geweckt. Eine präzise zeitliche Steuerbarkeit ist entscheidend, um die Audio-Generierung in reale Anwendungen zu integrieren. In dieser Arbeit schlagen wir ein zeitlich gesteuertes Audio-Generierungsframework namens PicoAudio vor. PicoAudio integriert zeitliche Informationen, um die Audio-Generierung durch maßgeschneidertes Modell-Design zu lenken. Es nutzt Datencrawling, Segmentierung, Filterung und Simulation von fein abgestimmten zeitlich ausgerichteten Audio-Text-Daten. Sowohl subjektive als auch objektive Bewertungen zeigen, dass PicoAudio die aktuellen Spitzenmodelle in Bezug auf die zeitliche Steuerbarkeit von Zeitstempel und Auftretenshäufigkeit dramatisch übertrifft. Die generierten Beispiele sind auf der Demo-Website https://PicoAudio.github.io verfügbar.
Diffusionsmodelle (DMs) haben das generative Lernen revolutioniert. Sie nutzen einen Diffusionsprozess, um Daten in eine einfache Gaußverteilung zu kodieren. Allerdings stellt die Kodierung einer komplexen, potenziell multimodalen Datenverteilung in eine einzige kontinuierliche Gaußverteilung möglicherweise ein unnötig herausforderndes Lernproblem dar. Wir schlagen Discrete-Continuous Latent Variable Diffusion Models (DisCo-Diff) vor, um diese Aufgabe zu vereinfachen, indem wir ergänzende diskrete latente Variablen einführen. Wir erweitern DMs um erlernbare diskrete Latente, die mit einem Encoder inferiert werden, und trainieren DM und Encoder end-to-end. DisCo-Diff ist nicht auf vorab trainierte Netzwerke angewiesen, was das Framework universell anwendbar macht. Die diskreten Latenten vereinfachen das Lernen der komplexen Rausch-zu-Daten-Abbildung des DMs erheblich, indem sie die Krümmung der generativen ODE des DMs reduzieren. Ein zusätzlicher autoregressiver Transformer modelliert die Verteilung der diskreten Latenten, ein einfacher Schritt, da DisCo-Diff nur wenige diskrete Variablen mit kleinen Codebüchern erfordert. Wir validieren DisCo-Diff an Spielzeugdaten, mehreren Bildsynthesetasks sowie molekularer Docking, und stellen fest, dass die Einführung diskreter Latenten die Modellleistung konsistent verbessert. Zum Beispiel erzielt DisCo-Diff state-of-the-art FID-Werte auf klassenbedingten ImageNet-64/128 Datensätzen mit ODE-Sampler.
Große Sprachmodelle (LLMs), bekannt für ihre außergewöhnlichen Fähigkeiten im Bereich des logischen Denkens, der Generalisierbarkeit und der Sprachgewandtheit in verschiedenen Bereichen, bieten eine vielversprechende Möglichkeit zur Verbesserung von sprachbezogenen Aufgaben. In diesem Paper konzentrieren wir uns auf die Integration von ausschließlich Decoder-basierten LLMs in die Aufgabe der Sprach-zu-Text-Übersetzung (S2TT). Wir schlagen eine Architektur vor, die es dem LLM ermöglicht, direkt die codierte Sprachrepräsentation zu verarbeiten und den Text zu generieren. Darüber hinaus untersuchen wir die Auswirkungen verschiedener parameter-effizienter Feinabstimmungstechniken und Aufgabenformulierungen. Unser Modell erzielt Spitzenleistungen bei CoVoST 2 und FLEURS im Vergleich zu Modellen, die ohne proprietäre Daten trainiert wurden. Wir führen auch Analysen durch, um die Designentscheidungen unseres vorgeschlagenen Modells zu validieren und Erkenntnisse zur Integration von LLMs in S2TT zu gewinnen.
Große Sprachmodelle (LLMs) sind anfällig für Jailbreaks – Methoden, um schädliche oder allgemein unzulässige Ausgaben zu erzeugen. Sicherheitsmaßnahmen werden entwickelt und auf ihre Wirksamkeit bei der Abwehr von Jailbreak-Angriffen bewertet, was darauf hindeutet, dass Sicherheit mit Robustheit gleichzusetzen ist. Wir behaupten, dass aktuelle Verteidigungsmechanismen wie Ausgabefilter und Feinabstimmung der Ausrichtung grundsätzlich unzureichend sind, um die Sicherheit des Modells zu gewährleisten. Diese Verteidigungen versäumen es, Risiken anzugehen, die aus Dual-Intent-Abfragen und der Fähigkeit resultieren, harmlose Ausgaben zusammenzusetzen, um schädliche Ziele zu erreichen. Um diese kritische Lücke zu schließen, führen wir ein informationstheoretisches Bedrohungsmodell ein, das inferentielle Angreifer bezeichnet, die unzulässige Informationen aus den Modellausgaben ausnutzen, um bösartige Ziele zu erreichen. Wir unterscheiden diese von üblicherweise untersuchten Sicherheitsgegnern, die nur darauf abzielen, Opfermodelle zu zwingen, spezifische unzulässige Ausgaben zu generieren. Wir zeigen die Machbarkeit der Automatisierung inferentieller Angreifer durch Fragezerlegung und Antwortaggregation auf. Um Sicherheitsgarantien zu bieten, definieren wir ein Informationszensurkriterium für Zensurmechanismen, das die Weitergabe unzulässiger Informationen begrenzt. Wir schlagen einen Verteidigungsmechanismus vor, der diese Grenze sicherstellt, und enthüllen einen intrinsischen Sicherheits-Nutzen-Abwägung. Unsere Arbeit bietet das erste theoretisch fundierte Verständnis der Anforderungen für die Veröffentlichung sicherer LLMs und der damit verbundenen Nutzenkosten.
Positionsverzerrung hat sich als ein weit verbreitetes Problem moderner Sprachmodelle (LMs) erwiesen, bei dem die Modelle Inhalte basierend auf ihrer Position innerhalb des gegebenen Kontexts priorisieren. Diese Verzerrung führt oft zu unerwarteten Modellausfällen und beeinträchtigt die Leistung, Robustheit und Zuverlässigkeit in verschiedenen Anwendungen. Unsere mechanistische Analyse führt die Positionsverzerrung auf zwei Komponenten zurück, die in nahezu allen hochmodernen LMs verwendet werden: kausale Aufmerksamkeit und relative Positionscodierungen. Insbesondere stellen wir fest, dass kausale Aufmerksamkeit im Allgemeinen dazu führt, dass Modelle entfernte Inhalte bevorzugen, während relative Positionscodierungen wie RoPE aufgrund der Analyse von abrufgestützten Frage-Antworten (QA) nahegelegene bevorzugen. Darüber hinaus zeigt unsere empirische Studie zur Objekterkennung, dass Positionsverzerrung auch in Bildsprachmodellen (VLMs) vorhanden ist. Basierend auf den obigen Analysen schlagen wir vor, die Positionsverzerrung, die durch unterschiedliche Eingabesegmentreihenfolgen (z. B. Optionen in LM-als-Richter, abgerufene Dokumente in QA) verursacht wird, auf eine TRAINING-FREE ZERO-SHOT Art zu ELIMINIEREN. Unsere Methode ändert die kausale Aufmerksamkeit in bidirektionale Aufmerksamkeit zwischen Segmenten und nutzt die Aufmerksamkeitswerte des Modells, um die relative Reihenfolge der Segmente zu bestimmen, anstatt die in den Eingabeaufforderungen bereitgestellte Reihenfolge zu verwenden, wodurch Positionsinvariante Inferenz (PINE) auf Segmentebene ermöglicht wird. Durch die Beseitigung der Positionsverzerrung erzielen Modelle eine bessere Leistung und Zuverlässigkeit in nachgelagerten Aufgaben, bei denen Positionsverzerrung weit verbreitet ist, wie LM-als-Richter und abrufgestützte QA. Bemerkenswert ist, dass PINE besonders nützlich ist, wenn LMs zur Bewertung von Schlussfolgerungspaaren angepasst werden: Es bietet in den meisten Fällen durchweg 8 bis 10 Prozentpunkte Leistungsgewinne und lässt Llama-3-70B-Instruct sogar besser abschneiden als GPT-4-0125-preview auf dem RewardBench-Schlussfolgerungsunterbereich.