papers.description
Diffusionsbasierte große Sprachmodelle (dLLMs) sind kürzlich als leistungsstarke Alternative zu autoregressiven LLMs aufgetaucht, die durch parallele Dekodierung und bidirektionale Modellierung schnellere Inferenz und größere Interaktivität bieten. Trotz starker Leistungen in der Code-Generierung und Textauffüllung identifizieren wir jedoch ein grundlegendes Sicherheitsproblem: bestehende Alignment-Mechanismen schützen dLLMs nicht vor kontextbewussten, maskierten Eingabe-Adversarial-Prompts, was neue Schwachstellen offenlegt. Zu diesem Zweck präsentieren wir DIJA, die erste systematische Studie und Jailbreak-Angriffsframework, das einzigartige Sicherheitslücken von dLLMs ausnutzt. Konkret konstruiert unser vorgeschlagenes DIJA adversariale, verschachtelte Masken-Text-Prompts, die die Textgenerierungsmechanismen von dLLMs, d.h. bidirektionale Modellierung und parallele Dekodierung, ausnutzen. Die bidirektionale Modellierung veranlasst das Modell, kontextuell konsistente Ausgaben für maskierte Abschnitte zu erzeugen, selbst wenn diese schädlich sind, während die parallele Dekodierung die dynamische Filterung und Ablehnungsstichproben unsicherer Inhalte durch das Modell einschränkt. Dies führt dazu, dass Standard-Alignment-Mechanismen versagen und schädliche Vervollständigungen in alignment-optimierten dLLMs ermöglichen, selbst wenn schädliches Verhalten oder unsichere Anweisungen direkt im Prompt offengelegt werden. Durch umfassende Experimente zeigen wir, dass DIJA bestehende Jailbreak-Methoden deutlich übertrifft und eine bisher übersehene Bedrohungsfläche in dLLM-Architekturen aufdeckt. Insbesondere erreicht unsere Methode bis zu 100 % keyword-basierte ASR auf Dream-Instruct, übertrifft den stärksten bisherigen Baseline, ReNeLLM, um bis zu 78,5 % in evaluator-basierter ASR auf JailbreakBench und um 37,7 Punkte im StrongREJECT-Score, ohne dass schädliche Inhalte im Jailbreak-Prompt umgeschrieben oder versteckt werden müssen. Unsere Ergebnisse unterstreichen die dringende Notwendigkeit, das Sicherheits-Alignment in dieser aufstrebenden Klasse von Sprachmodellen neu zu überdenken. Der Code ist verfügbar unter https://github.com/ZichenWen1/DIJA.
Die russische Sprachsynthese stellt besondere Herausforderungen dar, darunter Vokalreduktion, Konsonantentönung, variable Betonungsmuster, Homographenmehrdeutigkeit und unnatürliche Intonation. Dieses Papier stellt Balalaika vor, einen neuartigen Datensatz, der mehr als 2.000 Stunden studioqualitativer russischer Sprache mit umfassenden textuellen Annotationen, einschließlich Interpunktion und Betonungsmarkierungen, umfasst. Experimentelle Ergebnisse zeigen, dass Modelle, die mit Balalaika trainiert wurden, sowohl in der Sprachsynthese als auch in Verbesserungsaufgaben deutlich besser abschneiden als Modelle, die mit bestehenden Datensätzen trainiert wurden. Wir erläutern den Aufbau des Datensatzes, die Annotationsmethodik und die Ergebnisse vergleichender Bewertungen.
Wir präsentieren Franca (ausgesprochen Fran-ka): die erste vollständig quelloffene (Daten, Code, Gewichte) Vision-Foundation-Model, die in vielen Fällen die Leistung von proprietären State-of-the-Art-Modellen wie DINOv2, CLIP, SigLIPv2 usw. erreicht oder sogar übertrifft. Unser Ansatz basiert auf einer transparenten Trainingspipeline, die von Web-SSL inspiriert ist, und verwendet öffentlich verfügbare Daten: ImageNet-21K und eine Teilmenge von ReLAION-2B. Neben der Modellfreigabe adressieren wir kritische Einschränkungen in SSL-Clustering-Methoden. Während moderne Modelle darauf angewiesen sind, Bildmerkmale mithilfe von Clustering-Algorithmen wie Sinkhorn-Knopp großen Codebüchern zuzuordnen, berücksichtigen sie nicht die inhärente Mehrdeutigkeit in der Clustering-Semantik. Um dies zu lösen, führen wir einen parameter-effizienten, Multi-Head-Clustering-Projektor ein, der auf verschachtelten Matryoshka-Repräsentationen basiert. Dieses Design verfeinert Merkmale schrittweise in immer feinere Cluster, ohne die Modellgröße zu erhöhen, was sowohl Leistung als auch Speichereffizienz ermöglicht. Zusätzlich schlagen wir eine neuartige Strategie zur Positionsentflechtung vor, die Positionsverzerrungen explizit aus dichten Repräsentationen entfernt und dadurch die Kodierung von semantischem Inhalt verbessert. Dies führt zu konsistenten Verbesserungen in mehreren Downstream-Benchmarks und demonstriert den Nutzen sauberer Merkmalsräume. Unsere Beiträge setzen einen neuen Standard für transparente, leistungsstarke Vision-Modelle und ebnen den Weg zu reproduzierbareren und generalisierbareren Foundation-Modellen für die breitere KI-Community. Der Code und die Modell-Checkpoints sind unter https://github.com/valeoai/Franca verfügbar.
Im Zeitalter der Large Language Models (LLMs) hat sich Alignment als ein grundlegendes, aber herausforderndes Problem bei der Entwicklung zuverlässiger, kontrollierbarer und leistungsfähiger maschineller Intelligenz erwiesen. Der jüngste Erfolg von Reasoning-Modellen und konversationellen KI-Systemen hat die entscheidende Rolle von Reinforcement Learning (RL) bei der Verbesserung dieser Systeme hervorgehoben, was zu einem gesteigerten Forschungsinteresse an der Schnittstelle zwischen RL und LLM-Alignment geführt hat. Dieses Papier bietet einen umfassenden Überblick über die jüngsten Fortschritte im Bereich des LLM-Alignments aus der Perspektive des Inverse Reinforcement Learning (IRL), wobei die Unterschiede zwischen den in LLM-Alignment eingesetzten RL-Techniken und denen in konventionellen RL-Aufgaben betont werden. Insbesondere unterstreichen wir die Notwendigkeit, neuronale Belohnungsmodelle aus menschlichen Daten zu konstruieren, und diskutieren die formalen und praktischen Implikationen dieses Paradigmenwechsels. Wir beginnen mit der Einführung grundlegender Konzepte des RL, um Lesern, die mit dem Feld nicht vertraut sind, eine Basis zu bieten. Anschließend untersuchen wir die jüngsten Fortschritte in dieser Forschungsagenda und diskutieren zentrale Herausforderungen und Chancen bei der Durchführung von IRL für LLM-Alignment. Über methodische Überlegungen hinaus beleuchten wir praktische Aspekte, einschließlich Datensätze, Benchmarks, Evaluationsmetriken, Infrastruktur sowie recheneffiziente Trainings- und Inferenztechniken. Schließlich ziehen wir Erkenntnisse aus der Literatur zu Sparse-Reward-RL heran, um offene Fragen und potenzielle Forschungsrichtungen zu identifizieren. Durch die Synthese von Ergebnissen aus verschiedenen Studien streben wir an, eine strukturierte und kritische Übersicht über das Feld zu bieten, ungelöste Herausforderungen hervorzuheben und vielversprechende zukünftige Richtungen zur Verbesserung des LLM-Alignments durch RL- und IRL-Techniken aufzuzeigen.
Das Entwirren von Inhalt und Stil aus einem einzelnen Bild, bekannt als Content-Style Decomposition (CSD), ermöglicht die Neukontextualisierung des extrahierten Inhalts und die Stilisierung der extrahierten Stile, was eine größere kreative Flexibilität in der visuellen Synthese bietet. Während neuere Personalisierungsmethoden die Zerlegung von explizitem Inhalt und Stil untersucht haben, bleiben sie auf Diffusionsmodelle zugeschnitten. Inzwischen hat Visual Autoregressive Modeling (VAR) als vielversprechende Alternative mit einem Next-Scale-Vorhersageparadigma an Bedeutung gewonnen und erreicht eine Leistung, die mit der von Diffusionsmodellen vergleichbar ist. In diesem Artikel untersuchen wir VAR als generatives Framework für CSD und nutzen seinen skalenweisen Generierungsprozess für eine verbesserte Entwirrung. Zu diesem Zweck schlagen wir CSD-VAR vor, eine neuartige Methode, die drei Schlüsselinnovationen einführt: (1) eine skalenbewusste alternierende Optimierungsstrategie, die die Darstellung von Inhalt und Stil mit ihren jeweiligen Skalen abstimmt, um die Trennung zu verbessern, (2) eine SVD-basierte Rektifizierungsmethode, um das Eindringen von Inhalten in Stildarstellungen zu minimieren, und (3) einen erweiterten Key-Value (K-V)-Speicher, der die Bewahrung der Inhaltsidentität verbessert. Um diese Aufgabe zu bewerten, führen wir CSD-100 ein, einen speziell für die Content-Style-Decomposition entwickelten Datensatz, der verschiedene Motive in verschiedenen künstlerischen Stilen darstellt. Experimente zeigen, dass CSD-VAR frühere Ansätze übertrifft und eine überlegene Inhaltsbewahrung und Stilisierungstreue erreicht.
Dieses Papier konzentriert sich auf monolithische Multimodale Large Language Models (MLLMs), die visuelle Kodierung und Sprachdekodierung in einem einzigen Modell integrieren. Bestehende Strukturen und Vorab-Trainingsstrategien für monolithische MLLMs leiden oft unter instabiler Optimierung und katastrophalem Vergessen. Um diese Herausforderungen zu bewältigen, besteht unser zentraler Ansatz darin, einen neuen visuellen Parameterraum in ein vortrainiertes LLM einzubetten, wodurch ein stabiles Lernen visuellen Wissens aus verrauschten Daten durch Delta-Tuning ermöglicht wird. Basierend auf diesem Prinzip führen wir zunächst Mono-InternVL ein, ein fortschrittliches monolithisches MLLM, das eine Reihe von visuellen Experten durch eine multimodale Mixture-of-Experts-Architektur integriert. Zusätzlich entwerfen wir ein innovatives Endogenes Visuelles Vorab-Training (EViP) für Mono-InternVL, um dessen visuelle Fähigkeiten durch progressives Lernen zu maximieren. Mono-InternVL erzielt wettbewerbsfähige Leistungen im Vergleich zu bestehenden MLLMs, führt jedoch auch zu relativ hohen Datenkosten. Daher präsentieren wir weiterhin Mono-InternVL-1.5, ein kostengünstigeres und leistungsstärkeres monolithisches MLLM, das mit einem verbesserten EViP (EViP++) ausgestattet ist. EViP++ führt zusätzliche visuelle Aufmerksamkeitsexperten in Mono-InternVL-1.5 ein und organisiert den Vorab-Trainingsprozess auf effiziente Weise neu. Während der Inferenz beinhaltet es einen fusionierten CUDA-Kernel, um die MoE-Operationen zu beschleunigen. Mit diesen Designs reduziert Mono-InternVL-1.5 die Trainings- und Inferenzkosten erheblich, während es dennoch wettbewerbsfähige Leistungen im Vergleich zu Mono-InternVL beibehält. Um unseren Ansatz zu bewerten, führen wir umfangreiche Experimente über 15 Benchmarks durch. Die Ergebnisse zeigen, dass Mono-InternVL bestehende monolithische MLLMs auf 12 von 15 Benchmarks übertrifft, z.B. eine Verbesserung von +114 Punkten gegenüber Emu3 auf OCRBench. Im Vergleich zu seinem modularen Gegenstück, d.h. InternVL-1.5, erreicht Mono-InternVL-1.5 eine ähnliche multimodale Leistung, während die Latenz des ersten Tokens um bis zu 69% reduziert wird. Code und Modelle sind unter https://github.com/OpenGVLab/Mono-InternVL veröffentlicht.
Die Vorhersage maskierter Token hat sich als leistungsstarkes Pre-Training-Ziel in den Bereichen Sprache, Vision und Sprache etabliert und bietet das Potenzial, diese verschiedenen Modalitäten durch eine einzige Pre-Training-Aufgabe zu vereinheitlichen. Ihre Anwendung für das allgemeine Audioverständnis bleibt jedoch weitgehend unerforscht, wobei BEATs das einzige bemerkenswerte Beispiel ist. BEATs wurde aufgrund des Fehlens von Open-Source-Pre-Training-Code nur begrenzt modifiziert. Darüber hinaus wurde BEATs ausschließlich auf AudioSet trainiert, was seine breitere Anwendbarkeit in nachgelagerten Aufgaben einschränkt. Um diese Lücken zu schließen, präsentieren wir OpenBEATs, ein Open-Source-Framework, das BEATs durch Multi-Domain-Audio-Pre-Training erweitert. Wir führen umfassende Bewertungen über sechs Arten von Aufgaben, fünfundzwanzig Datensätze und drei Audio-Domänen durch, einschließlich Audio-Argumentationsaufgaben wie Audio-Frage-Antwort, Implikation und Beschriftung. OpenBEATs erreicht state-of-the-art Leistungen auf sechs Bioakustik-Datensätzen, zwei Umweltgeräusch-Datensätzen und fünf Argumentations-Datensätzen und schneidet besser ab als Modelle mit mehr als einer Milliarde Parametern bei einem Viertel ihrer Parametergröße. Diese Ergebnisse demonstrieren die Effektivität von Multi-Domain-Datensätzen und der Aufgabe der Vorhersage maskierter Token, um allgemeine Audio-Repräsentationen zu erlernen. Um weitere Forschung und Reproduzierbarkeit zu fördern, veröffentlichen wir den gesamten Pre-Training- und Evaluierungscode, vortrainierte und feinabgestimmte Checkpoints sowie Trainingsprotokolle unter https://shikhar-s.github.io/OpenBEATs.
Multimodale große Sprachmodelle (MLLMs) haben das cross-modale Verständnis revolutioniert, kämpfen jedoch weiterhin mit Halluzinationen – fabrizierten Inhalten, die visuellen Eingaben widersprechen. Bisherige Methoden zur Minderung von Halluzinationen verursachen entweder prohibitive Rechenkosten oder führen zu Verteilungsunterschieden zwischen Trainingsdaten und Modellausgaben. Wir identifizieren eine entscheidende Erkenntnis: Halluzinationen entstehen überwiegend in den frühen Phasen der Textgenerierung und pflanzen sich durch nachfolgende Ausgaben fort. Um dies zu adressieren, schlagen wir **SENTINEL** (**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning) vor, ein Framework, das die Abhängigkeit von menschlichen Annotationen beseitigt. Konkret bootstrappen wir zunächst hochwertige Präferenzpaare innerhalb der Domäne, indem wir Modellausgaben iterativ sammeln, die Existenz von Objekten durch Abgleich mit zwei Open-Vocabulary-Detektoren validieren und Sätze in halluzinierte/nicht halluzinierte Kategorien einteilen. Anschließend nutzen wir kontextkohärente positive Proben und halluzinierte negative Proben, um iterativ kontextbewusste Präferenzdaten aufzubauen. Schließlich trainieren wir Modelle mit einem kontextbewussten Präferenzverlust (C-DPO), der diskriminatives Lernen auf Satzebene betont, wo Halluzinationen zunächst auftreten. Experimentelle Ergebnisse zeigen, dass SENTINEL Halluzinationen um über 90\% im Vergleich zum ursprünglichen Modell reduzieren kann und die bisherige State-of-the-Art-Methode sowohl bei Halluzinations-Benchmarks als auch bei allgemeinen Fähigkeits-Benchmarks übertrifft, was seine Überlegenheit und Generalisierungsfähigkeit demonstriert. Die Modelle, Datensätze und der Code sind unter https://github.com/pspdada/SENTINEL verfügbar.
Als primäres Medium für die moderne Informationsverbreitung haben soziale Netzwerkdienste (SNS) ein rasantes Wachstum erfahren, was erhebliche Herausforderungen für die Plattforminhaltsverwaltung und die Verbesserung der Interaktionsqualität mit sich gebracht hat. In jüngster Zeit hat die Entwicklung großer Sprachmodelle (LLMs) potenzielle Lösungen geboten, doch konzentrieren sich bestehende Studien auf isolierte Aufgaben, die nicht nur einen abnehmenden Nutzen aus der Datenskalierung in einzelnen Szenarien erfahren, sondern auch nicht flexibel an verschiedene reale Kontexte angepasst werden können. Um diese Herausforderungen zu bewältigen, stellen wir RedOne vor, ein domänenspezifisches LLM, das entwickelt wurde, um den Leistungsengpass von Einzelaufgaben-Baselines zu überwinden und eine umfassende Grundlage für SNS zu schaffen. RedOne wurde durch eine dreistufige Trainingsstrategie entwickelt, die aus fortgesetztem Vortraining, überwachtem Feintuning und Präferenzoptimierung besteht, unter Verwendung eines groß angelegten realen Datensatzes. Durch umfangreiche Experimente behält RedOne starke allgemeine Fähigkeiten bei und erreicht im Durchschnitt eine Verbesserung von bis zu 14,02 % über 8 Hauptaufgaben in SNS und 7,56 % im SNS-bilingualen Bewertungsbenchmark im Vergleich zu Basismodellen. Darüber hinaus reduzierte RedOne in Onlinetests die Expositionsrate bei der Erkennung schädlicher Inhalte um 11,23 % und verbesserte die Klickseitenrate bei der Post-View-Suche um 14,95 % im Vergleich zu auf Einzelaufgaben feinabgestimmten Basismodellen. Diese Ergebnisse etablieren RedOne als ein robustes domänenspezifisches LLM für SNS, das eine hervorragende Generalisierung über verschiedene Aufgaben hinweg und vielversprechende Anwendbarkeit in realen Szenarien demonstriert.
Die Bewertung großer Sprachmodelle ist eine komplexe Aufgabe, für die mehrere Ansätze vorgeschlagen wurden. Der gängigste ist die Verwendung automatisierter Benchmarks, bei denen LLMs Multiple-Choice-Fragen zu verschiedenen Themen beantworten müssen. Diese Methode weist jedoch gewisse Einschränkungen auf, wobei die geringe Korrelation mit menschlichen Bewertungen am bedenklichsten ist. Ein alternativer Ansatz besteht darin, dass Menschen die LLMs bewerten. Dies wirft Skalierbarkeitsprobleme auf, da es eine große und wachsende Anzahl von Modellen zu bewerten gibt, was traditionelle Studien, die auf der Rekrutierung einer Anzahl von Bewertern und deren Rangfolge der Modellantworten basieren, unpraktisch (und kostspielig) macht. Ein weiterer Ansatz ist die Nutzung öffentlicher Arenen, wie der beliebten LM-Arena, auf der jeder Benutzer frei Modelle zu jeder Frage bewerten und die Antworten zweier Modelle einordnen kann. Die Ergebnisse werden dann zu einer Modellrangfolge verarbeitet. Ein zunehmend wichtiger Aspekt von LLMs ist ihr Energieverbrauch, und daher ist es von Interesse zu bewerten, wie sich das Energiebewusstsein auf die Entscheidungen von Menschen bei der Auswahl eines Modells auswirkt. In diesem Artikel stellen wir GEA, die Generative Energy Arena, vor, eine Arena, die Informationen zum Energieverbrauch des Modells in den Bewertungsprozess einbezieht. Es werden auch vorläufige Ergebnisse präsentiert, die mit GEA erzielt wurden und zeigen, dass die meisten Benutzer, wenn sie sich des Energieverbrauchs bewusst sind, kleinere und energieeffizientere Modelle bevorzugen. Dies deutet darauf hin, dass bei den meisten Benutzerinteraktionen die zusätzlichen Kosten und der Energieaufwand der komplexeren und leistungsstärkeren Modelle keinen Anstieg der wahrgenommenen Qualität der Antworten bieten, der ihren Einsatz rechtfertigen würde.
Diese Forschung präsentiert einen Rahmen für das quantitative Risikomanagement in volatilen Märkten, mit einem spezifischen Fokus auf Expectile-basierte Methoden, die auf den FTSE 100 Index angewendet werden. Traditionelle Risikomaße wie Value-at-Risk (VaR) haben erhebliche Schwächen in Phasen von Marktstress gezeigt, wie während der Finanzkrise 2008 und in nachfolgenden volatilen Perioden deutlich wurde. Diese Studie entwickelt ein fortschrittliches Expectile-basiertes Framework, das die Mängel konventioneller Quantil-basierter Ansätze adressiert, indem es eine höhere Sensitivität für Verluste in den Randbereichen und eine verbesserte Stabilität unter extremen Marktbedingungen bietet. Die Forschung verwendet einen Datensatz, der zwei Jahrzehnte von FTSE 100 Renditen umfasst und Perioden hoher Volatilität, Marktcrashs und Erholungsphasen einschließt. Unsere Methodik führt neuartige mathematische Formulierungen für Expectile-Regressionsmodelle ein, verbesserte Schwellenwertbestimmungstechniken unter Verwendung von Zeitreihenanalysen und robuste Backtesting-Verfahren. Die empirischen Ergebnisse zeigen, dass Expectile-basiertes Value-at-Risk (EVaR) traditionelle VaR-Maße über verschiedene Konfidenzniveaus und Marktbedingungen hinweg konsistent übertrifft. Das Framework zeigt eine überlegene Leistung in volatilen Perioden, mit reduziertem Modellrisiko und verbesserter Vorhersagegenauigkeit. Darüber hinaus stellt die Studie praktische Implementierungsrichtlinien für Finanzinstitute bereit und liefert evidenzbasierte Empfehlungen für regulatorische Compliance und Portfoliomanagement. Die Ergebnisse tragen wesentlich zur Literatur im Bereich des finanziellen Risikomanagements bei und bieten praktische Werkzeuge für Praktiker, die mit volatilen Marktumgebungen umgehen.