papers.description
Vision-Language-Action (VLA)-Modelle überbrücken typischerweise die Lücke zwischen Wahrnehmungs- und Aktionsräumen, indem sie ein großes Vision-Language-Modell (VLM) mit Roboterdaten vortrainieren. Obwohl dieser Ansatz die Leistung erheblich steigert, verursacht er auch erhebliche Trainingskosten. In diesem Artikel untersuchen wir, wie Vision-Language (VL)-Darstellungen effektiv mit Aktionen (A) verbunden werden können. Wir stellen VLA-Adapter vor, ein neuartiges Paradigma, das darauf abzielt, die Abhängigkeit von VLA-Modellen von groß angelegten VLMs und umfangreichem Vortraining zu verringern. Zu diesem Zweck analysieren wir zunächst systematisch die Wirksamkeit verschiedener VL-Bedingungen und präsentieren wichtige Erkenntnisse darüber, welche Bedingungen für die Überbrückung von Wahrnehmungs- und Aktionsräumen entscheidend sind. Basierend auf diesen Erkenntnissen schlagen wir ein leichtgewichtiges Policy-Modul mit Bridge Attention vor, das die optimale Bindung autonom in den Aktionsraum einfügt. Auf diese Weise erreicht unsere Methode eine hohe Leistung mit nur einem 0,5-Milliarden-Parameter-Backbone, ohne jegliches Vortraining mit Roboterdaten. Umfangreiche Experimente auf simulierten und realen Robotik-Benchmarks zeigen, dass VLA-Adapter nicht nur eine state-of-the-art Leistung erzielt, sondern auch die bisher schnellste Inferenzgeschwindigkeit bietet. Darüber hinaus ermöglicht VLA-Adapter dank des vorgeschlagenen fortschrittlichen Überbrückungsparadigmas das Training eines leistungsstarken VLA-Modells in nur 8 Stunden auf einer einzigen Consumer-GPU, wodurch die Hürde für die Bereitstellung des VLA-Modells erheblich gesenkt wird. Projektseite: https://vla-adapter.github.io/.
Human-Centric Video Generation (HCVG)-Methoden zielen darauf ab, menschliche Videos aus multimodalen Eingaben wie Text, Bild und Audio zu synthetisieren. Bestehende Methoden haben Schwierigkeiten, diese heterogenen Modalitäten effektiv zu koordinieren, was auf zwei Herausforderungen zurückzuführen ist: die Knappheit von Trainingsdaten mit gepaarten Triplett-Bedingungen und die Schwierigkeit, die Teilaufgaben der Subjekterhaltung und der Audio-Visual-Synchronisation mit multimodalen Eingaben zu koordinieren. In dieser Arbeit präsentieren wir HuMo, ein einheitliches HCVG-Framework für die kollaborative multimodale Steuerung. Für die erste Herausforderung erstellen wir einen hochwertigen Datensatz mit vielfältigen und gepaarten Texten, Referenzbildern und Audio. Für die zweite Herausforderung schlagen wir ein zweistufiges progressives multimodales Trainingsparadigma mit aufgabenspezifischen Strategien vor. Für die Aufgabe der Subjekterhaltung verwenden wir die minimal-invasive Bildinjektionsstrategie, um die Prompt-Following- und visuelle Generierungsfähigkeiten des Basismodells zu bewahren. Für die Aufgabe der Audio-Visual-Synchronisation schlagen wir neben der üblicherweise verwendeten Audio-Cross-Attention-Schicht eine Focus-by-Predicting-Strategie vor, die das Modell implizit dazu anleitet, Audio mit Gesichtsregionen zu assoziieren. Für das gemeinsame Lernen der Steuerbarkeiten über multimodale Eingaben hinweg bauen wir auf zuvor erworbenen Fähigkeiten auf und integrieren schrittweise die Aufgabe der Audio-Visual-Synchronisation. Während der Inferenz entwerfen wir für eine flexible und fein abgestimmte multimodale Steuerung eine zeitadaptive Classifier-Free Guidance-Strategie, die die Führungsgewichte dynamisch über die Denoising-Schritte hinweg anpasst. Umfangreiche experimentelle Ergebnisse zeigen, dass HuMo spezialisierte State-of-the-Art-Methoden in Teilaufgaben übertrifft und ein einheitliches Framework für die kollaborative multimodalbedingte HCVG etabliert. Projektseite: https://phantom-video.github.io/HuMo.
Vision-Language-Action (VLA)-Modelle haben sich kürzlich als leistungsstarkes Paradigma für die robotische Manipulation etabliert. Trotz erheblicher Fortschritte, die durch groß angelegtes Vortraining und überwachtes Feinabstimmen (Supervised Fine-Tuning, SFT) ermöglicht wurden, stehen diese Modelle vor zwei grundlegenden Herausforderungen: (i) die Knappheit und hohen Kosten groß angelegter, von Menschen gesteuerter Roboter-Trajektorien, die für die Skalierung von SFT erforderlich sind, und (ii) die begrenzte Generalisierungsfähigkeit bei Aufgaben, die eine Verschiebung der Verteilung beinhalten. Jüngste Durchbrüche bei Large Reasoning Models (LRMs) zeigen, dass Reinforcement Learning (RL) die schrittweise Argumentationsfähigkeit dramatisch verbessern kann, was die naheliegende Frage aufwirft: Kann RL in ähnlicher Weise die langfristige, schrittweise Aktionsplanung von VLA verbessern? In dieser Arbeit stellen wir SimpleVLA-RL vor, ein effizientes RL-Framework, das speziell für VLA-Modelle entwickelt wurde. Aufbauend auf veRL führen wir VLA-spezifische Trajektorienabtastung, skalierbare Parallelisierung, Multi-Umgebungs-Rendering und optimierte Verlustberechnung ein. Bei der Anwendung auf OpenVLA-OFT erreicht SimpleVLA-RL Spitzenleistungen auf LIBERO und übertrifft sogar pi_0 auf RoboTwin 1.0 & 2.0 mit den von uns eingeführten explorativen Strategien. SimpleVLA-RL reduziert nicht nur die Abhängigkeit von groß angelegten Daten und ermöglicht eine robuste Generalisierung, sondern übertrifft SFT auch bemerkenswert in realen Aufgaben. Darüber hinaus identifizieren wir ein neuartiges Phänomen, das wir „Pushcut“ nennen, während des RL-Trainings, bei dem die Policy zuvor unbekannte Muster entdeckt, die über die im vorherigen Trainingsprozess beobachteten hinausgehen. Github: https://github.com/PRIME-RL/SimpleVLA-RL
Große Sprachmodelle (LLMs) verfügen über breites Weltwissen und eine starke allgemeine Fähigkeit zum logischen Schlussfolgern, doch sie haben Schwierigkeiten, aus vielen in Kontext gegebenen Beispielen bei standardmäßigen maschinellen Lernaufgaben (ML) zu lernen, d. h., viele Beispiele rein über In-Context-Lernen (ICL) ohne Gradientenabstieg zu nutzen. Wir stellen MachineLearningLM vor, ein portables Framework für fortgesetztes Vortraining, das ein allgemeines LLM mit robuster In-Context-ML-Fähigkeit ausstattet, während es sein allgemeines Wissen und seine Schlussfolgerungsfähigkeit für breitere Chat-Workflows bewahrt. Unser Vortrainingsverfahren synthetisiert ML-Aufgaben aus Millionen von strukturellen kausalen Modellen (SCMs), die Beispielanzahlen von bis zu 1.024 abdecken. Wir beginnen mit einem Random-Forest-Lehrer, der baumbasierte Entscheidungsstrategien in das LLM destilliert, um die Robustheit in der numerischen Modellierung zu stärken. Alle Aufgaben werden mit einem token-effizienten Prompt serialisiert, wodurch 3x bis 6x mehr Beispiele pro Kontextfenster ermöglicht und ein bis zu 50x höherer amortisierter Durchsatz über Batch-Inferenz erreicht wird. Trotz eines bescheidenen Setups (Qwen-2.5-7B-Instruct mit LoRA-Rang 8) übertrifft MachineLearningLM starke LLM-Baselines (z. B. GPT-5-mini) im Durchschnitt um etwa 15 % bei Out-of-Distribution-Tabellenklassifikationen in den Bereichen Finanzen, Physik, Biologie und Gesundheitswesen. Es zeigt ein bemerkenswertes Many-Shot-Skalierungsgesetz: Die Genauigkeit steigt monoton an, wenn die In-Context-Demonstrationen von 8 auf 1.024 anwachsen. Ohne jegliches aufgaben spezifisches Training erreicht es Random-Forest-Genauigkeit über hunderte von Beispielen hinweg. Allgemeine Chat-Fähigkeiten, einschließlich Wissen und Schlussfolgerung, bleiben erhalten: Es erreicht 75,4 % auf MMLU.
Sprach-zu-Sprach-Großsprachmodelle (SLLMs) ziehen zunehmend Aufmerksamkeit auf sich. Abgeleitet von textbasierten Großsprachmodellen (LLMs), zeigen SLLMs oft eine Verschlechterung in ihren Wissens- und Schlussfolgerungsfähigkeiten. Wir stellen die Hypothese auf, dass diese Einschränkung darauf zurückzuführen ist, dass die aktuellen Trainingsparadigmen für SLLMs die akustisch-semantische Lücke im Merkmalsrepräsentationsraum nicht überbrücken. Um dieses Problem zu lösen, schlagen wir EchoX vor, das semantische Repräsentationen nutzt und dynamisch Sprachtrainingsziele generiert. Dieser Ansatz integriert sowohl akustisches als auch semantisches Lernen und ermöglicht es EchoX, starke Schlussfolgerungsfähigkeiten als Sprach-Großsprachmodell zu bewahren. Experimentelle Ergebnisse zeigen, dass EchoX mit etwa sechstausend Stunden Trainingsdaten eine fortgeschrittene Leistung auf mehreren wissensbasierten Frage-Antwort-Benchmarks erzielt. Das Projekt ist unter https://github.com/FreedomIntelligence/EchoX verfügbar.
Jüngste Fortschritte in der audio-gesteuerten Avatar-Videogenerierung haben die audiovisuelle Realität erheblich verbessert. Bisherige Methoden behandeln die Anweisungssteuerung jedoch lediglich als Low-Level-Tracking, das durch akustische oder visuelle Hinweise gesteuert wird, ohne den kommunikativen Zweck, der durch die Anweisungen vermittelt wird, zu modellieren. Diese Einschränkung beeinträchtigt ihre narrative Kohärenz und Charakterausdruckskraft. Um diese Lücke zu schließen, stellen wir Kling-Avatar vor, ein neuartiges kaskadiertes Framework, das multimodale Anweisungsverständnis mit fotorealistischer Porträtgenerierung vereint. Unser Ansatz folgt einer zweistufigen Pipeline. In der ersten Stufe entwerfen wir einen multimodalen Large Language Model (MLLM)-Regisseur, der ein Blueprint-Video auf der Grundlage verschiedener Anweisungssignale erzeugt und damit High-Level-Semantiken wie Charakterbewegungen und Emotionen steuert. In der zweiten Stufe generieren wir, geleitet von Blueprint-Keyframes, mehrere Sub-Clips parallel mithilfe einer First-Last-Frame-Strategie. Dieses global-lokale Framework bewahrt feinste Details, während es gleichzeitig die High-Level-Intention hinter multimodalen Anweisungen treu kodiert. Unsere parallele Architektur ermöglicht zudem eine schnelle und stabile Generierung von langen Videos, was sie für reale Anwendungen wie Livestreaming und Vlogging mit digitalen Menschen geeignet macht. Um unsere Methode umfassend zu evaluieren, haben wir einen Benchmark mit 375 kuratierten Proben erstellt, die verschiedene Anweisungen und herausfordernde Szenarien abdecken. Umfangreiche Experimente zeigen, dass Kling-Avatar in der Lage ist, lebendige, flüssige und lange Videos mit bis zu 1080p und 48 fps zu generieren und dabei überlegene Leistungen in Bezug auf Lippensynchronisationsgenauigkeit, Emotions- und Dynamikausdruck, Anweisungskontrollierbarkeit, Identitätserhaltung und domänenübergreifende Generalisierung zu erzielen. Diese Ergebnisse etablieren Kling-Avatar als neuen Benchmark für semantisch fundierte, hochauflösende audio-gesteuerte Avatar-Synthese.
Bei langfristigen Aufgaben stehen aktuelle Agenten, die auf Large Language Models (LLMs) basieren, vor einer erheblichen Herausforderung: spärliche, ergebnisbasierte Belohnungen erschweren die Zuordnung von Erfolg zu Zwischenschritten. Bisherige Methoden konzentrieren sich hauptsächlich darauf, dichte Belohnungssignale zu erzeugen, um das Lernen zu steuern, entweder durch traditionelle Reinforcement-Learning-Techniken wie Inverse Reinforcement Learning oder durch die Verwendung von Process Reward Models für schrittweise Rückmeldungen. In diesem Artikel identifizieren wir ein grundlegendes Problem in den Lern dynamiken von LLMs: Die Größe der Policy-Gradienten ist inhärent mit der Entropie gekoppelt, was zu ineffizient kleinen Aktualisierungen für selbstsichere, korrekte Aktionen führt und potenziell destabilisierende große Aktualisierungen für unsichere Aktionen verursacht. Um dies zu lösen, schlagen wir Entropy-Modulated Policy Gradients (EMPG) vor, ein Framework, das das Lernsignal basierend auf schrittweiser Unsicherheit und dem endgültigen Aufgaben ergebnis neu kalibriert. EMPG verstärkt Aktualisierungen für selbstsichere, korrekte Aktionen, bestraft selbstsichere Fehler und dämpft Aktualisierungen von unsicheren Schritten, um die Exploration zu stabilisieren. Wir führen zudem einen Bonus-Term für zukünftige Klarheit ein, der Agenten dazu anregt, vorhersehbarere Lösungswege zu finden. Durch umfassende Experimente zu drei anspruchsvollen Agenten-Aufgaben – WebShop, ALFWorld und Deep Search – zeigen wir, dass EMPG erhebliche Leistungssteigerungen erzielt und starke Policy-Gradienten-Baselines deutlich übertrifft. Die Projektseite ist unter https://empgseed-seed.github.io/ verfügbar.
Die Weiterentwicklung von Open-Source-Text-zu-Bild (T2I)-Modellen wurde durch das Fehlen groß angelegter, auf logisches Denken ausgerichteter Datensätze und umfassender Evaluierungsbenchmarks behindert, was zu einer Leistungslücke im Vergleich zu führenden Closed-Source-Systemen führte. Um diese Herausforderung zu bewältigen, stellen wir FLUX-Reason-6M und PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark) vor. FLUX-Reason-6M ist ein umfangreicher Datensatz, der aus 6 Millionen hochwertigen, FLUX-generierten Bildern und 20 Millionen zweisprachigen (Englisch und Chinesisch) Beschreibungen besteht, die speziell zur Vermittlung komplexer Denkprozesse entwickelt wurden. Die Bilder sind nach sechs Schlüsselmerkmalen organisiert: Imagination, Entität, Textdarstellung, Stil, Emotion und Komposition, und es wird ein expliziter Generation Chain-of-Thought (GCoT) entworfen, um detaillierte Aufschlüsselungen der Bildgenerierungsschritte zu liefern. Die gesamte Datenkuratierung nimmt 15.000 A100-GPU-Tage in Anspruch und stellt der Community eine Ressource zur Verfügung, die bisher außerhalb großer Industrielabore unerreichbar war. PRISM-Bench bietet einen neuartigen Evaluierungsstandard mit sieben verschiedenen Kategorien, darunter eine anspruchsvolle Long-Text-Herausforderung unter Verwendung von GCoT. Durch sorgfältig gestaltete Prompts nutzt es fortschrittliche Vision-Sprache-Modelle für eine differenzierte, menschenähnliche Bewertung der Prompt-Bild-Ausrichtung und der Bildästhetik. Unsere umfangreiche Evaluierung von 19 führenden Modellen auf PRISM-Bench deckt kritische Leistungslücken auf und hebt spezifische Bereiche hervor, die Verbesserungen erfordern. Unser Datensatz, Benchmark und Evaluierungscode werden veröffentlicht, um die nächste Welle der auf logisches Denken ausgerichteten T2I-Generation zu katalysieren. Projektseite: https://flux-reason-6m.github.io/.
In diesem Artikel führen wir ein aufschlussreiches Paradigma durch die Linse des Auto-Encoders ein – Verstehen als Encoder (I2T), der Bilder in Text komprimiert, und Generierung als Decoder (T2I), der Bilder aus diesem Text rekonstruiert. Indem wir die Rekonstruktionsgenauigkeit als einheitliches Trainingsziel verwenden, erzwingen wir einen kohärenten bidirektionalen Informationsfluss zwischen den Prozessen des Verstehens und der Generierung, was gegenseitige Vorteile bringt. Um dies zu implementieren, schlagen wir UAE vor, ein neuartiges Framework für einheitliches multimodales Lernen. Wir beginnen mit dem Pre-Training des Decoders mit groß angelegten, langen Bildbeschreibungen, um feinkörnige semantische und komplexe räumliche Beziehungen zu erfassen. Anschließend schlagen wir Unified-GRPO mittels Reinforcement Learning (RL) vor, das drei Phasen umfasst: (1) Eine Cold-Start-Phase, um sowohl Encoder als auch Decoder sanft mit einem semantischen Rekonstruktionsverlust zu initialisieren; (2) Generierung für Verstehen, bei der der Encoder trainiert wird, informative Beschreibungen zu generieren, die die Rekonstruktionsqualität des Decoders maximieren und damit dessen visuelles Verständnis verbessern; (3) Verstehen für Generierung, bei der der Decoder verfeinert wird, um aus diesen Beschreibungen zu rekonstruieren, wodurch er gezwungen wird, jedes Detail zu nutzen und seine Fähigkeit zur Befolgung langer Kontextanweisungen sowie seine Generierungsgenauigkeit zu verbessern. Zur Bewertung führen wir Unified-Bench ein, den ersten Benchmark, der speziell darauf ausgelegt ist, den Grad der Vereinheitlichung der UMMs zu bewerten. Ein überraschender „Aha-Moment“ ergibt sich im Bereich des multimodalen Lernens: Mit fortschreitendem RL produziert der Encoder autonom beschreibendere Texte, während der Decoder gleichzeitig eine tiefgreifende Fähigkeit zeigt, diese komplexen Beschreibungen zu verstehen, was zu Rekonstruktionen von beeindruckender Genauigkeit führt.
Erhebliche Fortschritte wurden im Bereich der räumlichen Intelligenz erzielt, die sowohl die räumliche Rekonstruktion als auch die Erkundung der Welt umfassen. Die Skalierbarkeit und die realitätsnahe Genauigkeit aktueller Modelle bleiben jedoch stark durch den Mangel an groß angelegten, hochwertigen Trainingsdaten eingeschränkt. Obwohl mehrere Datensätze Kamerapositionsinformationen bereitstellen, sind diese in der Regel in Bezug auf Umfang, Vielfalt und Annotationsreichtum begrenzt, insbesondere für reale dynamische Szenen mit exakten Kamerabewegungen. Zu diesem Zweck haben wir SpatialVID gesammelt, einen Datensatz, der aus einer großen Sammlung von Videos in natürlicher Umgebung mit vielfältigen Szenen, Kamerabewegungen und dichten 3D-Annotationen wie Kamerapositionen pro Frame, Tiefeninformationen und Bewegungsanweisungen besteht. Konkret haben wir mehr als 21.000 Stunden Rohvideo gesammelt und diese durch einen hierarchischen Filterungsprozess in 2,7 Millionen Clips verarbeitet, die insgesamt 7.089 Stunden dynamischen Inhalts umfassen. Ein anschließender Annotationsprozess bereichert diese Clips mit detaillierten räumlichen und semantischen Informationen, einschließlich Kamerapositionen, Tiefenkarten, dynamischen Masken, strukturierten Beschreibungen und serialisierten Bewegungsanweisungen. Die Analyse der Datenstatistiken von SpatialVID zeigt eine Fülle und Vielfalt, die direkt die Generalisierungsfähigkeit und Leistung von Modellen verbessern, und etabliert den Datensatz als eine zentrale Ressource für die Video- und 3D-Vision-Forschungsgemeinschaft.
Große Audio-Sprachmodelle (Large Audio Language Models, LALMs) entwickeln sich rasant, doch ihre Bewertung bleibt aufgrund ineffizienter Toolkits, die einen fairen Vergleich und eine systematische Beurteilung einschränken, eine Herausforderung. Aktuelle Frameworks leiden unter drei kritischen Problemen: langsamer Verarbeitung, die groß angelegte Studien behindert, inkonsistenter Prompt-Gestaltung, die die Reproduzierbarkeit beeinträchtigt, und begrenzter Aufgabenabdeckung, die wichtige Fähigkeiten zur Audio-Analyse vernachlässigt. Wir stellen AU-Harness vor, ein effizientes und umfassendes Bewertungsframework für LALMs. Unser System erreicht eine Beschleunigung von bis zu 127 % gegenüber bestehenden Toolkits durch optimierte Batch-Verarbeitung und parallele Ausführung, was bisher unpraktikable groß angelegte Bewertungen ermöglicht. Wir bieten standardisierte Prompt-Protokolle und flexible Konfigurationen für einen fairen Modellvergleich in verschiedenen Szenarien. Zusätzlich führen wir zwei neue Bewertungskategorien ein: LLM-Adaptive Diarisierung für das zeitliche Audio-Verständnis und gesprochene Sprachlogik für komplexe audio-basierte kognitive Aufgaben. Durch die Bewertung von über 380 Aufgaben zeigen wir erhebliche Lücken in aktuellen LALMs auf, insbesondere im zeitlichen Verständnis und bei komplexen gesprochenen Sprachlogik-Aufgaben. Unsere Ergebnisse verdeutlichen auch einen Mangel an Standardisierung in der Instruktionsmodalität, der in Audio-Benchmarks vorhanden ist und zu Leistungsunterschieden von bis zu 9,5 absoluten Punkten bei anspruchsvollen komplexen Instruktionsfolge-Aufgaben führen kann. AU-Harness bietet sowohl praktische Bewertungswerkzeuge als auch Einblicke in Modellgrenzen und fördert so die systematische Entwicklung von LALMs.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) ist ein leistungsstarkes Paradigma zur Verbesserung der Fähigkeit von Large Language Models (LLMs) zum logischen Schlussfolgern. Dennoch erkunden aktuelle RLVR-Methoden oft unzureichend, was zu vorzeitiger Konvergenz und Entropiekollaps führt. Um diese Herausforderung zu bewältigen, führen wir Curiosity-Driven Exploration (CDE) ein, ein Framework, das das intrinsische Neugiergefühl des Modells nutzt, um die Exploration zu steuern. Wir formalisieren Neugier mit Signalen sowohl des Aktors als auch des Kritikers: Für den Aktor verwenden wir die Perplexität über seine generierte Antwort, und für den Kritiker nutzen wir die Varianz von Wertschätzungen aus einer Multi-Head-Architektur. Beide Signale dienen als Explorationsbonus innerhalb des RLVR-Frameworks, um das Modell zu leiten. Unsere theoretische Analyse zeigt, dass der Akteur-basierte Bonus inhärent übermäßig selbstsichere Fehler bestraft und die Vielfalt unter korrekten Antworten fördert; darüber hinaus verbinden wir den Kritiker-basierten Bonus mit dem etablierten zählbasierten Explorationsbonus in RL. Empirisch erzielt unsere Methode eine Verbesserung von etwa +3 Punkten gegenüber dem Standard-RLVR mit GRPO/PPO auf AIME-Benchmarks. Eine weitere Analyse identifiziert einen Kalibrierungskollaps-Mechanismus innerhalb von RLVR, der Einblicke in häufige Fehlermodi von LLMs bietet.
Encoder-only-Sprachmodelle werden häufig für eine Vielzahl von Standardaufgaben des maschinellen Lernens verwendet, darunter Klassifikation und Retrieval. Allerdings gab es in jüngster Zeit nur wenig Forschung zu Encoder-Modellen, insbesondere im Hinblick auf mehrsprachige Modelle. Wir stellen mmBERT vor, ein Encoder-only-Sprachmodell, das auf 3T Token mehrsprachiger Texte in über 1800 Sprachen vortrainiert wurde. Um mmBERT zu entwickeln, führen wir mehrere neuartige Elemente ein, darunter einen inversen Maskenratenplan und ein inverses Temperatur-Sampling-Verhältnis. Wir fügen über 1700 ressourcenarme Sprachen erst während der Abklingphase zum Datenmix hinzu und zeigen, dass dies die Leistung dramatisch steigert und den Nutzen aus der relativ geringen Menge an Trainingsdaten maximiert. Obwohl diese ressourcenarmen Sprachen nur in der kurzen Abklingphase berücksichtigt werden, erreichen wir eine ähnliche Klassifikationsleistung wie Modelle von OpenAI’s o3 und Google’s Gemini 2.5 Pro. Insgesamt zeigen wir, dass mmBERT die vorherige Modellgeneration bei Klassifikations- und Retrieval-Aufgaben deutlich übertrifft – sowohl für ressourcenreiche als auch für ressourcenarme Sprachen.
Das Verständnis von Diagrammen stellt eine entscheidende Herausforderung für die Fähigkeiten von Vision-Language-Modellen (VLMs) dar. Bisherige Ansätze weisen gravierende Einschränkungen auf: Einige verlassen sich auf externe Werkzeuge, was sie anfällig und durch ein vordefiniertes Toolkit begrenzt macht, während andere spezialisierte Modelle feinabstimmen, die oft eine einzige Denkstrategie verfolgen, wie beispielsweise textbasierte Ketten von Gedanken (Chain-of-Thought, CoT). Die Zwischenschritte textbasierter Denkprozesse sind schwer zu überprüfen, was die Nutzung von Verstärkungslernsignalen erschwert, die faktische Genauigkeit belohnen. Um dies zu adressieren, schlagen wir einen Code-as-Thought (CaT)-Ansatz vor, der die visuellen Informationen eines Diagramms in einem überprüfbaren, symbolischen Format darstellt. Unsere zentrale Erkenntnis ist, dass diese Strategie adaptiv sein muss: Eine feste, rein codebasierte Implementierung scheitert konsequent bei komplexen Diagrammen, bei denen eine symbolische Darstellung ungeeignet ist. Diese Erkenntnis führt uns zur Einführung der Visual Programmability: einer erlernbaren Eigenschaft, die bestimmt, ob ein Diagramm-Frage-Paar besser mit Code oder durch direkte visuelle Analyse gelöst werden sollte. Wir implementieren dieses Konzept in einem adaptiven Framework, in dem ein VLM lernt, zwischen dem CaT-Pfad und einem direkten visuellen Denkpfad zu wählen. Die Auswahlstrategie des Modells wird mit Verstärkungslernen unter Verwendung eines neuartigen dualen Belohnungssystems trainiert. Dieses System kombiniert eine Daten-Genauigkeits-Belohnung, um das Modell in Fakten zu verankern und numerische Halluzinationen zu verhindern, mit einer Entscheidungs-Belohnung, die dem Modell beibringt, wann es welche Strategie verwenden soll, und es daran hindert, sich auf einen einzigen Denkmodus zu beschränken. Experimente zeigen eine starke und robuste Leistung über diverse Diagramm-Verständnis-Benchmarks hinweg. Unsere Arbeit zeigt, dass VLMs nicht nur gelehrt werden können, zu denken, sondern auch, wie sie denken sollen, indem sie dynamisch den optimalen Denkpfad für jede Aufgabe auswählen.
Das Verständnis von 3D-Raumbeziehungen bleibt eine wesentliche Einschränkung aktueller Vision-Language-Modelle (VLMs). Bisherige Arbeiten haben dieses Problem durch die Erstellung von räumlichen Frage-Antwort-Datensätzen (QA) basierend auf Einzelbildern oder Innenraumvideos adressiert. Allerdings verlassen sich reale, verkörperte KI-Agenten wie Roboter und selbstfahrende Autos typischerweise auf egozentrische, multiview-Beobachtungen. In diesem Zusammenhang stellen wir Ego3D-Bench vor, einen neuen Benchmark, der entwickelt wurde, um die räumlichen Fähigkeiten von VLMs anhand von egozentrischen, multiview-Außendaten zu bewerten. Ego3D-Bench umfasst über 8.600 QA-Paare, die unter erheblicher Beteiligung menschlicher Annotatoren erstellt wurden, um Qualität und Vielfalt zu gewährleisten. Wir bewerten 16 state-of-the-art VLMs, darunter GPT-4o, Gemini1.5-Pro, InternVL3 und Qwen2.5-VL. Unsere Ergebnisse zeigen eine deutliche Leistungslücke zwischen menschlichen Bewertungen und der Leistung der VLMs, was verdeutlicht, dass aktuelle VLMs noch nicht das menschliche Verständnis von räumlichen Zusammenhängen erreichen. Um diese Lücke zu schließen, schlagen wir Ego3D-VLM vor, ein Post-Training-Framework, das die 3D-räumliche Argumentation von VLMs verbessert. Ego3D-VLM generiert eine kognitive Karte basierend auf geschätzten globalen 3D-Koordinaten, was zu einer durchschnittlichen Verbesserung von 12 % bei Multiple-Choice-QA und 56 % bei der absoluten Entfernungsschätzung führt. Ego3D-VLM ist modular und kann in jedes bestehende VLM integriert werden. Zusammen bieten Ego3D-Bench und Ego3D-VLM wertvolle Werkzeuge, um das menschliche Verständnis von räumlichen Zusammenhängen in realen, multiview-Umgebungen voranzutreiben.
Obwohl das Contrastive Language-Image Pre-training (CLIP) eine starke Leistung über verschiedene Vision-Aufgaben hinweg zeigt, stehen seiner Anwendung im Bereich der Personenrepräsentationslernens zwei kritische Herausforderungen gegenüber: (i) die Knappheit von groß angelegten, annotierten Vision-Sprache-Daten, die sich auf personenzentrierte Bilder konzentrieren, und (ii) die inhärenten Einschränkungen des globalen kontrastiven Lernens, das Schwierigkeiten hat, diskriminative lokale Merkmale, die für feinkörnige Zuordnungen entscheidend sind, beizubehalten, während es gleichzeitig anfällig für verrauschte Text-Tokens bleibt. Diese Arbeit verbessert CLIP für das Personenrepräsentationslernen durch synergetische Fortschritte in der Datenkuratierung und der Modellarchitektur. Zunächst entwickeln wir eine rauschresistente Datenkonstruktionspipeline, die die In-Context-Lernfähigkeiten von MLLMs nutzt, um automatisch webbasierte Bilder zu filtern und zu beschriften. Dies führt zu WebPerson, einem groß angelegten Datensatz von 5M hochwertigen personenzentrierten Bild-Text-Paaren. Zweitens führen wir das GA-DMS (Gradient-Attention Guided Dual-Masking Synergetic) Framework ein, das die cross-modale Ausrichtung verbessert, indem es verrauschte Text-Tokens basierend auf dem Gradient-Attention-Ähnlichkeitswert adaptiv maskiert. Zusätzlich integrieren wir maskierte Token-Vorhersageziele, die das Modell dazu zwingen, informative Text-Tokens vorherzusagen, wodurch das feinkörnige semantische Repräsentationslernen verbessert wird. Umfangreiche Experimente zeigen, dass GA-DMS state-of-the-art Leistungen über mehrere Benchmarks hinweg erzielt.
Das Aufkommen von Sprachmodellen mit langen Kontextfenstern, die sich über Millionen von Tokens erstrecken, hat neue Möglichkeiten für anspruchsvolles Code-Verständnis und die Bewertung von Softwareentwicklung geschaffen. Wir stellen LoCoBench vor, einen umfassenden Benchmark, der speziell entwickelt wurde, um langkontextfähige LLMs (Large Language Models) in realistischen, komplexen Softwareentwicklungsszenarien zu bewerten. Im Gegensatz zu bestehenden Code-Bewertungsbenchmarks, die sich auf die Vervollständigung einzelner Funktionen oder Aufgaben mit kurzem Kontext konzentrieren, adressiert LoCoBench die kritische Lücke in der Bewertung langkontextfähiger Fähigkeiten, die das Verständnis gesamter Codebasen, das Denken über mehrere Dateien hinweg und die Aufrechterhaltung architektonischer Konsistenz in groß angelegten Softwaresystemen erfordern. Unser Benchmark bietet 8.000 Bewertungsszenarien, die systematisch über 10 Programmiersprachen hinweg generiert wurden, mit Kontextlängen von 10K bis 1M Tokens, einer 100-fachen Variation, die eine präzise Bewertung der Leistungsabnahme bei langen Kontexten in realistischen Softwareentwicklungsumgebungen ermöglicht. LoCoBench führt 8 Aufgabenkategorien ein, die wesentliche langkontextfähige Fähigkeiten erfassen: Architekturverständnis, dateiübergreifendes Refactoring, mehrsitzige Entwicklung, Fehleruntersuchung, Funktionsimplementierung, Code-Verständnis, Integrationstests und Sicherheitsanalyse. Durch eine 5-Phasen-Pipeline erstellen wir vielfältige, hochwertige Szenarien, die LLMs dazu herausfordern, über komplexe Codebasen in einem bisher unerreichten Maßstab nachzudenken. Wir stellen ein umfassendes Bewertungsframework mit 17 Metriken über 4 Dimensionen vor, darunter 8 neue Bewertungsmetriken, die in einem LoCoBench Score (LCBS) kombiniert werden. Unsere Bewertung von state-of-the-art langkontextfähigen Modellen zeigt erhebliche Leistungslücken auf und demonstriert, dass das Verständnis langer Kontexte in der komplexen Softwareentwicklung eine bedeutende, ungelöste Herausforderung darstellt, die mehr Aufmerksamkeit erfordert. LoCoBench ist verfügbar unter: https://github.com/SalesforceAIResearch/LoCoBench.
Gaussian Splatting (GS), eine kürzlich entwickelte Technik zur Umwandlung diskreter Punkte in kontinuierliche räumliche Darstellungen, hat vielversprechende Ergebnisse in der 3D-Szenenmodellierung und der 2D-Bildsuperauflösung gezeigt. In diesem Artikel untersuchen wir ihr ungenutztes Potenzial für die Bildinpainting, die sowohl lokal kohärente Pixel-Synthese als auch global konsistente semantische Wiederherstellung erfordert. Wir schlagen das erste Bildinpainting-Framework basierend auf 2D-Gaussian Splatting vor, das unvollständige Bilder in ein kontinuierliches Feld von 2D-Gaussian-Splat-Koeffizienten kodiert und das endgültige Bild über einen differenzierbaren Rasterisierungsprozess rekonstruiert. Das kontinuierliche Rendering-Paradigma von GS fördert inhärent die Pixel-Kohärenz in den inpainting-Ergebnissen. Um Effizienz und Skalierbarkeit zu verbessern, führen wir eine patch-basierte Rasterisierungsstrategie ein, die den Speicherbedarf reduziert und die Inferenz beschleunigt. Für globale semantische Konsistenz integrieren wir Merkmale eines vortrainierten DINO-Modells. Wir beobachten, dass die globalen Merkmale von DINO natürlicherweise robust gegenüber kleinen fehlenden Regionen sind und effektiv angepasst werden können, um die semantische Ausrichtung in Szenarien mit großen Masken zu leiten, wodurch sichergestellt wird, dass der inpainting-Inhalt kontextuell konsistent mit der umgebenden Szene bleibt. Umfangreiche Experimente auf Standard-Benchmarks zeigen, dass unsere Methode sowohl in quantitativen Metriken als auch in der wahrgenommenen Qualität wettbewerbsfähige Leistungen erzielt und damit eine neue Richtung für die Anwendung von Gaussian Splatting in der 2D-Bildverarbeitung etabliert.
Unser Team, All You Need Is A Fuzzing Brain, war einer von sieben Finalisten im Artificial Intelligence Cyber Challenge (AIxCC) von DARPA und belegte den vierten Platz in der Endrunde. Während des Wettbewerbs entwickelten wir ein Cyber Reasoning System (CRS), das autonom 28 Sicherheitslücken – darunter sechs bisher unbekannte Zero-Day-Schwachstellen – in realen Open-Source-Projekten in C und Java entdeckte und 14 davon erfolgreich patchte. Das vollständige CRS ist Open Source und unter https://github.com/o2lab/afc-crs-all-you-need-is-a-fuzzing-brain verfügbar. Dieses Papier bietet eine detaillierte technische Beschreibung unseres CRS, mit einem besonderen Schwerpunkt auf den LLM-gestützten Komponenten und Strategien. Aufbauend auf dem AIxCC führen wir zudem ein öffentliches Leaderboard ein, das den Benchmarking-Zustand der neuesten LLMs bei der Erkennung und Behebung von Schwachstellen anhand des AIxCC-Datensatzes misst. Das Leaderboard ist unter https://o2lab.github.io/FuzzingBrain-Leaderboard/ verfügbar.
Die visuelle Navigation mit nur einer einzelnen Kamera und einer topologischen Karte hat sich in letzter Zeit als attraktive Alternative zu Methoden etabliert, die zusätzliche Sensoren und 3D-Karten erfordern. Dies wird typischerweise durch einen „bildrelativen“ Ansatz erreicht, bei dem die Steuerung aus einem gegebenen Paar aus aktueller Beobachtung und Zielbild geschätzt wird. Allerdings haben bildbasierte Repräsentationen der Welt ihre Grenzen, da Bilder streng an die Pose und die physische Verkörperung des Agenten gebunden sind. Im Gegensatz dazu bieten Objekte, als Eigenschaft der Karte, eine verkörperungs- und trajektorieninvariante Weltrepräsentation. In dieser Arbeit stellen wir ein neues Paradigma des Lernens einer „objektrelativen“ Steuerung vor, das mehrere wünschenswerte Eigenschaften aufweist: a) neue Routen können durchlaufen werden, ohne strikt vorherige Erfahrungen nachahmen zu müssen, b) das Problem der Steuerungsvorhersage kann vom Lösen des Bildabgleichproblems entkoppelt werden, und c) eine hohe Invarianz kann bei der cross-verkörperungsbasierten Bereitstellung für Variationen sowohl in Trainings-Test- als auch in Kartierungs-Ausführungsszenarien erreicht werden. Wir schlagen eine topometrische Kartenrepräsentation in Form eines „relativen“ 3D-Szenengraphen vor, die verwendet wird, um informativere objektbasierte globale Pfadplanungskosten zu erhalten. Wir trainieren einen lokalen Controller, genannt „ObjectReact“, der direkt auf einer hochrangigen „WayObject Costmap“-Repräsentation basiert und den Bedarf an expliziten RGB-Eingaben eliminiert. Wir demonstrieren die Vorteile des Lernens einer objektrelativen Steuerung gegenüber ihrem bildrelativen Gegenstück bei Variationen der Sensorhöhe und in mehreren Navigationsaufgaben, die das zugrunde liegende räumliche Verständnis herausfordern, z. B. das Navigieren einer Kartentrajektorie in umgekehrter Richtung. Wir zeigen weiterhin, dass unsere rein simulierte Policy gut auf reale Indoor-Umgebungen verallgemeinern kann. Code und ergänzendes Material sind über die Projektseite zugänglich: https://object-react.github.io/
Jüngste Fortschritte bei großen visuell-sprachlichen Modellen (LVLMs) haben eine starke Leistung bei allgemeinen medizinischen Aufgaben gezeigt. Ihre Wirksamkeit in spezialisierten Bereichen wie der Zahnmedizin bleibt jedoch weitgehend unerforscht. Insbesondere Panorama-Röntgenaufnahmen, eine weit verbreitete Bildgebungsmethode in der oralen Radiologie, stellen aufgrund dichter anatomischer Strukturen und subtiler pathologischer Hinweise interpretative Herausforderungen dar, die von bestehenden medizinischen Benchmarks oder Instruktionsdatensätzen nicht erfasst werden. Zu diesem Zweck führen wir MMOral ein, den ersten groß angelegten multimodalen Instruktionsdatensatz und Benchmark, der speziell für die Interpretation von Panorama-Röntgenaufnahmen entwickelt wurde. MMOral besteht aus 20.563 annotierten Bildern, die mit 1,3 Millionen Instruktionsfolgeinstanzen über verschiedene Aufgabentypen hinweg gepaart sind, darunter Attributextraktion, Berichterstellung, visuelles Frage-Antworten und bildgestützte Dialoge. Darüber hinaus präsentieren wir MMOral-Bench, eine umfassende Evaluationssuite, die fünf Schlüsseldimensionen der zahnmedizinischen Diagnostik abdeckt. Wir evaluieren 64 LVLMs auf MMOral-Bench und stellen fest, dass selbst das leistungsstärkste Modell, GPT-4o, nur eine Genauigkeit von 41,45 % erreicht, was erhebliche Einschränkungen der aktuellen Modelle in diesem Bereich offenbart. Um den Fortschritt in diesem spezifischen Bereich zu fördern, schlagen wir auch OralGPT vor, das ein überwachtes Fein-Tuning (SFT) auf Qwen2.5-VL-7B mit unserem sorgfältig kuratierten MMOral-Instruktionsdatensatz durchführt. Bemerkenswerterweise führt eine einzige Epoche des SFT zu erheblichen Leistungssteigerungen für LVLMs, z. B. zeigt OralGPT eine Verbesserung von 24,73 %. Sowohl MMOral als auch OralGPT haben ein erhebliches Potenzial als kritische Grundlage für die intelligente Zahnmedizin und ermöglichen klinisch relevantere multimodale KI-Systeme im zahnmedizinischen Bereich. Der Datensatz, das Modell, der Benchmark und die Evaluationssuite sind unter https://github.com/isbrycee/OralGPT verfügbar.
Ein zentrales Paradoxon bei der Feinabstimmung von Large Language Models (LLMs) mit Reinforcement Learning mit verifizierbarer Belohnung (RLVR) ist die häufige Verschlechterung der Mehrfachversuchsleistung (Pass@k) trotz Verbesserungen in der Einzelversuchsgenauigkeit (Pass@1). Dies geht oft mit katastrophalem Vergessen einher, bei dem Modelle zuvor erworbene Fähigkeiten verlieren. Obwohl verschiedene Methoden vorgeschlagen wurden, wurden die Wahl und Funktion des Divergenzterms überraschend wenig als proaktive Lösung untersucht. Wir argumentieren, dass standardmäßige RLVR-Ziele – sowohl solche, die die modus-suchenden reverse KL-Divergenz verwenden, als auch solche, die ganz auf einen Divergenzterm verzichten – einen entscheidenden Mechanismus zur Wissensbewahrung vermissen lassen. Die reverse-KL beschleunigt diesen Verfall aktiv, indem sie die Policy verengt, während ihr Fehlen keinen Schutz gegen das Abweichen des Modells von seiner vielfältigen Wissensbasis bietet. Wir schlagen einen grundlegenden Perspektivenwechsel vor: den Divergenzterm selbst als Lösung zu nutzen. Unser Framework, Diversity-Preserving Hybrid RL (DPH-RL), nutzt massenabdeckende f-Divergenzen (wie forward-KL und JS-Divergenz) als Wiederholungsmechanismus. Durch kontinuierlichen Bezug auf die initiale Policy zwingt dieser Ansatz das Modell, eine breite Lösungsabdeckung beizubehalten. Umfangreiche Experimente zur Mathematik- und SQL-Generierung zeigen, dass DPH-RL nicht nur die Pass@k-Verschlechterung behebt, sondern sowohl Pass@1 als auch Pass@k innerhalb und außerhalb der Domäne verbessert. Darüber hinaus ist DPH-RL trainings-effizienter, da es f-Divergenzen mithilfe von Generatorfunktionen berechnet, was nur Stichproben aus der initialen Policy und kein Online-Referenzmodell erfordert. Unsere Arbeit beleuchtet eine entscheidende, übersehene Achse zur Verbesserung von RLVR und zeigt, dass die richtige Auswahl eines Divergenzmaßes ein mächtiges Werkzeug für den Aufbau allgemeinerer und vielfältigerer Denkmodelle ist.
Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) haben neue Möglichkeiten für verkörperte Intelligenz eröffnet, die multimodales Verständnis, logisches Denken und Interaktion sowie kontinuierliche räumliche Entscheidungsfindung ermöglichen. Dennoch stehen aktuelle, auf MLLMs basierende verkörperte Systeme vor zwei kritischen Herausforderungen. Erstens, die Lücke in der geometrischen Anpassungsfähigkeit: Modelle, die ausschließlich mit 2D-Eingaben trainiert oder mit fest kodierter 3D-Geometrie versehen wurden, leiden entweder unter unzureichenden räumlichen Informationen oder eingeschränkter 2D-Generalisierung, was zu einer schlechten Anpassungsfähigkeit bei Aufgaben mit unterschiedlichen räumlichen Anforderungen führt. Zweitens, die Lücke in den verkörperten Einschränkungen: Frühere Arbeiten vernachlässigen oft die physischen Beschränkungen und Fähigkeiten realer Roboter, was zu Aufgabenplänen führt, die theoretisch gültig, aber praktisch undurchführbar sind. Um diese Lücken zu schließen, stellen wir OmniEVA vor – einen vielseitigen verkörperten Planer, der fortschrittliches verkörpertes Denken und Aufgabenplanung durch zwei zentrale Innovationen ermöglicht: (1) einen aufgabenadaptiven 3D-Verankerungsmechanismus, der einen gated Router einführt, um eine explizite selektive Regulierung der 3D-Fusion basierend auf kontextuellen Anforderungen durchzuführen, was eine kontextbewusste 3D-Verankerung für verschiedene verkörperte Aufgaben ermöglicht. (2) ein verkörperungsbewusstes Denkframework, das sowohl Aufgabenziele als auch verkörperte Einschränkungen gemeinsam in den Denkprozess einbezieht, was zu Planungsentscheidungen führt, die sowohl zielgerichtet als auch ausführbar sind. Umfangreiche experimentelle Ergebnisse zeigen, dass OmniEVA nicht nur eine state-of-the-art Leistung im allgemeinen verkörperten Denken erreicht, sondern auch eine starke Fähigkeit über eine breite Palette von nachgelagerten Szenarien aufweist. Bewertungen einer Reihe vorgeschlagener verkörperter Benchmarks, einschließlich sowohl primärer als auch zusammengesetzter Aufgaben, bestätigen seine robusten und vielseitigen Planungsfähigkeiten. Projektseite: https://omnieva.github.io
Frühe Forschungen zu Datenvergiftungsangriffen gegen Large Language Models (LLMs) zeigten, wie einfach Backdoors injiziert werden können. Neuere LLMs fügen schrittweises Denken hinzu, wodurch die Angriffsfläche auf die Zwischenkette des Denkens (Chain-of-Thought, CoT) und deren inhärente Eigenschaft, Probleme in Teilprobleme zu zerlegen, erweitert wird. Unter Nutzung dieser Vektoren für eine noch unauffälligere Vergiftung führen wir „zerlegtes Denkvergiften“ ein, bei dem der Angreifer nur den Denkpfad verändert, während die Eingabeaufforderungen und die endgültigen Antworten unverändert bleiben, und den Auslöser auf mehrere, einzeln harmlose Komponenten verteilt. Faszinierenderweise ist es zwar weiterhin möglich, diese zerlegten Gifte zu injizieren, doch ihre zuverlässige Aktivierung zur Änderung der endgültigen Antworten (anstatt nur des CoT) erweist sich als überraschend schwierig. Diese Schwierigkeit ergibt sich daraus, dass die Modelle oft von Backdoors, die innerhalb ihrer Denkprozesse aktiviert werden, wieder abweichen können. Letztendlich scheint sich eine emergente Form der Backdoor-Robustheit aus den Denkfähigkeiten dieser fortschrittlichen LLMs sowie aus der architektonischen Trennung zwischen Denken und der Generierung der endgültigen Antworten zu entwickeln.
Deep-Learning-Lösungen zur Schwachstellenerkennung, die in der akademischen Forschung vorgeschlagen werden, sind für Entwickler nicht immer zugänglich, und ihre Anwendbarkeit in industriellen Umgebungen wird selten thematisiert. Die Übertragung solcher Technologien aus der Wissenschaft in die Industrie birgt Herausforderungen in Bezug auf Vertrauenswürdigkeit, Altsysteme, begrenzte digitale Kompetenzen und die Kluft zwischen akademischem und industriellem Fachwissen. Insbesondere beim Deep Learning sind Leistungsfähigkeit und Integration in bestehende Arbeitsabläufe weitere Bedenken. In dieser Arbeit evaluieren wir zunächst die Leistung von CodeBERT zur Erkennung von anfälligen Funktionen in industrieller und Open-Source-Software. Wir analysieren seine domänenübergreifende Generalisierungsfähigkeit, wenn es auf Open-Source-Daten feinabgestimmt und auf industrielle Daten getestet wird, und umgekehrt, wobei wir auch Strategien zur Handhabung von Klassenungleichgewichten untersuchen. Basierend auf diesen Ergebnissen entwickeln wir AI-DO (Automatisierung der Schwachstellenerkennungsintegration für Entwickleroperationen), ein Continuous-Integration-Continuous-Deployment (CI/CD)-integriertes Empfehlungssystem, das feinabgestimmtes CodeBERT verwendet, um Schwachstellen während des Code-Reviews zu erkennen und zu lokalisieren, ohne Arbeitsabläufe zu unterbrechen. Schließlich bewerten wir die wahrgenommene Nützlichkeit des Tools durch eine Umfrage mit IT-Fachkräften des Unternehmens. Unsere Ergebnisse zeigen, dass Modelle, die auf industriellen Daten trainiert wurden, Schwachstellen innerhalb derselben Domäne genau erkennen, jedoch an Leistung bei Open-Source-Code verlieren, während ein Deep-Learning-Modell, das auf Open-Daten feinabgestimmt ist und geeignete Unterabtastungstechniken verwendet, die Erkennung von Schwachstellen verbessert.
Multimodale Empfehlungssysteme werden zunehmend zu grundlegenden Technologien für E-Commerce- und Content-Plattformen, die personalisierte Dienste ermöglichen, indem sie das historische Verhalten der Nutzer und die multimodalen Merkmale von Artikeln (z. B. visuelle und textuelle) gemeinsam modellieren. Die meisten bestehenden Methoden stützen sich jedoch entweder auf statische Fusionsstrategien oder auf graphenbasierte lokale Interaktionsmodellierung und stoßen dabei auf zwei kritische Einschränkungen: (1) eine unzureichende Fähigkeit, feinkörnige cross-modale Assoziationen zu modellieren, was zu einer suboptimalen Fusionsqualität führt; und (2) ein Mangel an globaler Verteilungskonsistenz auf Ebene der Verteilung, was zu Repräsentationsverzerrungen führt. Um diese Probleme zu lösen, schlagen wir MambaRec vor, ein neuartiges Framework, das lokale Feature-Ausrichtung und globale Verteilungsregularisierung durch aufmerksamkeitsgesteuertes Lernen integriert. Im Kern führen wir das Dilated Refinement Attention Module (DREAM) ein, das mehrskalige dilatierte Faltungen mit kanal- und raumbezogener Aufmerksamkeit verwendet, um feinkörnige semantische Muster zwischen visuellen und textuellen Modalitäten auszurichten. Dieses Modul erfasst hierarchische Beziehungen und kontextbewusste Assoziationen und verbessert die cross-modale semantische Modellierung. Zusätzlich wenden wir Maximum Mean Discrepancy (MMD) und kontrastive Verlustfunktionen an, um die globale Modalitätsausrichtung zu beschränken und die semantische Konsistenz zu erhöhen. Diese duale Regularisierung reduziert modalspezifische Abweichungen und steigert die Robustheit. Um die Skalierbarkeit zu verbessern, setzt MambaRec eine Dimensionsreduktionsstrategie ein, um die Rechenkosten hochdimensionaler multimodaler Merkmale zu senken. Umfangreiche Experimente mit realen E-Commerce-Datensätzen zeigen, dass MambaRec bestehende Methoden in Bezug auf Fusionsqualität, Generalisierung und Effizienz übertrifft. Unser Code ist öffentlich unter https://github.com/rkl71/MambaRec verfügbar.