Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs) haben die natürliche Sprachverarbeitung (NLP) revolutioniert, dennoch bleiben quelloffene mehrsprachige LLMs rar, wobei bestehende Modelle oft in ihrer Sprachabdeckung begrenzt sind. Solche Modelle priorisieren typischerweise gut ausgestattete Sprachen, während weit verbreitete, aber unterversorgte Sprachen häufig übersehen werden. Um diese Disparität zu beheben, stellen wir Babel vor, ein quelloffenes mehrsprachiges LLM, das die 25 meistgesprochenen Sprachen abdeckt, über 90 % der Weltbevölkerung unterstützt und viele Sprachen einschließt, die von anderen quelloffenen mehrsprachigen LLMs vernachlässigt werden. Im Gegensatz zu traditionellen Ansätzen des fortgesetzten Vortrainings erweitert Babel seine Parameteranzahl durch eine Schichtenerweiterungstechnik, die die Leistungsgrenze von Babel erhöht. Wir führen zwei Varianten ein: Babel-9B, das für effiziente Inferenz und Feinabstimmung konzipiert ist, und Babel-83B, das einen neuen Maßstab für quelloffene mehrsprachige LLMs setzt. Umfangreiche Bewertungen in mehrsprachigen Aufgaben demonstrieren seine überlegene Leistung im Vergleich zu quelloffenen LLMs vergleichbarer Größe. Darüber hinaus erreicht Babel mit quelloffenen, überwachten Feinabstimmungsdatensätzen bemerkenswerte Leistungen, wobei Babel-9B-Chat unter 10B-großen LLMs führend ist und Babel-83B-Chat einen neuen Standard für mehrsprachige Aufgaben setzt und das Niveau kommerzieller Modelle erreicht.
Eine Achillesferse von Large Language Models (LLMs) ist ihre Tendenz, nicht-faktische Aussagen zu halluzinieren. Eine Antwort, die aus faktischen und nicht-faktischen Aussagen gemischt ist, stellt eine Herausforderung für Menschen dar, diese zu überprüfen und ihre Entscheidungen darauf zu basieren. Um dieses Problem zu bekämpfen, schlagen wir Highlighted Chain-of-Thought Prompting (HoT) vor, eine Technik, um LLMs dazu anzuregen, Antworten mit XML-Tags zu generieren, die Fakten auf die in der Anfrage bereitgestellten Informationen stützen. Das heißt, bei einer Eingabefrage würden LLMs die Frage zunächst neu formatieren, um XML-Tags hinzuzufügen, die Schlüsselfakten hervorheben, und dann eine Antwort mit Hervorhebungen über die aus der Eingabe referenzierten Fakten generieren. Interessanterweise übertrifft HoT in Few-Shot-Szenarien das herkömmliche Chain-of-Thought Prompting (CoT) bei einer Vielzahl von 17 Aufgaben, die von Arithmetik über Leseverständnis bis hin zu logischem Denken reichen. Wenn Menschen aufgefordert werden, LLM-Antworten zu überprüfen, helfen die Hervorhebungen zeitlich begrenzten Teilnehmern, genauer und effizienter zu erkennen, wann LLMs richtig liegen. Überraschenderweise neigen HoTs jedoch dazu, Benutzer dazu zu verleiten, eine Antwort für korrekt zu halten, wenn LLMs falsch liegen.
Große Sprachmodelle haben in verschiedenen Downstream-Aufgaben herausragende Leistungen gezeigt und werden in zahlreichen Szenarien breit eingesetzt. Menschlich annotierte Präferenzdaten werden für das Training verwendet, um die Leistung von LLMs weiter zu verbessern, was jedoch durch die Obergrenze der menschlichen Leistung begrenzt ist. Daher wurde die Methode des Selbstbelohnens vorgeschlagen, bei der LLMs Trainingsdaten generieren, indem sie ihre eigenen Ausgaben bewerten. Allerdings ist das bestehende Selbstbelohnungsparadigma in mathematischen Denkszenarien nicht effektiv und kann sogar zu einem Leistungsabfall führen. In dieser Arbeit schlagen wir die prozessbasierte Selbstbelohnungspipeline für Sprachmodelle vor, die langfristiges Denken, schrittweise Bewertung durch LLM-as-a-Judge und schrittweise Präferenzoptimierung innerhalb des Selbstbelohnungsparadigmas einführt. Unser neues Paradigma verbessert erfolgreich die Leistung von LLMs in mehreren mathematischen Denkbenchmarks durch iterative prozessbasierte Selbstbelohnung und demonstriert das immense Potenzial der Selbstbelohnung, um LLM-Denken zu erreichen, das menschliche Fähigkeiten übertreffen könnte.
Wir stellen KodCode vor, einen synthetischen Datensatz, der die anhaltende Herausforderung der Beschaffung von hochwertigen, verifizierbaren Trainingsdaten über verschiedene Schwierigkeitsgrade und Domänen hinweg für das Training von Large Language Models für das Programmieren adressiert. Bestehende, auf Code fokussierte Ressourcen gewährleisten typischerweise entweder nicht die Breite der Abdeckung (z. B. von einfachen Codierungsaufgaben bis hin zu fortgeschrittenen algorithmischen Problemen) oder die verifizierbare Korrektheit (z. B. Unit-Tests). Im Gegensatz dazu besteht KodCode aus Frage-Lösung-Test-Tripeln, die systematisch über ein Selbstverifizierungsverfahren validiert werden. Unsere Pipeline beginnt mit der Synthese einer breiten Palette von Codierungsfragen, gefolgt von der Generierung von Lösungen und Testfällen, wobei zusätzliche Versuche für herausfordernde Probleme vorgesehen sind. Schließlich wird die Post-Training-Datensynthese durchgeführt, indem Fragen in verschiedene Formate umgeschrieben und Antworten unter einem testbasierten Ablehnungsverfahren aus einem Reasoning-Modell (DeepSeek R1) generiert werden. Diese Pipeline liefert einen groß angelegten, robusten und vielfältigen Codierungsdatensatz. KodCode eignet sich für überwachtes Feinabstimmen, und die gepaarten Unit-Tests bieten auch großes Potenzial für RL-Feinabstimmung. Feinabstimmungsexperimente auf Codierungs-Benchmarks (HumanEval(+), MBPP(+), BigCodeBench und LiveCodeBench) zeigen, dass mit KodCode abgestimmte Modelle state-of-the-art Leistung erzielen und Modelle wie Qwen2.5-Coder-32B-Instruct und DeepSeek-R1-Distill-Llama-70B übertreffen.
Wir präsentieren GEN3C, ein generatives Videomodell mit präziser Kamerasteuerung und zeitlicher 3D-Konsistenz. Bisherige Videomodelle erzeugen zwar realistische Videos, nutzen jedoch nur wenig 3D-Informationen, was zu Inkonsistenzen führt, wie beispielsweise Objekte, die plötzlich erscheinen oder verschwinden. Die Kamerasteuerung, falls überhaupt implementiert, ist unpräzise, da Kameraparameter lediglich als Eingaben für das neuronale Netz dienen, das dann ableiten muss, wie das Video von der Kamera abhängt. Im Gegensatz dazu wird GEN3C durch einen 3D-Cache geleitet: Punktwolken, die durch die Vorhersage der pixelweisen Tiefe von Startbildern oder zuvor generierten Frames gewonnen werden. Bei der Generierung der nächsten Frames wird GEN3C auf die 2D-Darstellungen des 3D-Caches mit der vom Benutzer bereitgestellten neuen Kameratrajektorie konditioniert. Entscheidend ist, dass GEN3C weder sich daran erinnern muss, was es zuvor generiert hat, noch die Bildstruktur aus der Kameraposition ableiten muss. Stattdessen kann das Modell seine gesamte generative Leistung auf zuvor nicht beobachtete Regionen sowie auf den Fortschritt des Szenenzustands zum nächsten Frame konzentrieren. Unsere Ergebnisse zeigen eine präzisere Kamerasteuerung als bisherige Arbeiten sowie state-of-the-art Ergebnisse in der Synthese neuer Ansichten aus spärlichen Blickwinkeln, selbst in anspruchsvollen Szenarien wie Fahrsequenzen und monokularen dynamischen Videos. Die Ergebnisse sind am besten in Videos zu sehen. Besuchen Sie unsere Webseite! https://research.nvidia.com/labs/toronto-ai/GEN3C/
Visuelle Embedding-Modelle zeichnen sich bei Zero-Shot-Aufgaben wie visuellem Retrieval und Klassifikation aus. Diese Modelle können jedoch nicht für Aufgaben verwendet werden, die Mehrdeutigkeiten enthalten oder Benutzeranweisungen erfordern. Solche Aufgaben erfordern ein multimodales Embedding-Modell, das Embeddings erzeugt, die visuelle und natürliche Spracheingaben kombinieren. Bestehende CLIP-basierte Ansätze betten Bilder und Text unabhängig voneinander ein und fusionieren das Ergebnis. Wir stellen fest, dass dies zu schwachen Interaktionen zwischen den Modalitäten und einer geringen Benutzerkontrolle über die Darstellung führt. Wir stellen ABC vor, ein Open-Source-Multimodal-Embedding-Modell, das ein Vision-Language-Modell als Backbone verwendet, um Bildmerkmale tief mit natürlichen Sprachanweisungen zu integrieren. ABC erreicht die beste Leistung in Bezug auf die Größe beim MSCOCO-Bild-zu-Text-Retrieval und ist das leistungsstärkste Modell bei Klassifikations- und VQA-Aufgaben im Massive Multimodal Embedding Benchmark. Mit einer stark vereinheitlichten Vision-Language-Darstellung kann ABC natürliche Sprache verwenden, um subtile und potenziell mehrdeutige visuelle Retrieval-Probleme zu lösen. Um diese Fähigkeit zu bewerten, entwickeln wir CtrlBench, einen Benchmark, der das Verschachteln von Textanweisungen mit Bildinhalten für ein korrektes Retrieval erfordert. ABC verbessert den Stand der multimodalen Embeddings durch hochwertige Darstellungen und flexible Steuerung über natürliche Sprache. Unser Modell und die Datensätze sind auf unserer Projektseite verfügbar.
Das Destillieren der Anweisungsbefolgungskapazitäten fortgeschrittener Large Language Models in kleinere Modelle mithilfe einer ausgewählten Teilmenge hat sich zu einem gängigen Ansatz im Modelltraining entwickelt. Während bestehende Strategien zur Auswahl synthetischer Anweisungsdaten hauptsächlich auf eindimensionalen Signalen (z. B. Belohnungswerte, Modellperplexität) basieren, erfassen sie nicht die Komplexität der Anweisungsbefolgung über diverse Bereiche hinweg. Daher untersuchen wir vielfältigere Signale, um umfassende Merkmale von Anweisungs-Antwort-Paaren zu erfassen, und schlagen drei grundlegende Metriken vor, die die Weisheit mehrerer LLMs nutzen, basierend auf (1) diversen LLM-Antworten und (2) der Bewertung durch Belohnungsmodelle. Aufbauend auf diesen Basismetriken präsentieren wir CrowdSelect, eine integrierte Metrik, die einen Cluster-basierten Ansatz einbezieht, um die Antwortvielfalt zu bewahren. Unsere umfangreichen Experimente zeigen, dass unsere grundlegenden Metriken die Leistung über vier Basismodelle hinweg auf MT-bench und Arena-Hard konsistent verbessern. CrowdSelect, das effizient alle Metriken einbezieht, erreicht Spitzenleistungen sowohl bei der vollständigen als auch bei der LoRA-Feinabstimmung und zeigt Verbesserungen von 4,81 % auf Arena-Hard und 11,1 % auf MT-bench mit Llama-3.2-3b-instruct. Wir hoffen, dass unsere Erkenntnisse wertvolle Einblicke für zukünftige Forschungen in dieser Richtung liefern. Der Code ist verfügbar unter https://github.com/listentm/crowdselect.
Visuelle Sprachmodelle (VLMs) haben beeindruckende Fähigkeiten bei visuellen Verankerungsaufgaben gezeigt. Ihre Effektivität im medizinischen Bereich, insbesondere bei der Erkennung und Lokalisierung von Anomalien in medizinischen Bildern, bleibt jedoch weitgehend unerforscht. Eine große Herausforderung ist die komplexe und abstrakte Natur der medizinischen Terminologie, die es schwierig macht, pathologische Anomaliebegriffe direkt mit ihren entsprechenden visuellen Merkmalen zu verknüpfen. In dieser Arbeit stellen wir einen neuartigen Ansatz vor, um die Leistung von VLMs bei der Erkennung und Lokalisierung medizinischer Anomalien durch die Nutzung von zerlegtem medizinischem Wissen zu verbessern. Anstatt Modelle direkt dazu anzuregen, spezifische Anomalien zu erkennen, konzentrieren wir uns darauf, medizinische Konzepte in grundlegende Attribute und gemeinsame visuelle Muster zu zerlegen. Diese Strategie fördert eine stärkere Ausrichtung zwischen textuellen Beschreibungen und visuellen Merkmalen und verbessert sowohl die Erkennung als auch die Lokalisierung von Anomalien in medizinischen Bildern. Wir evaluieren unsere Methode auf dem 0,23B Florence-2 Basismodell und zeigen, dass sie eine vergleichbare Leistung bei der Verankerung von Anomalien erzielt wie deutlich größere 7B LLaVA-basierte medizinische VLMs, obwohl sie nur mit 1,5 % der für solche Modelle verwendeten Daten trainiert wurde. Experimentelle Ergebnisse demonstrieren zudem die Wirksamkeit unseres Ansatzes sowohl bei bekannten als auch bei zuvor unbekannten Anomalien, was auf seine starken Generalisierungsfähigkeiten hindeutet.
Die Bereitstellung von großskaligen Sprachmodellen auf Edge-Geräten steht vor inhärenten Herausforderungen wie hohen Rechenanforderungen, Energieverbrauch und potenziellen Datenschutzrisiken. Dieses Papier stellt die Shakti Small Language Models (SLMs) Shakti-100M, Shakti-250M und Shakti-500M vor, die diese Einschränkungen gezielt angehen. Durch die Kombination effizienter Architekturen, Quantisierungstechniken und verantwortungsvoller KI-Prinzipien ermöglicht die Shakti-Serie On-Device-Intelligenz für Smartphones, intelligente Haushaltsgeräte, IoT-Systeme und mehr. Wir bieten umfassende Einblicke in ihre Designphilosophie, Trainingspipelines und Benchmark-Leistungen sowohl bei allgemeinen Aufgaben (z. B. MMLU, Hellaswag) als auch in spezialisierten Domänen (Gesundheitswesen, Finanzen und Recht). Unsere Ergebnisse zeigen, dass kompakte Modelle, wenn sie sorgfältig entwickelt und feinabgestimmt werden, die Erwartungen in realen Edge-AI-Szenarien erfüllen und oft übertreffen können.
Ein Teil des Erfolgs von Diffusionsmodellen rührt von ihrer Fähigkeit her, iterative Verfeinerung durchzuführen, d.h. Ausgaben während der Generierung wiederholt zu korrigieren. Moderne maskierte diskrete Diffusion verfügt jedoch nicht über diese Fähigkeit: Sobald ein Token generiert wurde, kann es nicht mehr aktualisiert werden, selbst wenn es einen Fehler einführt. Hier adressieren wir diese Einschränkung durch die Einführung des Remasking-Diffusionsmodell (ReMDM)-Samplers, einer Methode, die auf prinzipielle Weise auf vortrainierte maskierte Diffusionsmodelle angewendet werden kann und die aus einem diskreten Diffusionsmodell mit einem benutzerdefinierten Remasking-Rückwärtsprozess abgeleitet ist. Besonders interessant ist, dass ReMDM der diskreten Diffusion eine Form von Inferenzzeit-Rechenleistungsskalierung verleiht. Durch die Erhöhung der Anzahl der Sampling-Schritte generiert ReMDM natürliche Sprachausgaben, die sich der Qualität autoregressiver Modelle annähern, während bei begrenztem Rechenbudget die Qualität besser erhalten bleibt. ReMDM verbessert auch die Probenqualität maskierter Diffusionsmodelle für diskretisierte Bilder, und in wissenschaftlichen Bereichen wie dem Moleküldesign erleichtert ReMDM die Diffusionsführung und verschiebt die Pareto-Grenze der Steuerbarkeit im Vergleich zu klassischer Maskierung und gleichmäßiger Rauschdiffusion. Wir stellen den Code zusammen mit einem Blogbeitrag auf der Projektseite bereit: https://remdm.github.io.
Textreiche Graph-Wissensbasen (TG-KBs) sind zunehmend entscheidend geworden, um Anfragen durch die Bereitstellung von textuellen und strukturellen Informationen zu beantworten. Allerdings erfassen aktuelle Retrieval-Methoden diese beiden Wissensarten oft isoliert, ohne ihre gegenseitige Verstärkung zu berücksichtigen, und einige hybride Methoden umgehen das strukturelle Retrieval sogar vollständig nach der Nachbarschaftsaggregation. Um diese Lücke zu schließen, schlagen wir eine Mischung aus strukturellem und textuellem Retrieval (MoR) vor, um diese beiden Wissensarten über ein Planungs-Reasoning-Organisations-Framework zu erfassen. In der Planungsphase generiert MoR textuelle Planungsgraphen, die die Logik zur Beantwortung von Anfragen skizzieren. Anschließend verknüpft MoR in der Reasoning-Phase strukturelle Traversierung und textuelle Übereinstimmung, um Kandidaten aus den TG-KBs zu gewinnen. In der Organisationsphase ordnet MoR die abgerufenen Kandidaten weiter basierend auf ihrem strukturellen Verlauf neu. Umfangreiche Experimente demonstrieren die Überlegenheit von MoR bei der Harmonisierung von strukturellem und textuellem Retrieval mit Erkenntnissen, einschließlich ungleichmäßiger Retrieval-Leistung bei verschiedenen Anfragelogiken und den Vorteilen der Integration struktureller Verläufe für die Neubewertung von Kandidaten. Unser Code ist verfügbar unter https://github.com/Yoega/MoR.
Die Qualitätsschätzung auf Wortebene (Quality Estimation, QE) erkennt fehlerhafte Abschnitte in maschinellen Übersetzungen, was die menschliche Nachbearbeitung lenken und erleichtern kann. Während die Genauigkeit von QE-Systemen auf Wortebene umfassend bewertet wurde, bleiben ihre Benutzerfreundlichkeit und ihr Einfluss auf die Geschwindigkeit, Qualität und Bearbeitungsentscheidungen bei der menschlichen Nachbearbeitung weitgehend unerforscht. Unsere QE4PE-Studie untersucht die Auswirkungen von QE auf Wortebene auf die Nachbearbeitung von maschinellen Übersetzungen (MT) in einem realistischen Umfeld mit 42 professionellen Nachbearbeitern in zwei Übersetzungsrichtungen. Wir vergleichen vier Modalitäten zur Hervorhebung von Fehlerabschnitten, darunter überwachte und unsicherheitsbasierte QE-Methoden auf Wortebene, zur Identifizierung potenzieller Fehler in den Ausgaben eines modernen neuronalen MT-Modells. Der Aufwand und die Produktivität bei der Nachbearbeitung werden durch Verhaltensprotokolle geschätzt, während Qualitätsverbesserungen durch menschliche Annotationen auf Wort- und Segmentebene bewertet werden. Wir stellen fest, dass Domäne, Sprache und die Geschwindigkeit der Bearbeiter entscheidende Faktoren für die Effektivität der Hervorhebungen sind, wobei die bescheidenen Unterschiede zwischen menschlich erstellten und automatisierten QE-Hervorhebungen eine Lücke zwischen Genauigkeit und Benutzerfreundlichkeit in professionellen Arbeitsabläufen unterstreichen.
Konversationsassistenten benötigen oft einen Algorithmus zur Umformulierung von Fragen, der eine Teilmenge vergangener Interaktionen nutzt, um eine aussagekräftigere (präzisere) Antwort auf die Frage oder Anfrage des Benutzers zu liefern. Der genaue Ansatz zur Umformulierung hängt jedoch häufig vom Anwendungsfall und den anwendungsspezifischen Aufgaben ab, die der Konversationsassistent unterstützt, sowie von weiteren Einschränkungen. In diesem Artikel untersuchen wir systematisch zwei verschiedene Ansätze, die als Umformulierung und Fusion bezeichnet werden, in Bezug auf zwei grundlegend unterschiedliche Generierungsaufgaben. Dazu gehört eine Text-zu-Text-Generierungsaufgabe sowie eine multimodale Generierungsaufgabe, die Text als Eingabe verwendet und eine Visualisierung oder Datentabelle erzeugt, die die Frage des Benutzers beantwortet. Unsere Ergebnisse zeigen, dass der spezifische Ansatz zur Umformulierung oder Fusion stark vom zugrunde liegenden Anwendungsfall und der Generierungsaufgabe abhängt. Insbesondere stellen wir fest, dass für einen konversationsbasierten Frage-Antwort-Assistenten der Ansatz zur Anfrageumformulierung am besten funktioniert, während für einen Datenanalyse-Assistenten, der Visualisierungen und Datentabellen basierend auf der Konversation des Benutzers mit dem Assistenten erzeugt, der Fusionsansatz am besten geeignet ist. Bemerkenswerterweise untersuchen wir zwei Datensätze für den Anwendungsfall des Datenanalyse-Assistenten, für kurze und lange Konversationen, und stellen fest, dass die Anfragefusion stets besser abschneidet, während für die konversationsbasierte textorientierte Frage-Antwort-Aufgabe der Ansatz zur Anfrageumformulierung am besten geeignet ist.
Tool Learning zielt darauf ab, große Sprachmodelle (LLMs) durch diverse Werkzeuge zu erweitern, um sie als Agenten zur Lösung praktischer Aufgaben einzusetzen. Aufgrund der begrenzten Kontextlänge von LLMs, die Werkzeuge verwenden, ist die Übernahme von Informationsretrieval (IR)-Modellen zur Auswahl nützlicher Werkzeuge aus großen Werkzeugsammlungen ein entscheidender erster Schritt. Die Leistung von IR-Modellen bei Werkzeug-Retrieval-Aufgaben bleibt jedoch weitgehend unerforscht und unklar. Die meisten Benchmarks für die Werkzeugnutzung vereinfachen diesen Schritt, indem sie manuell eine kleine Menge relevanter Werkzeuge für jede Aufgabe vorannotieren, was weit von realen Szenarien entfernt ist. In diesem Artikel stellen wir ToolRet vor, einen heterogenen Benchmark für das Werkzeug-Retrieval, der 7.600 diverse Retrieval-Aufgaben und ein Korpus von 43.000 Werkzeugen umfasst, die aus bestehenden Datensätzen gesammelt wurden. Wir evaluieren sechs Arten von Modellen auf ToolRet. Überraschenderweise zeigen selbst Modelle, die in konventionellen IR-Benchmarks stark abschneiden, eine schlechte Leistung auf ToolRet. Diese niedrige Retrieval-Qualität verschlechtert die Erfolgsrate von LLMs bei der Werkzeugnutzung. Als weiteren Schritt stellen wir einen umfangreichen Trainingsdatensatz mit über 200.000 Instanzen bereit, der die Fähigkeit von IR-Modellen zum Werkzeug-Retrieval erheblich optimiert.
Jüngste Fortschritte in der robotischen Manipulation wurden durch groß angelegte Datensätze vorangetrieben, die in verschiedenen Umgebungen gesammelt wurden. Das Training von robotischen Manipulationsstrategien auf diesen Datensätzen erfolgt traditionell zentralisiert, was Bedenken hinsichtlich Skalierbarkeit, Anpassungsfähigkeit und Datenschutz aufwirft. Während föderiertes Lernen dezentrales, datenschutzbewusstes Training ermöglicht, ist seine Anwendung auf die robotische Manipulation weitgehend unerforscht. Wir stellen FLAME (Federated Learning Across Manipulation Environments) vor, den ersten Benchmark, der speziell für föderiertes Lernen in der robotischen Manipulation entwickelt wurde. FLAME besteht aus: (i) einer Sammlung groß angelegter Datensätze mit über 160.000 Experten-Demonstrationen für mehrere Manipulationsaufgaben, die in einer Vielzahl von simulierten Umgebungen gesammelt wurden; (ii) einem Trainings- und Bewertungsrahmen für das Erlernen von robotischen Strategien in einem föderierten Setting. Wir bewerten Standardalgorithmen des föderierten Lernens in FLAME, zeigen ihr Potenzial für verteiltes Strategienlernen und heben zentrale Herausforderungen hervor. Unser Benchmark legt die Grundlage für skalierbares, adaptives und datenschutzbewusstes robotisches Lernen.
Jüngste Fortschritte in der generativen KI haben zur weitverbreiteten Nutzung großer Sprachmodelle (LLMs) in der Softwareentwicklung geführt, wodurch zahlreiche langjährige Herausforderungen angegangen werden konnten. Allerdings fehlt derzeit eine umfassende Studie, die die Fähigkeiten von LLMs bei der Erkennung von Software-Sicherheitslücken (Software Vulnerability Detection, SVD), einem entscheidenden Aspekt der Softwaresicherheit, untersucht. Die bestehende Forschung konzentriert sich hauptsächlich auf die Bewertung von LLMs anhand von C/C++-Datensätzen. Dabei werden typischerweise nur ein oder zwei Strategien wie Prompt Engineering, Instruction Tuning und Sequenzklassifikations-Fine-Tuning für Open-Source-LLMs untersucht. Folglich besteht eine erhebliche Wissenslücke hinsichtlich der Effektivität verschiedener LLMs bei der Erkennung von Sicherheitslücken in verschiedenen Programmiersprachen. Um diese Wissenslücke zu schließen, präsentieren wir eine umfassende empirische Studie, die die Leistung von LLMs bei der SVD-Aufgabe bewertet. Wir haben einen umfangreichen Datensatz zusammengestellt, der 8.260 anfällige Funktionen in Python, 7.505 in Java und 28.983 in JavaScript umfasst. Wir bewerten fünf Open-Source-LLMs mit mehreren Ansätzen, darunter Prompt Engineering, Instruction Tuning und Sequenzklassifikations-Fine-Tuning. Diese LLMs werden gegen fünf feinabgestimmte kleine Sprachmodelle und zwei Open-Source-Static-Application-Security-Testing-Tools verglichen. Darüber hinaus untersuchen wir zwei Wege zur Verbesserung der LLM-Leistung bei SVD: a) Datenperspektive: Neues Training der Modelle mit heruntergesampelten, ausgewogenen Datensätzen. b) Modellperspektive: Untersuchung von Ensemble-Lernmethoden, die Vorhersagen mehrerer LLMs kombinieren. Unsere umfangreichen Experimente zeigen, dass SVD nach wie vor eine anspruchsvolle Aufgabe für LLMs darstellt. Diese Studie bietet ein tiefgreifendes Verständnis der Rolle von LLMs bei SVD und liefert praktische Erkenntnisse für zukünftige Fortschritte bei der Nutzung generativer KI zur Verbesserung der Softwaresicherheitspraktiken.
Die Koordination mehrerer Agenten ist entscheidend für eine zuverlässige Navigation von Multi-Robotern in gemeinsamen Räumen wie automatisierten Lagern. In Bereichen mit hohem Roboteraufkommen können lokale Koordinationsmethoden versagen, eine deadlockfreie Lösung zu finden. In solchen Szenarien ist es angemessen, eine zentrale Einheit einen globalen Zeitplan erstellen zu lassen, der die Durchfahrtsreihenfolge der Roboter festlegt. Allerdings steigt die Laufzeit solcher zentralisierten Koordinationsmethoden erheblich mit der Problemgröße. In diesem Artikel schlagen wir vor, Graph Neural Network Variational Autoencoders (GNN-VAE) zu nutzen, um das Multi-Agenten-Koordinationsproblem in großem Maßstab schneller zu lösen als durch zentralisierte Optimierung. Wir formulieren das Koordinationsproblem als Graphproblem und sammeln Ground-Truth-Daten mit einem Mixed-Integer Linear Program (MILP)-Solver. Während des Trainings kodiert unser Lernframework qualitativ hochwertige Lösungen des Graphproblems in einen latenten Raum. Zum Inferenzzeitpunkt werden Lösungssamples aus den abgetasteten latenten Variablen dekodiert, und das Sample mit den niedrigsten Kosten wird für die Koordination ausgewählt. Schließlich wird der praktikable Vorschlag mit dem höchsten Leistungsindex für die Implementierung ausgewählt. Durch die Konstruktion liefert unser GNN-VAE-Framework Lösungen, die stets die Einschränkungen des betrachteten Koordinationsproblems respektieren. Numerische Ergebnisse zeigen, dass unser Ansatz, der an kleinen Problemen trainiert wurde, auch für großskalige Probleme mit 250 Robotern hochwertige Lösungen erzielen kann und dabei deutlich schneller ist als andere Baseline-Methoden. Projektseite: https://mengyuest.github.io/gnn-vae-coord
Die Erzeugung realistischer Simulationen ist entscheidend für Anwendungen autonomer Systeme wie selbstfahrende Fahrzeuge und Mensch-Roboter-Interaktionen. Allerdings haben heutige Fahrsimulatoren noch Schwierigkeiten, kontrollierbare, vielfältige und regelkonforme Verhaltensweisen für Verkehrsteilnehmer zu generieren: Regelbasierte Modelle können keine diversen Verhaltensweisen erzeugen und erfordern eine sorgfältige Anpassung, während lernbasierte Methoden die Strategie aus Daten nachahmen, jedoch nicht explizit darauf ausgelegt sind, die Regeln einzuhalten. Darüber hinaus sind reale Datensätze von Natur aus „Einzelereignisse“, was es der Lernmethode erschwert, diverse Verhaltensweisen zu generieren. In diesem Artikel nutzen wir Signal Temporal Logic (STL) und Diffusionsmodelle, um eine kontrollierbare, vielfältige und regelbewusste Strategie zu erlernen. Wir kalibrieren zunächst die STL anhand der realen Daten, generieren dann diverse synthetische Daten mithilfe von Trajektorienoptimierung und lernen schließlich die korrigierte Diffusionsstrategie auf dem erweiterten Datensatz. Wir testen auf dem NuScenes-Datensatz und unser Ansatz kann im Vergleich zu anderen Baselines die vielfältigsten regelkonformen Trajektorien erzielen, mit einer Laufzeit von 1/17X im Vergleich zum zweitbesten Ansatz. In der Closed-Loop-Testung erreicht unser Ansatz die höchste Diversität, Regelbefolgung und die geringste Kollisionsrate. Unsere Methode kann in der Testphase verschiedene Merkmale basierend auf unterschiedlichen STL-Parametern erzeugen. Eine Fallstudie zu Mensch-Roboter-Begegnungsszenarien zeigt, dass unser Ansatz diverse und nahezu optimale Trajektorien generieren kann. Das Annotationswerkzeug, der erweiterte Datensatz und der Code sind verfügbar unter https://github.com/mengyuest/pSTL-diffusion-policy.
Dieses Paper stellt CognitiveDrone vor, ein neuartiges Vision-Language-Action (VLA)-Modell, das für komplexe Aufgaben von unbemannten Luftfahrzeugen (UAVs) entwickelt wurde, die fortgeschrittene kognitive Fähigkeiten erfordern. Das Modell wurde auf einem Datensatz trainiert, der über 8.000 simulierte Flugtrajektorien in drei Schlüsselkategorien umfasst – Menschliche Erkennung, Symbolverständnis und logisches Denken – und generiert Echtzeit-4D-Aktionsbefehle basierend auf First-Person-Visualinputs und textuellen Anweisungen. Um die Leistung in komplexen Szenarien weiter zu verbessern, schlagen wir CognitiveDrone-R1 vor, das ein zusätzliches Vision-Language-Model (VLM)-Reasoning-Modul integriert, um Aufgabenanweisungen vor der Hochfrequenzsteuerung zu vereinfachen. Experimentelle Auswertungen mit unserem Open-Source-Benchmark, CognitiveDroneBench, zeigen, dass ein auf Rennen ausgerichtetes Modell (RaceVLA) eine Gesamterfolgsrate von 31,3 % erreicht, während das Basismodell CognitiveDrone 59,6 % und CognitiveDrone-R1 eine Erfolgsrate von 77,2 % erzielt. Diese Ergebnisse demonstrieren Verbesserungen von bis zu 30 % bei kritischen kognitiven Aufgaben und unterstreichen die Effektivität der Integration fortgeschrittener Denkfähigkeiten in UAV-Steuerungssysteme. Unsere Beiträge umfassen die Entwicklung eines state-of-the-art VLA-Modells für die UAV-Steuerung und die Einführung des ersten dedizierten Benchmarks zur Bewertung kognitiver Aufgaben in Drohnenoperationen. Das vollständige Repository ist unter cognitivedrone.github.io verfügbar.
In der Schweiz ist die juristische Übersetzung aufgrund der vier offiziellen Landessprachen und der Anforderungen an mehrsprachige Rechtsdokumente von besonderer Bedeutung. Dieser Prozess stützt sich traditionell auf Fachleute, die sowohl juristische Experten als auch versierte Übersetzer sein müssen – was Engpässe verursacht und den effektiven Zugang zur Justiz beeinträchtigt. Um diese Herausforderung zu bewältigen, stellen wir SwiLTra-Bench vor, einen umfassenden mehrsprachigen Benchmark mit über 180.000 ausgerichteten Schweizer juristischen Übersetzungspaaren, bestehend aus Gesetzen, Leitsätzen und Pressemitteilungen in allen Schweizer Sprachen sowie Englisch, der zur Bewertung von LLM-basierten Übersetzungssystemen entwickelt wurde. Unsere systematische Auswertung zeigt, dass führende Modelle bei allen Dokumenttypen eine überlegene Übersetzungsleistung erzielen, während spezialisierte Übersetzungssysteme insbesondere bei Gesetzen hervorstechen, bei Leitsätzen jedoch unterdurchschnittlich abschneiden. Durch rigorose Tests und Validierung durch menschliche Experten demonstrieren wir, dass die Feinabstimmung offener SLMs deren Übersetzungsqualität zwar erheblich verbessert, sie jedoch immer noch hinter den besten Null-Shot-prompted führenden Modellen wie Claude-3.5-Sonnet zurückbleiben. Zudem präsentieren wir SwiLTra-Judge, ein spezialisiertes LLM-Bewertungssystem, das am besten mit den Beurteilungen menschlicher Experten übereinstimmt.
Autonome Fahrzeuge (AVs) haben die Kommerzialisierungsphase erreicht, doch ihre begrenzte Fähigkeit zur Interaktion und Absichtsäußerung stellt nach wie vor Herausforderungen in der Interaktion mit menschlich gesteuerten Fahrzeugen (HVs) dar. Jüngste Fortschritte bei großen Sprachmodellen (LLMs) ermöglichen eine bidirektionale Mensch-Maschine-Kommunikation, doch der Konflikt zwischen langsamer Inferenzgeschwindigkeit und der Notwendigkeit von Echtzeit-Entscheidungsfindung erschwert den praktischen Einsatz. Um diese Probleme zu lösen, stellt dieses Papier ein paralleles Actor-Reasoner-Framework vor, das explizite bidirektionale AV-HV-Interaktionen in mehreren Szenarien ermöglichen soll. Zunächst wird durch die Förderung von Interaktionen zwischen dem LLM-gesteuerten Reasoner und heterogenen simulierten HVs während des Trainings eine Interaktionsspeicherdatenbank, der sogenannte Actor, etabliert. Anschließend wird durch die Einführung des Speicherpartitionierungsmoduls und des zweischichtigen Speicherabrufmoduls die Fähigkeit des Actors, mit heterogenen HVs umzugehen, deutlich verbessert. Ablationsstudien und Vergleiche mit anderen Entscheidungsmethoden zeigen, dass das vorgeschlagene Actor-Reasoner-Framework die Sicherheit und Effizienz erheblich steigert. Schließlich wird durch die Kombination der externen Mensch-Maschine-Schnittstelleninformationen (eHMI), die aus der Argumentation des Reasoners abgeleitet werden, und der aus dem Actor abgerufenen praktikablen Aktionslösungen die Wirksamkeit des vorgeschlagenen Actor-Reasoners in mehrszenarischen Feldinteraktionen bestätigt. Unser Code ist verfügbar unter https://github.com/FanGShiYuu/Actor-Reasoner.