papers.description
Große Sprachmodelle (LLMs) werden zunehmend mit kreativen Generierungsaufgaben betraut, einschließlich der Simulation fiktiver Charaktere. Ihre Fähigkeit, nicht-prosoziale, antagonistische Persönlichkeiten darzustellen, bleibt jedoch weitgehend unerforscht. Wir stellen die Hypothese auf, dass die Sicherheitsausrichtung moderner LLMs einen grundlegenden Konflikt mit der Aufgabe verursacht, moralisch ambivalente oder villainöse Charaktere authentisch zu verkörpern. Um dies zu untersuchen, stellen wir den Moral RolePlay Benchmark vor – einen neuen Datensatz mit einer vierstufigen moralischen Ausrichtungsskala und einem ausgewogenen Testset für eine rigorose Evaluation. Wir beauftragen state-of-the-art LLMs damit, Charaktere von moralischen Vorbildern bis hin zu reinen Schurken zu spielen. Unsere groß angelegte Auswertung zeigt einen konsistenten, monotonen Abfall der Rollenspielfähigkeit mit abnehmender Moral des Charakters. Wir stellen fest, dass Modelle am meisten mit Eigenschaften kämpfen, die Sicherheitsprinzipien direkt widersprechen, wie z.B. „hinterhältig“ und „manipulativ“, und dabei oft nuancierte Bösartigkeit durch oberflächliche Aggression ersetzen. Des Weiteren zeigen wir, dass die allgemeine Chatbot-Leistungsfähigkeit ein schlechter Prädiktor für die Fähigkeit ist, Schurkenrollen zu spielen, wobei stark sicherheitsausgerichtete Modelle besonders schlecht abschneiden. Unsere Arbeit liefert den ersten systematischen Beleg für diese kritische Einschränkung und beleuchtet eine zentrale Spannung zwischen Modellsicherheit und kreativer Treue. Unser Benchmark und unsere Erkenntnisse ebnen den Weg für die Entwicklung nuancierterer, kontextbewusster Ausrichtungsmethoden.
Das Erfassen räumlicher Beziehungen aus visuellen Eingaben ist ein Grundpfeiler menschlicher Allgemeinintelligenz. Bisherige Studien haben häufig versucht, das räumliche Bewusstsein von Vision-Language-Modellen (VLMs) durch zusätzliche Experten-Encoder zu verbessern, was jedoch zusätzlichen Aufwand verursacht und meist die allgemeinen Fähigkeiten beeinträchtigt. Um räumliche Fähigkeiten in allgemeinen Architekturen zu stärken, stellen wir Visual Spatial Tuning (VST) vor – ein umfassendes Framework zur Entwicklung von VLMs mit menschlichen visuell-räumlichen Fähigkeiten, von der Wahrnehmung bis zum Schlussfolgern. Wir verbessern zunächst die räumliche Wahrnehmung in VLMs durch die Erstellung eines groß angelegten Datensatzes namens VST-P, der 4,1 Millionen Samples umfasst, die 19 Fähigkeiten über Einzelansichten, mehrere Bilder und Videos abdecken. Anschließend präsentieren wir VST-R, einen kuratierten Datensatz mit 135.000 Samples, der Modelle zum räumlichen Denken anleitet. Dabei verwenden wir eine progressive Trainingspipeline: überwachtes Feintuning zum Aufbau grundlegender räumlicher Kenntnisse, gefolgt von bestärkendem Lernen zur weiteren Steigerung der räumlichen Denkfähigkeiten. Ohne negative Auswirkungen auf allgemeine Fähigkeiten erzielt VST durchgängig state-of-the-art Ergebnisse auf mehreren räumlichen Benchmarks, darunter 34,8 % auf MMSI-Bench und 61,2 % auf VSIBench. Die Ergebnisse zeigen, dass Vision-Language-Action-Modelle durch das vorgeschlagene räumliche Tuning-Paradigma signifikant verbessert werden können, was den Weg für eine stärker physikalisch verankerte KI ebnet.
Agentische multimodale Modelle sollten nicht nur Text und Bilder verstehen, sondern auch aktiv externe Werkzeuge wie Code-Ausführungsumgebungen und Websuche aufrufen sowie diese Operationen in das Schlussfolgern integrieren. In dieser Arbeit stellen wir DeepEyesV2 vor und untersuchen, wie ein agentisches multimodales Modell aus den Perspektiven der Datenerstellung, Trainingsmethoden und Modellbewertung aufgebaut werden kann. Wir beobachten, dass rein direktes Reinforcement Learning allein kein robustes Werkzeugnutzungsverhalten induziert. Dieses Phänomen motiviert eine zweistufige Trainingspipeline: eine Kaltstart-Phase zur Etablierung von Werkzeugnutzungsmustern und eine Reinforcement-Learning-Phase zur weiteren Verfeinerung des Werkzeugaufrufs. Wir kuratieren einen diversen, moderat anspruchsvollen Trainingsdatensatz, der speziell Beispiele enthält, bei denen Werkzeugnutzung vorteilhaft ist. Weiterhin führen wir RealX-Bench ein, einen umfassenden Benchmark zur Bewertung multimodalen Schlussfolgerns in realen Szenarien, der inhärent die Integration multipler Fähigkeiten wie Wahrnehmung, Suche und Reasoning erfordert. Wir evaluieren DeepEyesV2 auf RealX-Bench und anderen repräsentativen Benchmarks und demonstrieren dessen Wirksamkeit in den Bereichen Realweltverständnis, mathematisches Reasoning und suchintensive Aufgaben. Zudem zeigt DeepEyesV2 aufgabenadaptive Werkzeugaufrufe, mit einer Tendenz zur Nutzung von Bildoperationen bei Wahrnehmungsaufgaben und numerischen Berechnungen bei Reasoning-Aufgaben. Reinforcement Learning ermöglicht weiterhin komplexe Werkzeugkombinationen und erlaubt dem Modell, kontextbasiert selektiv Werkzeuge aufzurufen. Wir hoffen, dass unsere Studie der Community Orientierung bei der Entwicklung agentischer multimodaler Modelle bieten kann.
LLMs können durch Chain-of-Thought (CoT) mehrstufige Schlussfolgerungen durchführen, sind jedoch nicht in der Lage, ihre eigene Logik zuverlässig zu überprüfen. Selbst wenn sie zu korrekten Antworten gelangen, kann die zugrundeliegende Argumentation fehlerhaft sein, was das Vertrauen in hochriskanten Szenarien untergräbt. Um dieses Problem zu mildern, führen wir VeriCoT ein, eine neuro-symbolische Methode, die formale logische Argumente aus der CoT-Argumentation extrahiert und verifiziert. VeriCoT formalisiert jeden CoT-Argumentationsschritt in Logik erster Stufe und identifiziert Prämissen, die das Argument im Quellkontext, im Allgemeinwissen oder in vorherigen Argumentationsschritten verankern. Die symbolische Repräsentation ermöglicht es automatischen Solvern, die logische Gültigkeit zu überprüfen, während die natürlichsprachlichen Prämissen es Menschen und Systemen erlauben, unbegründete oder fehlerhafte Argumentationsschritte zu identifizieren. Experimente mit den Datensätzen ProofWriter, LegalBench und BioASQ zeigen, dass VeriCoT fehlerhafte Argumentation effektiv erkennt und als starker Prädiktor für die Korrektheit der Endantwort dient. Wir nutzen zudem das Verifikationssignal von VeriCoT für (1) Selbstreflexion zur Inferenzzeit, (2) überwachtes Feinabstimmen (SFT) auf VeriCoT-extrahierten Datensätzen und (3) Präferenz-Feinabstimmung (PFT) mittels Direct Preference Optimization (DPO) unter Verwendung paarweiser Belohnungen auf Verifikationsbasis, was die Gültigkeit und Genauigkeit der Argumentation weiter verbessert.
Agenten in der realen Welt müssen nicht nur logische, sondern auch zeitkritische Urteile fällen. Dies erfordert ein kontinuierliches Bewusstsein für die dynamische Umgebung: Gefahren entstehen, Chancen ergeben sich und andere Agenten handeln, während der Denkprozess des Agenten noch im Gange ist. Trotz Fortschritten im Sprachmodell-Rasonnement berücksichtigen bestehende Ansätze nicht diese dynamische Natur. Wir führen Echtzeit-Rasonnement als neue Problemformulierung für Agenten in sich entwickelnden Umgebungen ein und entwickeln die Real-Time Reasoning Gym, um dies zu demonstrieren. Wir untersuchen zwei Paradigmen für den Einsatz von Sprachmodellen in Agenten: (1) reaktive Agenten, die Sprachmodelle mit begrenzter Denkberechnung für schnelle Reaktionen einsetzen, und (2) planende Agenten, die erweitertes Rasonnement für komplexe Probleme ermöglichen. Unsere Experimente zeigen, dass selbst modernste Modelle in beiden Paradigmen Schwierigkeiten haben, logische und zeitgerechte Urteile zu fällen. Um diese Einschränkung zu überwinden, schlagen wir AgileThinker vor, das beide Denkparadigmen gleichzeitig anwendet. AgileThinker übertrifft konsequent Agenten, die nur ein Rasonnierparadigma nutzen, wenn die Aufgabenschwierigkeit und der Zeitdruck steigen, und balanciert effektiv Denktiefe und Antwortlatenz. Unsere Arbeit etabliert Echtzeit-Rasonnement als entscheidende Testumgebung für die Entwicklung praktischer Agenten und legt eine Grundlage für die Forschung an zeitlich beschränkten KI-Systemen, die einen Weg zu echtzeitfähigen Agenten aufzeigt.
Jüngste Fortschritte bei der Integration von 3D-Menschlicher Bewegung und Sprache konzentrierten sich hauptsächlich auf die Text-zu-Bewegung-Generierung, wodurch die Aufgabe des Bewegungsverständnisses relativ unerforscht blieb. Wir führen Dense Motion Captioning ein, eine neuartige Aufgabe, die darauf abzielt, Aktionen innerhalb von 3D-Bewegungssequenzen des Menschen temporal zu lokalisieren und zu beschreiben. Derzeitige Datensätze bieten keine detaillierten temporalen Annotationen und bestehen überwiegend aus kurzen Sequenzen mit wenigen Aktionen. Um diese Einschränkungen zu überwinden, stellen wir den Complex Motion Dataset (CompMo) vor, den ersten groß angelegten Datensatz mit umfangreich annotierten, komplexen Bewegungssequenzen und präzisen temporalen Grenzen. CompMo, erstellt durch eine sorgfältig gestaltete Datengenerierungspipeline, umfasst 60.000 Bewegungssequenzen, die jeweils aus mehreren Aktionen bestehen – von mindestens zwei bis zu zehn –, die präzise mit ihren temporalen Ausdehnungen annotiert sind. Wir stellen weiterhin DEMO vor, ein Modell, das ein großes Sprachmodell mit einem einfachen Motion Adapter integriert und darauf trainiert ist, dichte, temporal verankerte Beschreibungen zu generieren. Unsere Experimente zeigen, dass DEMO auf CompMo sowie auf angepassten Benchmarks bestehende Methoden erheblich übertrifft und damit eine robuste Baseline für zukünftige Forschung im Bereich 3D-Bewegungsverständnis und -beschreibung etabliert.
In dieser Arbeit identifizieren wir eine inhärente Verzerrung in vorherrschenden LVLM-Architekturen zugunsten der Sprachmodalität, die weitgehend aus der gängigen Praxis resultiert, visuelle Einbettungen einfach an die Eingabetextsequenz anzuhängen. Um dies zu adressieren, schlagen wir eine einfache, aber effektive Methode vor, die textuelle Einbettungen verfeinert, indem sie gemittelte visuelle Merkmale integriert. Unser Ansatz verbessert nachweislich die visuelle Verankerung und reduziert Halluzinationen auf etablierten Benchmarks signifikant. Während das Durchschnittspooling einen einfachen, robusten und effizienten Weg zur Einbeziehung visueller Informationen bietet, gehen wir davon aus, dass anspruchsvollere Fusionsmethoden die visuelle Verankerung und cross-modale Ausrichtung weiter verbessern könnten. Da der Schwerpunkt dieser Arbeit darin liegt, das Modell-Ungleichgewicht und seine Auswirkungen auf Halluzinationen aufzuzeigen – und zu demonstrieren, dass die Verfeinerung textueller Einbettungen mit visuellen Informationen dieses Problem mildert – belassen wir die Erforschung fortgeschrittener Fusionsstrategien für zukünftige Arbeiten.
Eine präzise Konfidenzkalibrierung bei Large Language Models (LLMs) ist entscheidend für deren sicheren Einsatz in hochriskanten Bereichen, da klar artikulierte Konfidenz das Nutzervertrauen stärkt. Herkömmliche Methoden, die Referenz-Konfidenzausdrücke nachahmen, erfassen oft nicht die für eine genaue Konfidenzbewertung notwendige Argumentation. Wir schlagen natürliche Sprachkritiken als Lösung vor, die sich ideal für die Konfidenzkalibrierung eignen, da präzise Goldstandard-Konfidenzlabels schwer zu erhalten sind und häufig mehrere Generierungsschritte erfordern. Diese Arbeit untersucht, wie natürliche Sprachkritiken die artikulierte Konfidenz verbessern können, und behandelt: (1) Was kritisiert werden soll: Unsicherheit (fragenfokussiert) oder Konfidenz (antwortspezifisch)? Analysen zeigen, dass Konfidenz für Multiple-Choice-Aufgaben geeignet ist, während Unsicherheit in offenen Szenarien überzeugt. (2) Wie kritisiert werden soll: Selbstkritik oder Kritik-Kalibrierungstraining? Wir stellen Self-Critique vor, das LLMs befähigt, ihre Konfidenz über reine Genauigkeit hinaus zu hinterfragen und zu optimieren, sowie CritiCal, eine neuartige Critique Calibration Trainingsmethode, die natürliche Sprachkritiken nutzt, um die Konfidenzkalibrierung zu verbessern und sich von direkter numerischer Optimierung abhebt. Experimente zeigen, dass CritiCal Self-Critique und andere wettbewerbsfähige Baseline-Methoden signifikant übertrifft und sogar sein Lehrermodell GPT-4o bei komplexen Reasoning-Aufgaben übertrifft. CritiCal zeigt zudem robuste Generalisierung in Out-of-Distribution-Szenarien und trägt so zur Verbesserung der Zuverlässigkeit von LLMs bei.
Jüngste Fortschritte bei Sprachmodellen mit langem Kontext haben Eingaben im Millionen-Token-Bereich ermöglicht, was ihre Fähigkeiten bei komplexen Aufgaben wie Computer-Use-Agents erweitert. Dennoch sind die Sicherheitsimplikationen dieser erweiterten Kontexte unklar. Um diese Lücke zu schließen, stellen wir NINJA (kurz für Needle-in-haystack-Jailbreak-Angriff) vor, eine Methode, die alignierte Sprachmodelle durch Anhängen harmlosen, modellgenerierten Inhalts an schädliche Benutzerziele jailbreakt. Entscheidend für unsere Methode ist die Beobachtung, dass die Position schädlicher Ziele eine wichtige Rolle für die Sicherheit spielt. Experimente mit dem Standard-Sicherheitsbenchmark HarmBench zeigen, dass NINJA die Angriffserfolgsrate bei modernsten Open-Source- und proprietären Modellen, einschließlich LLaMA, Qwen, Mistral und Gemini, signifikant erhöht. Im Gegensatz zu früheren Jailbreaking-Methoden ist unser Ansatz ressourcenschonend, übertragbar und schwerer erkennbar. Darüber hinaus zeigen wir, dass NINJA rechenoptimal ist – bei festem Rechenbudget kann die Erhöhung der Kontextlänge die Erhöhung der Versuchsanzahl bei Best-of-N-Jailbreaks übertreffen. Diese Ergebnisse zeigen, dass selbst harmlose lange Kontexte – bei sorgfältiger Positionierung der Ziele – grundlegende Schwachstellen in modernen Sprachmodellen einführen.
Die automatische Programminstandsetzung (APR) hat sich kürzlich in Richtung großer Sprachmodelle und agentenbasierter Systeme verlagert, doch die meisten Systeme stützen sich auf lokale Snapshot-Kontexte und übersehen dabei die Repository-Historie. Frühere Arbeiten zeigen, dass die Repository-Historie bei der Behebung von Einzeilen-Fehlern hilft, da der letzte Commit, der die fehlerhafte Zeile ändert, häufig der fehlereinführende ist. In diesem Artikel untersuchen wir, ob die Repository-Historie auch agentenbasierte APR-Systeme im großen Maßstab verbessern kann, insbesondere bei komplexen Multi-Hunk-Fehlern. Wir stellen HAFixAgent vor, einen geschichtsbewussten Fehlerbehebungs-Agenten, der aus Blame-Informationen abgeleitete Repository-Heuristiken in seinen Reparaturzyklus einfließen lässt. Eine Vorstudie aller 854 realweltlichen Fehler aus Defects4J motiviert unser Design, indem sie zeigt, dass fehlerrelevante Historie sowohl weit verbreitet als auch stark konzentriert ist. Ein empirischer Vergleich von HAFixAgent mit zwei state-of-the-art Baseline-Systemen zeigt: (1) Wirksamkeit: HAFixAgent verbessert sich signifikant gegenüber der agentenbasierten Baseline (um 212,3 %) und der Multi-Hunk-Baseline (um 29,9 %). (2) Effizienz: Die Historie erhöht die Agentenschritte nicht signifikant und hält die Token-Kosten vergleichbar, mit deutlich niedrigeren medianen Kosten für komplexe Multi-File-Multi-Hunk-Fehler. (3) Praktikabilität: Die Kombination verschiedener historischer Heuristiken behebt mehr Fehler und bietet eine klare Kosten-Nutzen-Abwägung. HAFixAgent bietet ein praktisches Rezept für geschichtsbewusste agentenbasierte APR: Verankere den Agenten in der Versionskontrollhistorie, priorisiere diff-basierten historischen Kontext und integriere bei Bedarf komplementäre Heuristiken.