Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Reinforcement Learning hat sich zum zentralen Ansatz entwickelt, mit dem Sprachmodelle (LMs) aus Umweltbelohnungen oder Feedback lernen. In der Praxis ist das Umweltfeedback jedoch meist spärlich und verzögert. Das Lernen aus solchen Signalen ist herausfordernd, da Sprachmodelle implizit ableiten müssen, wie beobachtete Fehler in Verhaltensänderungen für zukünftige Iterationen übersetzt werden sollten. Wir führen Experiential Reinforcement Learning (ERL) ein, ein Trainingsparadigma, das eine explizite Erfahrungs-Reflexions-Konsolidierungs-Schleife in den Reinforcement-Learning-Prozess einbettet. Bei einer gegebenen Aufgabe generiert das Modell einen ersten Versuch, erhält Umweltfeedback und erstellt eine Reflexion, die einen verfeinerten zweiten Versuch leitet, dessen Erfolg verstärkt und in die Basis-Policy internalisiert wird. Dieser Prozess wandelt Feedback in strukturierte Verhaltensrevision um, verbessert die Exploration und stabilisiert die Optimierung, während die Leistungsgewinne beim Einsatz ohne zusätzliche Inferenzkosten erhalten bleiben. In Umgebungen mit spärlicher Belohnung und agentenbasierten Reasoning-Benchmarks verbessert ERL durchgängig die Lerneffizienz und Endleistung gegenüber starken Reinforcement-Learning-Baselines und erzielt Gewinne von bis zu +81 % in komplexen, mehrstufigen Umgebungen und bis zu +11 % in werkzeugnutzenden Reasoning-Aufgaben. Diese Ergebnisse legen nahe, dass die Integration expliziter Selbstreflexion in das Policy-Training einen praktischen Mechanismus bietet, um Feedback in dauerhafte Verhaltensverbesserung umzuwandeln.
Bestehende multimodale Retrieval-Systeme sind zwar hervorragend im semantischen Abgleich, gehen jedoch implizit davon aus, dass die Relevanz zwischen Anfrage und Bild isoliert bewertet werden kann. Dieses Paradigma übersieht die reichhaltigen Abhängigkeiten, die in realistischen visuellen Datenströmen inhärent vorhanden sind, wo Informationen über zeitliche Sequenzen verteilt sind und nicht auf einzelne Momentaufnahmen beschränkt werden. Um diese Lücke zu schließen, stellen wir DeepImageSearch vor, ein neuartiges, agentenbasiertes Paradigma, das Bildersuche als autonome Erkundungsaufgabe neu formuliert. Modelle müssen mehrstufige Reasoning-Prozesse über rohe visuelle Verläufe planen und durchführen, um Ziele anhand impliziter kontextueller Hinweise zu lokalisieren. Wir konstruieren DISBench, einen anspruchsvollen Benchmark, der auf vernetzten visuellen Daten basiert. Um die Skalierbarkeitsherausforderung bei der Erstellung kontextabhängiger Abfragen zu bewältigen, schlagen wir eine Mensch-Modell-Kollaborationspipeline vor, die Vision-Language-Modelle einsetzt, um latente raumzeitliche Assoziationen zu extrahieren und so die aufwändige Kontexterkundung vor der menschlichen Verifikation zu entlasten. Darüber hinaus entwickeln wir eine robuste Baseline mit einem modularen Agenten-Framework, das mit feinkörnigen Werkzeugen und einem dualen Gedächtnissystem für langfristige Navigation ausgestattet ist. Umfangreiche Experimente zeigen, dass DISBench erhebliche Herausforderungen für state-of-the-art Modelle darstellt und die Notwendigkeit unterstreicht, agentenbasiertes Reasoning in Retrieval-Systeme der nächsten Generation zu integrieren.
Wir stellen Nanbeige4.1-3B vor, ein vereinheitlichtes, generalistisches Sprachmodell, das mit nur 3 Milliarden Parametern gleichzeitig starkes agentisches Verhalten, Code-Generierung und allgemeine Reasoning-Fähigkeiten erreicht. Nach unserem Wissen ist es das erste quelloffene Small Language Model (SLM), das eine solche Vielseitigkeit in einem einzigen Modell erreicht. Um das Reasoning und die Präferenzausrichtung zu verbessern, kombinieren wir punktuelle und paarweise Belohnungsmodellierung, um hochwertige, menschenähnliche Antworten zu gewährleisten. Für die Code-Generierung haben wir komplexitätsabhängige Belohnungen im Reinforcement Learning entworfen, die sowohl Korrektheit als auch Effizienz optimieren. Bei der Tiefensuche führen wir eine komplexe Datensynthese durch und integrieren turn-basierte Überwachung während des Trainings. Dies ermöglicht stabile Tool-Interaktionen über lange Horizonte, sodass Nanbeige4.1-3B zuverlässig bis zu 600 Tool-Aufrufe für komplexe Problemlösungen ausführen kann. Umfangreiche experimentelle Ergebnisse zeigen, dass Nanbeige4.1-3B frühere Modelle ähnlicher Größe, wie Nanbeige4-3B-2511 und Qwen3-4B, deutlich übertrifft und sogar eine überlegene Leistung im Vergleich zu viel größeren Modellen wie Qwen3-30B-A3B erzielt. Unsere Ergebnisse demonstrieren, dass kleine Modelle gleichzeitig breite Kompetenz und starke Spezialisierung erreichen können und damit das Potenzial von 3-Milliarden-Parameter-Modellen neu definieren.
Große Sprachmodelle entwickeln sich von allgemeinen Wissensmaschinen hin zu praxisorientierten Problemlösern, doch ihre Optimierung für tiefgreifende Suchaufgaben bleibt eine Herausforderung. Der zentrale Engpass liegt in der extremen Spärlichkeit hochwertiger Suchtrajektorien und Belohnungssignale, die sich aus der Schwierigkeit skalierbarer Konstruktion langfristiger Aufgaben und den hohen Kosten interaktionsintensiver Rollouts mit externen Tool-Aufrufen ergibt. Um diese Herausforderungen zu bewältigen, schlagen wir REDSearcher vor, einen einheitlichen Rahmen, der komplexe Tasksynthese, Mid-Training und Post-Training für skalierbare Suchagenten-Optimierung codesigniert. Konkret führt REDSearcher folgende Verbesserungen ein: (1) Wir formulieren Tasksynthese als dual-optimiertes Problem, bei dem die Aufgabenschwierigkeit präzise durch Graphentopologie und Evidenzverteilung gesteuert wird, was skalierbare Generierung komplexer, hochwertiger Aufgaben ermöglicht. (2) Wir führen tool-augmentierte Abfragen ein, um proaktive Tool-Nutzung statt passiver Wissensabfrage zu fördern. (3) Während des Mid-Trainings stärken wir Kernfähigkeiten – Wissen, Planung und Funktionsaufrufe – und reduzieren so die Kosten für das Sammeln hochwertiger Trajektorien für nachgelagertes Training erheblich. (4) Wir bauen eine lokale Simulationsumgebung, die schnelle, kostengünstige algorithmische Iteration für Reinforcement-Learning-Experimente ermöglicht. In Benchmarks für textbasierte und multimodale Suchagenten erzielt unser Ansatz state-of-the-art-Leistung. Um zukünftige Forschung zu langfristigen Suchagenten zu fördern, werden wir 10.000 hochwertige komplexe Textsuchtrajektorien, 5.000 multimodale Trajektorien und 1.000 textbasierte RL-Abfragesets zusammen mit Code und Modell-Checkpoints veröffentlichen.
Wir stellen BitDance vor, einen skalierbaren autoregressiven (AR) Bildgenerator, der binäre visuelle Token anstelle von Codebook-Indizes vorhersagt. Durch hoch-entropische binäre Latents ermöglicht BitDance jedem Token, bis zu 2^{256} Zustände darzustellen, was eine kompakte und dennoch hochgradig expressive diskrete Repräsentation ergibt. Die Stichprobenentnahme aus einem derart großen Token-Raum ist mit Standard-Klassifikation schwierig. Um dies zu lösen, verwendet BitDance einen binären Diffusionskopf: Anstatt einen Index mit Softmax vorherzusagen, setzt es Continuous-Space-Diffusion ein, um die binären Token zu generieren. Darüber hinaus schlagen wir Next-Patch-Diffusion vor, eine neue Decodier-Methode, die mehrere Token parallel mit hoher Genauigkeit vorhersagt und die Inferenz erheblich beschleunigt. Auf ImageNet 256x256 erreicht BitDance einen FID von 1,24, den besten Wert unter AR-Modellen. Mit Next-Patch-Diffusion übertrifft BitDance state-of-the-art parallele AR-Modelle, die 1,4B Parameter verwenden, während es 5,4x weniger Parameter (260M) benötigt und eine 8,7x Beschleunigung erreicht. Für die Text-zu-Bild-Generierung trainiert BitDance auf großskaligen multimodalen Token und erzeugt effizient hochauflösende, fotorealistische Bilder, was starke Leistung und günstige Skalierbarkeit zeigt. Bei der Generierung von 1024x1024 Bildern erreicht BitDance eine Beschleunigung von über 30x im Vergleich zu früheren AR-Modellen. Wir veröffentlichen Code und Modelle, um weitere Forschung zu AR-Foundation-Models zu erleichtern. Code und Modelle sind verfügbar unter: https://github.com/shallowdream204/BitDance.
Industrielles Nutzerrepräsentationslernen erfordert eine Balance zwischen robuster Universalität und akuter Aufgabenbezogenheit. Bisherige Paradigmen erzeugen jedoch primär statische, aufgabenagnostische Einbettungen, die divergierende Anforderungen nachgelagerter Szenarien in vereinheitlichten Vektorräumen nur unzureichend vereinen können. Zudem führen heterogene Multi-Source-Daten zu inhärentem Rauschen und Modalitätskonflikten, was die Repräsentationsqualität beeinträchtigt. Wir stellen Query-as-Anchor vor – ein Framework, das Nutzermodellierung von statischer Kodierung zu dynamischer, abfragebewusster Synthese weiterentwickelt. Um Large Language Models (LLMs) mit tiefgehendem Nutzerverständnis auszustatten, konstruieren wir zunächst UserU, einen industriellen Vortrainingsdatensatz, der multimodale Verhaltenssequenzen mit Nutzerverständnissemantik abgleicht. Unsere Q-Anchor-Embedding-Architektur integriert hierarchische Grob-zu-Fein-Encoder via joint contrastive-autoregressiver Optimierung in dual-tower LLMs für abfragebewusste Nutzerrepräsentation. Um die Lücke zwischen allgemeinem Vortraining und spezifischer Geschäftslogik zu überbrücken, führen wir Cluster-based Soft Prompt Tuning ein, das diskriminative latente Strukturen erzwingt und die Modellaufmerksamkeit effektiv mit szenariospezifischen Modalitäten abstimmt. Für das Deployment ermöglicht das Verankern von Abfragen an Sequenzenden KV-Cache-beschleunigte Inferenz mit vernachlässigbarer Latenzzunahme. Evaluationen auf 10 industriellen Alipay-Benchmarks zeigen durchgängige State-of-the-Art-Leistung, hohe Skalierbarkeit und effiziente Deployment-Fähigkeit. Großangelegte Online-A/B-Tests im Alipay-Produktivsystem über zwei reale Szenarien validieren die praktische Wirksamkeit. Unser Code wird zur Veröffentlichung vorbereitet und unter https://github.com/JhCircle/Q-Anchor verfügbar sein.
Inference-Time-Compute (ITC)-Methoden wie Best-of-N und Tree-of-Thoughts sollen Ausgabe-Kandidaten erzeugen, die sowohl hochwertig als auch vielfältig sind, doch ihre Verwendung von Hochtemperatur-Sampling führt oft nicht zu einer bedeutungsvollen Ausgabevielfalt. Darüber hinaus bieten bestehende ITC-Methoden nur begrenzte Kontrolle darüber, wie die Schlussfolgerung durchgeführt wird, was wiederum ihre Erklärbarkeit einschränkt. Wir stellen STATe-of-Thoughts (STATe) vor, eine interpretierbare ITC-Methode, die über hochrangige Denkmuster sucht. STATe ersetzt stochastisches Sampling durch diskrete und interpretierbare textuelle Interventionen: Ein Controller wählt Aktionen aus, die hochrangige Denkentscheidungen kodieren, ein Generator erzeugt darauf aufbauende Denkschritte, und ein Bewerter bewertet Kandidaten, um die Suche zu steuern. Dieser strukturierte Ansatz bietet drei Hauptvorteile. Erstens erzeugen aktionsgesteuerte textuelle Interventionen eine größere Antwortvielfalt als temperaturbasiertes Sampling. Zweitens erfasst in einer Fallstudie zur Argumentgenerierung die explizite Aktionsfolge von STATe interpretierbare Merkmale, die die Ausgabequalität hochgradig vorhersagbar machen. Drittens ermöglicht die Schätzung des Zusammenhangs zwischen Leistung und Aktionsauswahl, vielversprechende, aber unerforschte Regionen des Aktionsraums zu identifizieren und die Generierung direkt dorthin zu lenken. Zusammengenommen etablieren diese Ergebnisse STATe als praktisches Framework zur Erzeugung von hochwertigem, vielfältigem und interpretierbarem Text. Unser Framework ist verfügbar unter https://github.com/zbambergerNLP/state-of-thoughts.
Die rasante Entwicklung großer Sprachmodelle hat einen Schub in der Produktion wissenschaftlicher Ideen katalysiert, doch diesem Sprung ist kein entsprechender Fortschritt in der Bewertung von Ideen gefolgt. Die grundlegende Natur der wissenschaftlichen Bewertung erfordert fundiertes Wissen, kollektive Beratung und multikriterielle Entscheidungsfindung. Allerdings leiden bestehende Methoden zur Ideenbewertung oft unter begrenzten Wissenshorizonten, vereinfachten Bewertungsdimensionen und der inhärenten Verzerrung von LLM-as-a-Judge. Um diese Probleme anzugehen, betrachten wir die Ideenbewertung als ein wissensbasiertes, multiperspektivisches Reasoning-Problem und führen InnoEval ein, ein tiefgehendes Innovationsbewertungsframework, das entwickelt wurde, um eine menschenähnliche Ideenbewertung zu emulieren. Wir verwenden eine heterogene Wissenssuchmaschine, die dynamische Evidenz aus verschiedenen Online-Quellen abruft und verankert. Darüber hinaus erreichen wir einen Bewertungskonsens durch ein Innovationsgremium, das Gutachter mit unterschiedlichen akademischen Hintergründen umfasst und so eine mehrdimensionale, entkoppelte Bewertung über mehrere Metriken hinweg ermöglicht. Wir konstruieren umfassende Datensätze, die auf autoritativen, begutachteten Einreichungen basieren, um InnoEval zu benchmarken. Experimente zeigen, dass InnoEval Baseline-Methoden durchgängig in punktuellen, paarweisen und gruppenweisen Bewertungsaufgaben übertreffen kann und Urteilsmuster sowie einen Konsens zeigt, die stark mit denen menschlicher Experten übereinstimmen.
Die Datenqualität bestimmt die Leistung von Fundamentalmodellen, doch es mangelt an systematischen Verarbeitungsrahmen. Wir stellen Data Darwinism vor, eine zehnstufige Taxonomie (L0-L9), die die Ko-Evolution von Daten und Modellen konzeptualisiert: fortgeschrittene Modelle erzeugen überlegene Daten für Systeme der nächsten Generation. Wir validieren dies an wissenschaftlicher Literatur durch die Erstellung von Darwin-Science, einem Korpus mit 900 Milliarden Tokens (L0-L5). Wir identifizieren eine Erlernbarkeitslücke in Rohtexten wissenschaftlicher Literatur, die wir durch L4 (Generative Verfeinerung) und L5 (Kognitive Vervollständigung) mit modernsten LLMs überbrücken, um Argumentationsgänge und Terminologie zu explizieren. Um eine rigorose Zuschreibung zu gewährleisten, pretrainierten wir daVinci-origin-3B/7B-Modelle von Grund auf, wobei wissenschaftliche Inhalte ausgeschlossen wurden, um kontaminationsfreie Baseline-Modelle zu schaffen. Nach 600 Milliarden Tokens weiteren Pre-Trainings übertrifft Darwin-Science die Baseline-Modelle um +2,12 (3B) bzw. +2,95 (7B) Punkte über 20+ Benchmarks hinweg und steigt auf +5,60 bzw. +8,40 Punkte bei domänenalignierten Aufgaben. Der systematische Fortschritt zu L5 erzielt einen Gesamtgewinn von +1,36 Punkten, was bestätigt, dass höherwertige Verarbeitung latenten Datenwert erschließt. Wir veröffentlichen den Darwin-Science-Korpus und die daVinci-origin-Modelle, um eine prinzipienbasierte, ko-evolutionäre Entwicklung zu ermöglichen.
Vereinheitlichte multimodale Large Language Models (MLLMs) benötigen eine visuelle Repräsentation, die gleichzeitig hochauflösende Rekonstruktion, komplexe Semantikextraktion und generative Eignung unterstützt. Bisherige visuelle Tokenizer sind jedoch typischerweise nicht in der Lage, diese widersprüchlichen Ziele innerhalb eines einzigen Frameworks zu erfüllen. In dieser Arbeit stellen wir UniWeTok vor, einen vereinheitlichten diskreten Tokenizer, der diese Lücke unter Verwendung eines massiven binären Codebuchs (2^{128}) schließen soll. Für das Trainingsframework führen wir Pre-Post-Distillation und einen Generative-Aware Prior ein, um die Semantikextraktion und die generative Priorverteilung der diskreten Tokens zu verbessern. Hinsichtlich der Modellarchitektur schlagen wir eine Hybridarchitektur aus Faltung und Attention mit der SigLu-Aktivierungsfunktion vor. Die SigLu-Aktivierung begrenzt nicht nur die Encoder-Ausgabe und stabilisiert den Semantik-Distillationsprozess, sondern löst auch effektiv den Optimierungskonflikt zwischen Token-Entropieverlust und Commitment-Verlust. Wir schlagen weiterhin ein dreistufiges Trainingsframework vor, das entwickelt wurde, um die Anpassungsfähigkeit von UniWeTok über verschiedene Bildauflösungen und wahrnehmungssensitive Szenarien hinweg zu verbessern, wie beispielsweise solche mit menschlichen Gesichtern und Textinhalten. Auf ImageNet erzielt UniWeTok state-of-the-art Bildgenerierungsleistung (FID: UniWeTok 1,38 vs. REPA 1,42) bei bemerkenswert geringem Rechenaufwand für das Training (Trainings-Tokens: UniWeTok 33B vs. REPA 262B). Im Allgemeinbereich demonstriert UniWeTok hochgradig wettbewerbsfähige Fähigkeiten in einem breiten Aufgabenspektrum, einschließlich multimodalen Verstehens, Bildgenerierung (DPG Score: UniWeTok 86,63 vs. FLUX.1 [Dev] 83,84) und Bearbeitung (GEdit Overall Score: UniWeTok 5,09 vs. OmniGen 5,06). Wir veröffentlichen Code und Modelle, um die Erforschung vereinheitlichter Tokenizer und MLLMs durch die Community zu erleichtern.
Die Bewertung, ob multimodale große Sprachmodelle (MLLMs) tatsächlich physikalische Dynamiken verstehen, bleibt eine Herausforderung. Die meisten bestehenden Benchmarks stützen sich auf erkennungsbasierte Protokolle wie Visual Question Answering (VQA) und Verletzung der Erwartung (VoE), die oft beantwortet werden können, ohne sich auf eine explizite, überprüfbare physikalische Hypothese festzulegen. Wir schlagen VisPhyWorld vor, ein ausführungsbasiertes Framework, das physikalisches Verständnis evaluiert, indem es Modelle dazu anhält, aus visuellen Beobachtungen ausführbaren Simulatorcode zu generieren. Durch die Erzeugung von ausführbarem Code wird die abgeleitete Weltrepräsentation direkt überprüfbar, editierbar und falsifizierbar. Dies trennt physikalisches Verständnis vom Rendering. Aufbauend auf diesem Framework führen wir VisPhyBench ein, das 209 Testszenen umfasst, die aus 108 physikalischen Templates abgeleitet wurden, sowie ein systematisches Protokoll, das bewertet, wie gut Modelle das Erscheinungsbild rekonstruieren und physikalisch plausible Bewegungen reproduzieren. Unsere Pipeline erzeugt auf dem Benchmark in 97,7 % der Fälle gültige rekonstruierte Videos. Experimente zeigen, dass state-of-the-art MLLMs zwar ein starkes semantisches Szenenverständnis erreichen, es ihnen jedoch schwerfällt, physikalische Parameter präzise abzuleiten und konsistente physikalische Dynamiken zu simulieren.
Dieses Papier entwirft eine Quantendatenbank (Qute), die Quantenberechnung als erstklassige Ausführungsoption behandelt. Anders als frühere simulationsbasierte Methoden, die Quantenalgorithmen entweder auf klassischen Maschinen ausführen oder bestehende Datenbanken für Quantensimulationen anpassen, kompiliert Qute stattdessen (i) eine erweiterte Form von SQL in gattereffiziente Quantenschaltkreise, (ii) verwendet einen hybriden Optimierer, der dynamisch zwischen Quanten- und klassischen Ausführungsplänen auswählt, (iii) führt selektive Quantenindizierung ein und (iv) entwirft treueschützende Speicherung, um aktuellen Qubit-Beschränkungen entgegenzuwirken. Wir stellen außerdem einen dreistufigen Entwicklungsfahrplan für eine quantennative Datenbank vor. Abschließend zeigen wir durch die Bereitstellung von Qute auf einem echten Quantenprozessor (Origin_Wukong), dass es bei Skalierung eine klassische Referenzlösung übertrifft, und wir veröffentlichen einen Open-Source-Prototypen unter https://github.com/weAIDB/Qute.
Die Konfiguration agentenbasierter Systeme auf LLM-Basis erfordert die Auswahl von Workflows, Werkzeugen, Token-Budgets und Prompts aus einem großen kombinatorischen Designraum und wird heute typischerweise durch feste große Vorlagen oder manuell optimierte Heuristiken gehandhabt. Dies führt zu sprödem Verhalten und unnötigem Rechenaufwand, da dieselbe umständliche Konfiguration oft sowohl für einfache als auch für schwierige Eingabeanfragen angewendet wird. Wir formulieren die Agentenkonfiguration als ein anfragenspezifisches Entscheidungsproblem und führen ARC (Agentic Resource & Configuration Learner) ein, das eine leichtgewichtige hierarchische Policy mittels Reinforcement Learning erlernt, um diese Konfigurationen dynamisch anzupassen. In mehreren Benchmarks, die reasoning und werkzeuggestützte Fragebeantwortung umfassen, übertrifft die gelernte Policy durchgängig starke manuell gestaltete und andere Baseline-Ansätze, erreicht bis zu 25 % höhere Aufgabengenauigkeit und reduziert gleichzeitig Token- und Laufzeitkosten. Diese Ergebnisse demonstrieren, dass das anfragenspezifische Lernen von Agentenkonfigurationen eine leistungsstarke Alternative zu "One-size-fits-all"-Designs darstellt.
Web-Agenten benötigen umfangreiche Trajektorien zur Generalisierung, doch das Training in der realen Welt wird durch Netzwerklatenz, Ratenbegrenzungen und Sicherheitsrisiken eingeschränkt. Wir stellen die WebWorld-Serie vor, den ersten Open-Web-Simulator, der in großem Maßstab trainiert wurde. Während bestehende Simulatoren auf abgeschlossene Umgebungen mit Tausenden von Trajektorien beschränkt sind, nutzt WebWorld eine skalierbare Datenpipeline, um mit über 1 Million Open-Web-Interaktionen zu trainieren, und unterstützt dabei Reasoning, Multi-Format-Daten sowie langfristige Simulationen mit über 30 Schritten. Für die intrinsische Evaluation führen wir WebWorld-Bench mit dualen Metriken über neun Dimensionen ein, wobei WebWorld eine mit Gemini-3-Pro vergleichbare Simulationsleistung erzielt. Für die extrinsische Evaluation verbessert sich Qwen3-14B, das auf WebWorld-synthetisierten Trajektorien trainiert wurde, um +9,2 % auf WebArena und erreicht eine mit GPT-4o vergleichbare Leistung. WebWorld ermöglicht eine effektive Inferenzzeitsuche und übertrifft GPT-5 als Weltmodell. Über die Web-Simulation hinaus zeigt WebWorld domänenübergreifende Generalisierungsfähigkeiten für Code-, GUI- und Spielumgebungen und bietet damit eine reproduzierbare Methode zur Konstruktion von Weltmodellen.
Multimodale große Sprachmodelle (MLLMs), die mit zunehmend fortschrittlichen Planungs- und Werkzeugnutzungsfähigkeiten ausgestattet sind, entwickeln sich zu autonomen Agenten, die in der Lage sind, multimodales Web-Browsing und Tiefensuche in offenen Umgebungen durchzuführen. Allerdings sind bestehende Benchmarks für multimodales Browsing nach wie vor in Bezug auf Aufgabenkomplexität, Zugänglichkeit von Beweisen und Evaluierungsgranularität begrenzt, was umfassende und reproduzierbare Bewertungen von Tiefensuchfähigkeiten behindert. Um diese Einschränkungen zu adressieren, stellen wir BrowseComp-V^3 vor, einen neuartigen Benchmark, der aus 300 sorgfältig zusammengestellten und anspruchsvollen Fragen aus verschiedenen Domänen besteht. Der Benchmark betont tiefgreifende, mehrstufige und cross-modale Multi-Hop-Argumentation, bei der kritische Beweise über textuelle und visuelle Modalitäten hinweg innerhalb und zwischen Webseiten verwoben sind. Alle unterstützenden Beweise müssen streng öffentlich suchbar sein, um Fairness und Reproduzierbarkeit zu gewährleisten. Über die reine Endantwort-Genauigkeit hinaus integrieren wir einen expertenvalidierten, teilzielgesteuerten Prozessevaluierungsmechanismus, der eine feinkörnige Analyse von Zwischenargumentationsverhalten und eine systematische Charakterisierung von Fähigkeitsgrenzen ermöglicht. Zusätzlich schlagen wir OmniSeeker vor, einen einheitlichen Framework für multimodale Browser-Agenten, der verschiedene Web-Such- und visuelle Wahrnehmungswerkzeuge integriert. Umfassende Experimente zeigen, dass selbst state-of-the-art Modelle auf unserem Benchmark nur eine Genauigkeit von 36 % erreichen, was kritische Engpässe bei der multimodalen Informationsintegration und der feinkörnigen Wahrnehmung aufdeckt. Unsere Ergebnisse verdeutlichen eine fundamentale Lücke zwischen den aktuellen Modellfähigkeiten und einer robusten multimodalen Tiefensuche in realen Szenarien.
Die Nutzung multimodaler großer Sprachmodelle (MLLMs) hat sich als entscheidend für die Weiterentwicklung universeller multimodaler Embeddings (UME) zur Bewältigung vielfältiger cross-modaler Aufgaben erwiesen. Jüngste Studien zeigen, dass die Einbeziehung generativer Chain-of-Thought (CoT)-Reasoning-Prozesse task-spezifische Repräsentationen im Vergleich zu diskriminativen Methoden erheblich verbessern kann. Allerdings beschränken sich die generierten Reasoning-CoTs bestehender generativer Embedding-Methoden auf die textuelle Analyse von Anfragen und sind für den Abruf der Ziele irrelevant. Um diese Einschränkungen zu überwinden, schlagen wir ein reasoning-gesteuertes UME-Framework vor, das Embedder-geführtes bestärkendes Lernen (EG-RL) integriert, um den Reasoner zu optimieren, evidenzbasierte Traceability-CoTs (T-CoTS) zu erzeugen. Unsere wesentlichen Beiträge sind dreifach: (1) Wir entwerfen ein EG-RL-Framework, bei dem der Embedder explizite Supervision für den Reasoner bereitstellt und sicherstellt, dass die generierten CoT-Spuren mit Embedding-Aufgaben abgestimmt sind. (2) Wir führen T-CoTS ein, die kritische multimodale Hinweise extrahieren, um auf abrufrelevante Elemente zu fokussieren, und multimodale Eingaben für den Embedder liefern. (3) Mit begrenzten Rechenressourcen übertrifft unser Framework das wegweisende Embedding-Modell auf beiden Benchmarks MMEB-V2 und UVRB. Die Integration multimodaler Evidenz in strukturiertes Reasoning, gepaart mit abruforientierter Ausrichtung, stärkt effektiv die cross-modale semantische Konsistenz und steigert sowohl die Feinabstimmungsfähigkeit des Modells als auch die Generalisierung über komplexe Szenarien hinweg. Unsere Arbeit zeigt, dass zielgerichtete Reasoning-Optimierung die Qualität multimodaler Embeddings signifikant verbessern kann und eine praktische sowie effiziente Lösung für reasoning-gesteuerte UME-Entwicklung bietet.
Diffusions-Sprachmodelle (dLLMs) sind kürzlich als vielversprechende Alternative zu autoregressiven LLMs aufgetaucht. Die neuesten Arbeiten haben sie weiter auf multimodale Verstehens- und Generierungsaufgaben ausgeweitet. In dieser Arbeit stellen wir LaViDa-R1 vor, ein multimodales, allgemeines Reasoning-dLLM. Im Gegensatz zu bestehenden Arbeiten, die Reasoning-dLLMs durch aufgabenspezifisches Reinforcement Learning aufbauen, integriert LaViDa-R1 verschiedene multimodale Verstehens- und Generierungsaufgaben auf einheitliche Weise. Insbesondere wird LaViDa-R1 mit einem neuartigen, einheitlichen Post-Training-Framework aufgebaut, das supervised Finetuning (SFT) und Multi-Task-Reinforcement-Learning (RL) nahtlos integriert. Es setzt mehrere neuartige Trainingstechniken ein, darunter Answer-Forcing, Tree-Search und komplementäre Likelihood-Schätzung, um Wirksamkeit und Skalierbarkeit zu verbessern. Umfangreiche Experimente belegen die starke Leistung von LaViDa-R1 bei einer Vielzahl multimodaler Aufgaben, einschließlich visueller mathematischer Reasoningaufgaben, reason-intensivem Grounding und Bildbearbeitung.
Die Aufrechterhaltung einer räumlichen Weltkonsistenz über lange Zeiträume hinweg bleibt eine zentrale Herausforderung für kamerasteuerbare Videogenerierung. Bestehende speicherbasierte Ansätze konditionieren die Erzeugung oft auf global rekonstruierten 3D-Szenen, indem Ankervideos aus der rekonstruierten Geometrie der Vergangenheit gerendert werden. Die Rekonstruktion einer globalen 3D-Szene aus mehreren Blickwinkeln führt jedoch unweigerlich zu Blickwinkel-Fehlausrichtungen, da Schätzfehler in Pose und Tiefe dazu führen, dass dieselben Oberflächen in verschiedenen Blickwinkeln an leicht unterschiedlichen 3D-Positionen rekonstruiert werden. Beim Zusammenführen akkumulieren diese Inkonsistenzen zu verrauschter Geometrie, die die Konditionierungssignale verunreinigt und die Generierungsqualität beeinträchtigt. Wir stellen AnchorWeave vor, einen speichererweiterten Videogenerierungsrahmen, der einen einzelnen fehlausgerichteten globalen Speicher durch mehrere saubere lokale geometrische Speicher ersetzt und erlernt, deren Blickwinkel-Inkonsistenzen auszugleichen. Zu diesem Zweck führt AnchorWeave eine abdeckungsgesteuerte Lokalspeicher-Abrufung durch, die an die Zieltrajektorie angepasst ist, und integriert die ausgewählten lokalen Speicher während der Generierung über einen Multi-Anker-Webcontroller. Umfangreiche Experimente zeigen, dass AnchorWeave die langfristige Szenenkonsistenz signifikant verbessert und dabei eine hohe visuelle Qualität beibehält. Ablations- und Analysestudien validieren weiterhin die Wirksamkeit der lokalen geometrischen Konditionierung, der Multi-Anker-Steuerung und des abdeckungsgesteuerten Abrufs.
Konversationelle Bildsegmentierung verankert abstrakte, intentionsgesteuerte Konzepte in pixelgenauen Masken. Bisherige Arbeiten zur referenziellen Bildverankerung konzentrieren sich auf kategoriale und räumliche Anfragen (z.B. "der linkeste Apfel") und vernachlässigen funktionales und physikalisches Reasoning (z.B. "wo kann ich das Messer sicher aufbewahren?"). Wir schließen diese Lücke und führen Konversationelle Bildsegmentierung (CIS) und ConverSeg ein – einen Benchmark, der Entitäten, räumliche Beziehungen, Absicht, Affordanzen, Funktionen, Sicherheit und physikalisches Abwogen umfasst. Wir stellen außerdem ConverSeg-Net vor, das starke Segmentierungs-Prioritäten mit Sprachverständnis fusioniert, sowie eine KI-gestützte Daten-Engine, die Prompt-Masken-Paare ohne menschliche Aufsicht generiert. Wir zeigen, dass aktuelle sprachgesteuerte Segmentierungsmodelle für CIS unzureichend sind, während ConverSeg-Net, das auf unserer Daten-Engine trainiert wurde, signifikante Verbesserungen auf ConverSeg erzielt und gleichzeitig hohe Leistung auf bestehenden sprachgesteuerten Segmentierungs-Benchmarks beibehält. Projektwebseite: https://glab-caltech.github.io/converseg/
Das Verständnis und die Erzeugung menschlicher Bewegungen sind entscheidend für die Bereiche Computer Vision und Robotik, bleiben jedoch in ihrer Fähigkeit zum logischen Schließen und zur Planung zur Testzeit eingeschränkt. Wir stellen MoRL vor, ein einheitliches multimodales Bewegungsmodell, das durch supervidiertes Fine-Tuning sowie Verstärkendes Lernen mit verifizierbaren Belohnungen trainiert wird. Unser aufgabenspezifisches Belohnungsdesign kombiniert semantische Ausrichtung und Schlussfolgerungskohärenz für das Verständnis mit physikalischer Plausibilität und Text-Bewegungs-Konsistenz für die Erzeugung, wodurch sowohl das logische Denken als auch die perzeptive Realität verbessert werden. Um die Inferenz weiter zu verbessern, führen wir Chain-of-Motion (CoM) ein, eine Reasoning-Methode zur Testzeit, die schrittweise Planung und Reflexion ermöglicht. Zudem erstellen wir zwei groß angelegte CoT-Datensätze, MoUnd-CoT-140K und MoGen-CoT-140K, um Bewegungssequenzen mit Reasoning-Pfaden und Aktionsbeschreibungen abzugleichen. Experimente auf HumanML3D und KIT-ML zeigen, dass MoRL signifikante Verbesserungen gegenüber state-of-the-art Baseline-Modellen erzielt. Code: https://github.com/AIGeeksGroup/MoRL. Website: https://aigeeksgroup.github.io/MoRL.
Wir stellen FireRed-Image-Edit vor, einen Diffusion-Transformer für instruktionsbasiertes Bildbearbeiten, der durch systematische Optimierung von Datenkuratierung, Trainingsmethodik und Evaluierungsdesign state-of-the-art Leistung erzielt. Wir erstellen einen Trainingskorpus mit 1,6 Milliarden Beispielen, bestehend aus 900 Millionen Text-zu-Bild- und 700 Millionen Bildbearbeitungspaaren aus verschiedenen Quellen. Nach rigoroser Bereinigung, Schichtung, automatischer Beschriftung und zweistufiger Filterung behalten wir über 100 Millionen hochwertige Beispiele bei, die zwischen Generierung und Bearbeitung ausbalanciert sind und eine starke semantische Abdeckung sowie Instruktionsausrichtung gewährleisten. Unsere mehrstufige Trainingspipeline baut Bearbeitungsfähigkeiten schrittweise durch Pre-Training, überwachtes Feinabstimmen und Verstärkungslernen auf. Um die Dateneffizienz zu verbessern, führen wir einen Multi-Condition Aware Bucket Sampler für Batch-Verarbeitung mit variabler Auflösung sowie Stochastic Instruction Alignment mit dynamischer Prompt-Neuindizierung ein. Zur Stabilisierung der Optimierung und Verbesserung der Steuerbarkeit schlagen wir Asymmetric Gradient Optimization für DPO, DiffusionNFT mit layoutbewussten OCR-Belohnungen für Textbearbeitung und einen differenzierbaren Consistency Loss zur Identitätserhaltung vor. Des Weiteren etablieren wir REDEdit-Bench, einen umfassenden Benchmark, der 15 Bearbeitungskategorien abdeckt, einschließlich neu eingeführter Verschönerungs- und Low-Level-Verbesserungsaufgaben. Umfangreiche Experimente auf REDEdit-Bench und öffentlichen Benchmarks (ImgEdit und GEdit) demonstrieren wettbewerbsfähige oder überlegene Leistung im Vergleich zu Open-Source- und proprietären Systemen. Wir veröffentlichen Code, Modelle und die Benchmark-Suite, um zukünftige Forschung zu unterstützen.
KI-Code-Agenten verändern die Softwareentwicklung grundlegend, indem sie Aufgaben wie Feature-Entwicklung, Debugging und Tests übernehmen. Trotz ihrer wachsenden Bedeutung fehlt der Forschungsgemeinschaft ein umfassender Datensatz, der die Nutzung dieser Agenten in realen Projekten erfasst. Um diese Lücke zu schließen, stellen wir AIDev vor – einen groß angelegten Datensatz, der sich auf von Agenten verfasste Pull Requests (Agentic-PRs) in GitHub-Repositories konzentriert. AIDev umfasst 932.791 Agentic-PRs von fünf Agenten: OpenAI Codex, Devin, GitHub Copilot, Cursor und Claude Code. Diese PRs erstrecken sich über 116.211 Repositories und involvieren 72.189 Entwickler. Zusätzlich enthält AIDev einen kuratierten Teilbestand von 33.596 Agentic-PRs aus 2.807 Repositories mit mehr als 100 Sternen, ergänzt um Informationen wie Kommentare, Reviews, Commits und zugehörige Issues. Dieser Datensatz bildet eine Grundlage für künftige Forschung zu KI-Adoption, Entwicklerproduktivität und Mensch-KI-Kollaboration im neuen Zeitalter der Softwareentwicklung. > KI-Agent, Agentische KI, Code-Agent, Agentische Code-Erstellung, Agentische Softwareentwicklung, Agentische Entwicklung
Wir stellen LM-Lexicon vor, einen innovativen Ansatz für das Modellieren von Definitionen, der Datenclustering, semantisches Expertenlernen und das Zusammenführen von Modellen mittels einer spärlichen Mixture-of-Experts-Architektur integriert. Indem die Aufgabe des Definitionsmodellierens in spezialisierte semantische Domänen zerlegt wird, in denen kleine Sprachmodelle als Domain-Experten trainiert werden, erzielt LM-Lexicon erhebliche Verbesserungen (+7 % BLEU-Score im Vergleich zum bisherigen State-of-the-Art-Modell) gegenüber bestehenden Methoden auf fünf weit verbreiteten Benchmarks. Empirisch zeigen wir, dass 1) die Clustering-Strategie eine feingranuläre Expertenspezialisierung mit einer Verbesserung der Definitionsqualität von fast 10 % ermöglicht; 2) der semantisch bewusste Domain-Level-Routingmechanismus eine höhere Expertenwirksamkeit (+1 %) erreicht als konventionelles Token-Level-Routing; und 3) weitere Leistungssteigerungen durch Testzeit-Berechnung und Skalierung semantischer Experten erzielt werden können. Unsere Arbeit schreitet im Bereich des Definitionsmodellierens voran und liefert gleichzeitig Erkenntnisse für die Entwicklung effizienter Sprachmodelle für semantisch intensive Anwendungen.
Sonifikation – die Abbildung von Daten auf nicht-sprachliches Audio – bietet einen wenig erforschten Kanal zur Darstellung komplexer dynamischer Systeme. Wir behandeln die El Niño-Südliche Oszillation (ENSO), ein kanonisches Beispiel für niedrigdimensionale Klimachaos, als Testfall für kulturell situierte Sonifikation, die durch Komplexitätsdiagnostik evaluiert wird. Mittels parameterbasierter Sonifikation des Niño-3.4-Meeressoberflächentemperaturanomalie-Index (1870–2024) kodieren wir die ENSO-Variabilität in zwei traditionelle javanische Gamelan-Pentatoniken (Pelog und Slendro) über vier Kompositionsstrategien und analysieren die resultierenden Audiodaten als Trajektorien in einem zweidimensionalen akustischen Phasenraum. Rekurrenzbasierte Diagnostik, Konvexhüllengeometrie und Kopplungsanalyse zeigen, dass die Sonifikationspipeline Schlüsselsignaturen der Dynamik bewahrt: Wechselnde Modi erzeugen die höchsten Trajektorien-Rekurrenzraten, was der Quasiperiodizität von ENSO entspricht; geschichtete polyphone Modi erkunden die breitesten Phasenraumregionen; und die beiden Skalenfamilien induzieren qualitativ unterschiedliche Kopplungsregime zwischen spektraler Helligkeit und Energie – überwiegend gegenphasig in Pelog, aber nahezu unabhängig in Slendro. Die Phasenraum-Trajektorienanalyse bietet einen rigorosen geometrischen Rahmen zum Vergleich von Sonifikationsdesigns im Kontext komplexer Systeme. Perzeptive Validierung bleibt notwendig; wir tragen die Methodik der dynamischen Systeme zur Bewertung solcher Abbildungen bei.
Hochwertige generative Videobearbeitung hat durch die Nutzung vortrainierter Video-Foundation-Modelle erhebliche Qualitätsverbesserungen erfahren. Allerdings stellen deren Rechenkosten einen großen Engpass dar, da sie oft darauf ausgelegt sind, den gesamten Videokontext ineffizient zu verarbeiten – unabhängig von der Größe der Inpainting-Maske, selbst bei spärlichen, lokalisierten Bearbeitungen. In diesem Artikel stellen wir EditCtrl vor, ein effizientes Steuerungsframework für Video-Inpainting, das Rechenleistung nur dort konzentriert, wo sie benötigt wird. Unser Ansatz verfügt über ein neuartiges lokales Videokontextmodul, das ausschließlich auf maskierten Tokens operiert und so Rechenkosten erzeugt, die proportional zur Bearbeitungsgröße sind. Diese lokal-zentrierte Generierung wird anschließend von einem leichtgewichtigen temporalen Global-Kontext-Einbettungsmodul geleitet, das konsistente Kontextbeziehungen über das gesamte Video hinweg mit minimalem Mehraufwand gewährleistet. EditCtrl ist nicht nur 10-mal recheneffizienter als state-of-the-art generative Bearbeitungsmethoden, sondern verbessert sogar die Bearbeitungsqualität im Vergleich zu Methoden, die auf Voll-Attention ausgelegt sind. Abschließend demonstrieren wir, wie EditCtrl neue Fähigkeiten ermöglicht, einschließlich Mehrfachbereichs-Bearbeitung mit Textprompts und autoregressiver Inhaltsverbreitung.
Während die Plan-und-Füllen-Decodierung in Masked Diffusion Models (MDMs) vielversprechend für mathematisches und Code-basiertes Reasoning ist, bleibt die Leistung stark anfällig für die Reihenfolge des Slot-Füllens, was oft zu erheblichen Ausgabevarianzen führt. Wir stellen McDiffuSE vor, ein Framework, das die Slot-Auswahl als Entscheidungsfindung formuliert und die Füllreihenfolgen durch Monte-Carlo-Baumsuche (MCTS) optimiert. McDiffuSE nutzt Look-ahead-Simulationen, um partielle Vervollständigungen vor der endgültigen Festlegung zu bewerten und erkundet systematisch den kombinatorischen Raum der Generierungsreihenfolgen. Experimente zeigen eine durchschnittliche Verbesserung von 3,2 % gegenüber autoregressiven Baseline-Modellen und 8,0 % gegenüber der Plan-und-Füllen-Baseline, mit bemerkenswerten Steigerungen von 19,5 % auf MBPP und 4,9 % auf MATH500. Unsere Analyse zeigt, dass McDiffuSE zwar überwiegend einer sequenziellen Reihenfolge folgt, die Einbeziehung nicht-sequenzieller Generierung jedoch entscheidend für die Leistungsmaximierung ist. Wir beobachten, dass größere Explorationskonstanten – und nicht eine erhöhte Anzahl von Simulationen – notwendig sind, um Modellkonfidenzverzerrungen zu überwinden und effektive Reihenfolgen zu entdecken. Diese Ergebnisse etablieren MCTS-basierte Planung als einen effektiven Ansatz zur Steigerung der Generierungsqualität in MDMs.
Die Einzelzell-RNA-Sequenzierung (scRNA-seq) ermöglicht die atlas-skalige Profilerstellung komplexer Gewebe und deckt seltene Linien und transiente Zustände auf. Dennoch bleibt die Zuweisung biologisch valider Zellidentitäten ein Engpass, da Marker gewebe- und zustandsabhängig sind und neuartige Zustände keine Referenzen haben. Wir stellen CellMaster vor, einen KI-Agenten, der die Vorgehensweise von Experten zur Null-Stichproben-Zelltyp-Annotation nachahmt. Im Gegensatz zu bestehenden automatisierten Tools nutzt CellMaster LLM-kodiertes Wissen (z.B. GPT-4o), um eine sofortige Annotation mit interpretierbaren Begründungen durchzuführen, ohne Vorabtraining oder feste Marker-Datenbanken. Über 9 Datensätze aus 8 Geweben hinweg verbesserte CellMaster die Genauigkeit im automatischen Modus um 7,1 % gegenüber den besten Baseline-Methoden (einschließlich CellTypist und scTab). Mit menschlicher Beteiligung bei der Verfeinerung stieg dieser Vorteil auf 18,6 % an, mit einem Zuwachs von 22,1 % bei Subpopulationen. Das System zeigt besondere Stärke bei seltenen und neuartigen Zellzuständen, bei denen Baseline-Methoden oft versagen. Der Quellcode und die Webanwendung sind verfügbar unter https://github.com/AnonymousGym/CellMaster.
In diesem Ressourcenpapier stellen wir DHPLT vor, eine offene Sammlung diachroner Korpora in 41 verschiedenen Sprachen. DHPLT basiert auf den webgecrawlten HPLT-Datensätzen; wir verwenden die Zeitstempel des Web-Crawlings als annäherndes Signal für das Erstellungsdatum der Dokumente. Die Sammlung umfasst drei Zeiträume: 2011-2015, 2020-2021 und 2024-heute (jeweils 1 Million Dokumente pro Zeitraum und Sprache. Zusätzlich bieten wir vorberechnete Worttyp- und Token-Einbettungen sowie lexikalische Substitutionen für unsere ausgewählten Zielwörter an, ermöglichen es anderen Forschern aber gleichzeitig, eigene Zielwörter auf Basis derselben Datensätze zu definieren. DHPLT zielt darauf ab, die derzeitige Lücke an mehrsprachigen diachronen Korpora für die Modellierung semantischen Wandels (jenseits eines Dutzends hochressourcenstarker Sprachen) zu schließen. Es eröffnet die Möglichkeit für eine Vielzahl neuer experimenteller Aufbauten auf diesem Gebiet. Alle in diesem Artikel beschriebenen Ressourcen sind unter https://data.hplt-project.org/three/diachronic/ nach Sprachen sortiert verfügbar.
Die Raumakustikanalyse spielt eine zentrale Rolle in der Architekturplanung, der Audiotechnik, der Bewertung der Sprachverständlichkeit und der Höforschung. Trotz der Verfügbarkeit standardisierter Kenngrößen wie Nachhallzeit, Deutlichkeit und Sprachübertragungsindex sind zugängliche Werkzeuge, die rigorose Signalverarbeitung mit intuitiver Visualisierung verbinden, nach wie vor rar. Dieses Papier stellt AcoustiVision Pro vor, eine quelloffene, web-basierte Plattform für die umfassende Analyse von Raumimpulsantworten (RIR). Das System berechnet zwölf verschiedene akustische Parameter aus hochgeladenen oder aus Datensätzen bezogenen RIRs, bietet interaktive 3D-Visualisierungen früher Reflexionen, erzeugt frequenzabhängige Abklingcharakteristiken durch Wasserfalldiagramme und prüft die Einhaltung internationaler Normen wie ANSI S12.60 und ISO 3382. Wir stellen die begleitenden Datensätze RIRMega und RIRMega Speech vor, die auf Hugging Face gehostet werden und Tausende von simulierten Raumimpulsantworten mit vollständigen Metadaten enthalten. Die Plattform unterstützt Echtzeit-Auralisation durch FFT-basierte Faltung, exportiert detaillierte PDF-Berichte für die Ingenieurdokumentation und ermöglicht den CSV-Datenexport für weiterführende Analysen. Wir beschreiben die mathematischen Grundlagen jeder akustischen Kenngröße, erläutern im Detail die Systemarchitektur und präsentieren erste Fallstudien, die den Nutzen der Plattform in verschiedenen Anwendungsbereichen – darunter Klassenraumakustik, Planung von Gesundheitseinrichtungen und Bewertung von Tonstudios – demonstrieren.
Retrieval-Augmented Generation (RAG) hat sich zu einem Grundpfeiler für wissensintensive Anwendungen entwickelt, einschließlich Unternehmens-Chatbots, Gesundheitsassistenten und agentenbasierter Speicherverwaltung. Jüngste Studien zeigen jedoch, dass Wissensextraktionsangriffe sensible Inhalte der Wissensbasis durch böswillig konstruierte Abfragen wiederherstellen können, was ernste Bedenken hinsichtlich geistigen Eigentums und Datenschutzverletzungen aufwirft. Während frühere Arbeiten einzelne Angriffs- und Abwehrtechniken untersucht haben, bleibt die Forschungslage fragmentiert und erstreckt sich über heterogene Retrieval-Einbettungen, verschiedene Generierungsmodelle sowie Bewertungen auf Basis nicht standardisierter Metriken und inkonsistenter Datensätze. Um diese Lücke zu schließen, führen wir den ersten systematischen Benchmark für Wissensextraktionsangriffe auf RAG-Systeme ein. Unser Benchmark deckt ein breites Spektrum an Angriffs- und Abwehrstrategien, repräsentativen Retrieval-Einbettungsmodellen sowie Open-Source- und Closed-Source-Generatoren ab, die alle innerhalb eines einheitlichen experimentellen Rahmens mit standardisierten Protokollen über mehrere Datensätze hinweg bewertet werden. Durch die Konsolidierung der experimentellen Landschaft und die Ermöglichung reproduzierbarer, vergleichbarer Evaluation bietet dieser Benchmark umsetzbare Erkenntnisse und eine praktische Grundlage für die Entwicklung datenschutzbewusster RAG-Systeme im Angesicht neu auftretender Wissensextraktionsbedrohungen. Unser Code ist hier verfügbar.
Große Sprachmodelle (LLM) werden als Bewertungsinstrumente häufig neben traditionellen, algorithmusbasierten Metriken für Aufgaben wie die Zusammenfassung eingesetzt, da sie semantische Informationen besser erfassen, über bessere Fähigkeiten im logischen Schlussfolgern verfügen und robuster gegenüber Paraphrasierungen sind. Allerdings zeigen LLM-Bewerter unter anderem Verzerrungen zugunsten von Länge und Reihenfolge und sind anfällig für verschiedene adversariale Eingabe-Prompts. Während sich neuere Studien mit diesen Verzerrungen befasst haben, haben nur wenige diese auf einer granulareren Ebene in Bezug auf eine klar definierte Überlappungsmetrik analysiert. In dieser Arbeit liefern wir eine Analyse der Verzerrungen von LLM-Bewertern als Funktion der Überlappung mit von Menschen verfassten Antworten im Bereich der Textzusammenfassung. Wir testen 9 aktuelle LLMs mit Parameteranzahlen von 1 bis 12 Milliarden, einschließlich Varianten von Gemma 3 und LLaMA 3. Wir stellen fest, dass LLM-Bewerter zunehmend von anderen LLMs generierte Zusammenfassungen denen vorziehen, die von Menschen geschrieben wurden, sobald die Ähnlichkeiten (gemessen an ROUGE und BLEU) zwischen den bewerteten Zusammenfassungen abnehmen. Dieses Muster erstreckt sich auf alle bis auf ein getestetes Modell und besteht unabhängig von den positionsbedingten Verzerrungen der Modelle selbst. Darüber hinaus stellen wir fest, dass Modelle bereits bei Zusammenfassungen mit begrenzten Überlappungen Schwierigkeiten bei der Bewertung haben, was darauf hindeutet, dass der Einsatz von LLM-als-Bewerter im Bereich der Zusammenfassung auf Techniken jenseits eines einfachen Vergleichs angewiesen sein sollte.
Mit den zunehmenden Fähigkeiten großer Sprachmodelle wächst auch ihr Potenzial für Missbrauch. Während Closed-Source-Modelle typischerweise auf externe Abwehrmechanismen angewiesen sind, müssen Open-Weight-Modelle primär auf interne Sicherheitsvorkehrungen setzen, um schädliches Verhalten zu mindern. Bisherige Red-Teaming-Forschung konzentrierte sich weitgehend auf input-basiertes Jailbreaking und Manipulationen auf Parameter-Ebene. Open-Weight-Modelle unterstützen jedoch nativ auch Prefilling, was einem Angreifer erlaubt, initiale Antwort-Tokens vor Beginn der Generierung festzulegen. Trotz dieses Potenzials hat dieser Angriffsvektor bisher wenig systematische Beachtung gefunden. Wir präsentieren die bislang größte empirische Studie zu Prefill-Angriffen und evaluieren über 20 bestehende und neuartige Strategien an verschiedenen Modellfamilien und modernsten Open-Weight-Modellen. Unsere Ergebnisse zeigen, dass Prefill-Angriffe durchweg effektiv gegen alle bedeutenden aktuellen Open-Weight-Modelle sind und damit eine kritische, bisher unterschätzte Verwundbarkeit mit erheblichen Implikationen für den Einsatz aufdecken. Während bestimmte große Reasoning-Modelle eine gewisse Robustheit gegenüber generischem Prefilling zeigen, bleiben sie anfällig für maßgeschneiderte, modellspezifische Strategien. Unsere Erkenntnisse unterstreichen die dringende Notwendigkeit für Modellentwickler, Abwehrmaßnahmen gegen Prefill-Angriffe in Open-Weight-LLMs priorisiert zu behandeln.
LLM-gesteuerte Agenten beginnen damit, Aufgaben von Nutzern im offenen Web zu automatisieren, oft mit Zugriff auf Nutzerressourcen wie E-Mails und Kalender. Im Gegensatz zu Standard-LLMs, die Fragen in einer kontrollierten ChatBot-Umgebung beantworten, agieren Web-Agenten "in freier Wildbahn", interagieren mit Dritten und hinterlassen eine Aktionsspur. Daher stellen wir die Frage: Wie gehen Web-Agenten mit Nutzerressourcen um, wenn sie in deren Auftrag Aufgaben auf live-Websites erledigen? In diesem Artikel formalisieren wir "Natural Agentic Oversharing" – die unbeabsichtigte Offenlegung aufgabenirrelevanter Nutzerinformationen durch eine Agenten-Aktionsspur im Web. Wir stellen SPILLage vor, einen Rahmen, der Oversharing entlang zweier Dimensionen charakterisiert: Kanal (Inhalt vs. Verhalten) und Direktheit (explizit vs. implizit). Diese Taxonomie deckt einen kritischen blinden Fleck auf: Während sich frühere Arbeiten auf Textlecks konzentrieren, teilen Web-Agenten auch verhaltensbedingt zu viel durch Klicks, Scrolls und Navigationsmuster mit, die überwacht werden können. Wir benchmarken 180 Aufgaben auf Live-E-Commerce-Websites mit Ground-Truth-Annotationen, die aufgabenrelevante von aufgabenirrelevanten Attributen trennen. Über 1.080 Durchläufe hinweg, die zwei agentenbasierte Frameworks und drei zugrundeliegende LLMs umfassen, zeigen wir, dass Oversharing allgegenwärtig ist und verhaltensbedingtes Oversharing inhaltliches Oversharing um das 5-fache überwiegt. Dieser Effekt bleibt bestehen – und kann sich sogar verschlimmern – unter Prompt-basierter Abschwächung. Die Entfernung aufgabenirrelevanter Informationen vor der Ausführung verbessert die Aufgabenabschlussrate jedoch um bis zu 17,9 %, was zeigt, dass reduzierte Informationspreisgabe die Aufgabenerfüllung verbessert. Unsere Ergebnisse unterstreichen, dass der Schutz der Privatsphäre in Web-Agenten eine grundlegende Herausforderung darstellt, die eine weiter gefasste Sicht auf "Output" erfordert, die berücksichtigt, was Agenten im Web *tun*, nicht nur was sie tippen. Unsere Datensätze und Code sind verfügbar unter https://github.com/jrohsc/SPILLage.
Reinforcement Learning (RL) hat sich als dominantes Paradigma für End-to-End autonomes Fahren (AD) etabliert. Allerdings leidet RL unter einer geringen Stichprobeneffizienz und einem Mangel an semantischer Interpretierbarkeit in komplexen Szenarien. Foundation Models, insbesondere Vision-Language Models (VLMs), können dies abmildern, indem sie umfangreiches, kontextbewusstes Wissen bereitstellen, doch ihre hohe Inferenzlatenz behindert den Einsatz in hochfrequenten RL-Trainingsschleifen. Um diese Lücke zu schließen, präsentieren wir Found-RL, eine Plattform, die speziell darauf ausgelegt ist, RL für AD effizient mit Foundation Models zu verbessern. Eine zentrale Innovation ist das Framework für asynchrone Batch-Inferenz, das die rechenintensive VLM-Auswertung von der Simulationsschleife entkoppelt und so Latenzengpässe effektiv beseitigt, um Echtzeitlernen zu ermöglichen. Wir führen verschiedene Überwachungsmechanismen ein: Value-Margin Regularization (VMR) und Advantage-Weighted Action Guidance (AWAG), um expertenähnliche VLM-Aktionsvorschläge effektiv in die RL-Policy zu destillieren. Zusätzlich setzen wir hochdurchsatzfähiges CLIP für dichte Reward-Shaping ein. Wir adressieren CLIPs dynamische Blindheit mittels Conditional Contrastive Action Alignment, das Prompts auf diskretisierte Geschwindigkeit/Befehle konditioniert und einen normalisierten, margenbasierten Bonus aus kontextspezifischer Aktion-Anker-Bewertung erzeugt. Found-RL bietet eine End-to-End-Pipeline für die Integration feinabgestimmter VLMs und zeigt, dass ein leichtgewichtiges RL-Modell eine nahezu VLM-ähnliche Leistung im Vergleich zu milliardenparametrigen VLMs erreichen kann, während es Echtzeit-Inferenz (ca. 500 FPS) beibehält. Code, Daten und Modelle werden unter https://github.com/ys-qu/found-rl öffentlich verfügbar sein.
Das Instruction Fine-Tuning großer Sprachmodelle (LLMs) umfasst häufig die Auswahl einer Teilmenge von Instruktions-Trainingsdaten aus einem großen Kandidatenpool unter Verwendung einer kleinen Abfragemenge (Query Set) der Zielaufgabe. Trotz wachsendem Interesses ist die Literatur zur gezielten Instruktionsauswahl nach wie vor fragmentiert und undurchsichtig: Die Methoden variieren stark in ihren Auswahlbudgets, lassen oft Zero-Shot-Baselines aus und vermischen häufig die Beiträge Schlüsselkomponenten. In der Praxis fehlt es daher an umsetzbaren Leitlinien für die Auswahl von Instruktionen für spezifische Aufgaben. In dieser Arbeit wollen wir Klarheit in dieses Feld bringen, indem wir die beiden Kernkomponenten entflechten und systematisch analysieren: Datenrepräsentation und Auswahlalgorithmen. Unser Framework ermöglicht kontrollierte Vergleiche über Modelle, Aufgaben und Budgets hinweg. Wir stellen fest, dass nur gradientenbasierte Datenrepräsentationen Teilmengen auswählen, deren Ähnlichkeit zur Abfragemenge die Leistung konsistent über Datensätze und Modelle hinweg vorhersagt. Während keine einzelne Methode durchgängig überlegen ist, schneiden gradientenbasierte Repräsentationen in Kombination mit einem greedy Round-Robin-Auswahlalgorithmus bei niedrigen Budgets durchschnittlich am besten ab; diese Vorteile schwinden jedoch bei größeren Budgets. Schließlich fassen wir mehrere bestehende Auswahlalgorithmen als Formen der approximativen Distanzminimierung zwischen der ausgewählten Teilmenge und der Abfragemenge zusammen und untermauern diese Sichtweise mit neuen Generalisierungsschranken. Im weiteren Sinne liefern unsere Ergebnisse kritische Einblicke und eine Grundlage für eine prinzipiellere Datenauswahl beim Fine-Tuning von LLMs. Der Code ist verfügbar unter https://github.com/dcml-lab/targeted-instruction-selection.
Generative KI-Agents setzen Verständnis mit der Lösung expliziter Anfragen gleich – eine Annahme, die Interaktion auf das beschränkt, was Nutzer artikulieren können. Diese Annahme versagt, wenn Nutzern selbst nicht bewusst ist, was fehlt, riskant ist oder Beachtung verdient. Unter solchen Bedingungen ist Proaktivität nicht bloß eine Effizienzsteigerung, sondern eine epistemische Notwendigkeit. Wir bezeichnen diesen Zustand als *epistemische Unvollständigkeit*: wenn Fortschritt davon abhängt, unbekannte Unbekannte zu adressieren, um eine effektive Partnerschaft zu ermöglichen. Bestehende Ansätze für Proaktivität bleiben eng vorausschauend, extrapolieren aus vergangenem Verhalten und setzen voraus, dass Ziele bereits klar definiert sind, wodurch sie Nutzer nicht wesentlich unterstützen. Allerdings ist das Aufzeigen von Möglichkeiten jenseits des aktuellen Bewusstseins eines Nutzers nicht per se vorteilhaft. Unbeschränkte proaktive Interventionen können Aufmerksamkeit fehlleiten, Nutzer überfordern oder Schaden verursachen. Proaktive Agenten erfordern daher *verhaltensbezogene Verankerung*: prinzipienbasierte Einschränkungen, wann, wie und in welchem Umfang ein Agent eingreifen sollte. Wir vertreten die Position, dass generative Proaktivität sowohl epistemisch als auch verhaltensbezogen verankert sein muss. Unter Bezugnahme auf die Philosophie der Ignoranz und Forschung zu proaktivem Verhalten argumentieren wir, dass diese Theorien entscheidende Leitlinien für die Gestaltung von Agenten bieten, die verantwortungsvoll agieren und bedeutungsvolle Partnerschaften fördern können.