papers.description
Wir stellen Being-H0.5 vor, ein fundamentales Vision-Language-Action (VLA)-Modell, das für eine robuste generalisierte Anwendung über verschiedene Roboterplattformen hinweg (Cross-Embodiment-Generalization) konzipiert ist. Während bestehende VLA-Modelle oft mit morphologischer Heterogenität und Datenknappheit kämpfen, schlagen wir ein menschenzentriertes Lernparadigma vor, das menschliche Interaktionsdaten als universelle „Muttersprache“ für physische Interaktion behandelt. Um dies zu unterstützen, präsentieren wir UniHand-2.0, das bisher umfangreichste Rezept für Embodied Pre-Training, das über 35.000 Stunden multimodaler Daten von 30 verschiedenen Roboter-Embodiments umfasst. Unser Ansatz führt einen einheitlichen Aktionsraum (Unified Action Space) ein, der heterogene Robotersteuerungen in semantisch ausgerichtete Slots abbildet. Dies ermöglicht es ressourcenarmen Robotern, Fähigkeiten aus menschlichen Daten und von hochwertigen Plattformsystemen zu übernehmen. Auf dieser menschenzentrierten Grundlage aufbauend, entwerfen wir ein einheitliches Paradigma für sequentielle Modellierung und Multi-Task-Vortraining, um menschliche Demonstrationen und robotische Ausführung zu verbinden. Architektonisch nutzt Being-H0.5 ein Mixture-of-Transformers-Design mit einem neuartigen Mixture-of-Flow (MoF)-Framework, um gemeinsame motorische Primitive von spezialisierten, embodimentsspezifischen Experten zu entkoppeln. Schließlich führen wir, um cross-embodiment-Policies in der realen Welt stabil zu machen, eine manifold-erhaltende Gating-Methode (Manifold-Preserving Gating) für Robustheit unter sensorischen Verschiebungen und universelles asynchrones Chunking (Universal Async Chunking) ein, um eine segmentierte Steuerung über Embodiments mit unterschiedlichen Latenzzeiten und Steuerungsprofilen hinweg zu vereinheitlichen. Wir zeigen empirisch, dass Being-H0.5 state-of-the-art Ergebnisse auf simulierten Benchmarks wie LIBERO (98,9 %) und RoboCasa (53,9 %) erzielt und gleichzeitig starke Cross-Embodiment-Fähigkeiten auf fünf Roboterplattformen aufweist.
Die Lösung von Issues, eine komplexe Aufgabe der Softwareentwicklung (SWE), die integraler Bestandteil der Praxis ist, hat sich zu einer bedeutenden Herausforderung für die Künstliche Intelligenz entwickelt. Die Etablierung von Benchmarks wie SWE-bench zeigte, dass diese Aufgabe für große Sprachmodelle äußerst schwierig ist, was die Entwicklung autonomer Code-Agenten erheblich beschleunigt hat. Dieser Beitrag stellt eine systematische Übersicht über dieses aufstrebende Forschungsgebiet vor. Wir beginnen mit der Untersuchung von Datenkonstruktions-Pipelines, die automatisierte Erhebungs- und Syntheseansätze abdecken. Anschließend bieten wir eine umfassende Analyse der Methoden, die von trainingsfreien Frameworks mit ihren modularen Komponenten bis hin zu trainingsbasierten Techniken wie supervised Fine-Tuning und Reinforcement Learning reichen. Darauf folgt eine kritische Diskussion von Datenqualität und Agentenverhalten sowie praktischen Anwendungen. Abschließend identifizieren wir zentrale Herausforderungen und skizzieren vielversprechende Richtungen für die zukünftige Forschung. Ein Open-Source-Repository wird unter https://github.com/DeepSoftwareAnalytics/Awesome-Issue-Resolution gepflegt und dient als dynamische Ressource für dieses Feld.
In den letzten Jahren ist das Interesse an der Erweiterung großer Sprachmodelle zu agentenbasierten Systemen stetig gewachsen. Während die Effektivität von Agenten kontinuierlich gesteigert wurde, wurde die Effizienz, die für den realen Einsatz entscheidend ist, oft vernachlässigt. Diese Arbeit untersucht daher die Effizienz anhand drei zentraler Komponenten von Agenten: Gedächtnis, Werkzeugnutzung und Planung, unter Berücksichtigung von Kosten wie Latenz, Token-Verbrauch und Schrittzahl. Mit dem Ziel, eine umfassende Untersuchung der Effizienz agentenbasierter Systeme selbst durchzuführen, betrachten wir eine Vielzahl aktueller Ansätze, die sich in der Implementierung unterscheiden, aber häufig auf gemeinsame übergeordnete Prinzipien zurückgreifen. Dazu zählen unter anderem die Begrenzung des Kontexts durch Kompression und Verwaltung, die Gestaltung von Belohnungsfunktionen im Reinforcement Learning zur Minimierung von Werkzeugaufrufen sowie der Einsatz kontrollierter Suchmechanismen zur Effizienzsteigerung, die wir im Detail diskutieren. Dementsprechend charakterisieren wir Effizienz auf zwei komplementäre Weisen: durch den Vergleich der Effektivität unter einem festen Kostenbudget und durch den Vergleich der Kosten bei vergleichbarem Effektivitätsniveau. Dieser Trade-off lässt sich auch durch die Pareto-Grenze zwischen Effektivität und Kosten betrachten. Aus dieser Perspektive untersuchen wir auch effizienzorientierte Benchmarks, indem wir Evaluierungsprotokolle für diese Komponenten zusammenfassen und häufig berichtete Effizienzkennzahlen aus Benchmark- und Methodenstudien konsolidieren. Darüber hinaus diskutieren wir die wichtigsten Herausforderungen und zukünftige Richtungen, mit dem Ziel, vielversprechende Einblicke zu bieten.
Das Verständnis und die Schlussfolgerung über die physische Welt erfordert räumliche Intelligenz: die Fähigkeit, Geometrie, Perspektive und räumliche Beziehungen über die 2D-Wahrnehmung hinaus zu interpretieren. Während aktuelle visuelle Großmodelle (VLMs) bei visuellem Verständnis hervorragend abschneiden, bleiben sie grundlegend 2D-Wahrnehmende und haben Schwierigkeiten mit echtem 3D-Schließen. Wir stellen Think3D vor, einen Rahmen, der VLM-Agenten ermöglicht, im 3D-Raum zu denken. Durch die Nutzung von 3D-Rekonstruktionsmodellen, die Punktwolken und Kameraposen aus Bildern oder Videos zurückgewinnen, erlaubt Think3D dem Agenten, den Raum aktiv durch kamerabasierte Operationen und Ego-/Globalansichtswechsel zu manipulieren, wodurch räumliches Schließen in einen interaktiven 3D-Kettenschlussprozess transformiert wird. Ohne zusätzliches Training verbessert Think3D die räumliche Schlussfolgerungsleistung fortschrittlicher Modelle wie GPT-4.1 und Gemini 2.5 Pro erheblich, mit durchschnittlichen Steigerungen von +7,8 % bei BLINK Multi-view und MindCube sowie +4,7 % bei VSI-Bench. Wir zeigen weiter, dass kleinere Modelle, die mit räumlicher Exploration kämpfen, erheblich von einer Reinforcement-Learning-Strategie profitieren, die es dem Modell ermöglicht, informative Blickwinkel und Operationen auszuwählen. Mit RL steigt der Nutzen der Werkzeugnutzung von +0,7 % auf +6,8 %. Unsere Ergebnisse zeigen, dass trainingsfreie, werkzeuggestützte räumliche Exploration ein gangbarer Weg zu flexiblerem und menschenähnlicherem 3D-Schließen in multimodalen Agenten ist, und etablieren eine neue Dimension multimodaler Intelligenz. Code und Gewichte sind unter https://github.com/zhangzaibin/spagent veröffentlicht.
Mechanistic Interpretability (MI) hat sich als entscheidender Ansatz etabliert, um die undurchsichtige Entscheidungsfindung von Large Language Models (LLMs) zu entschlüsseln. Bisherige Übersichtsarbeiten behandeln MI jedoch primär als beobachtende Wissenschaft, fassen analytische Erkenntnisse zusammen, mangeln aber an einem systematischen Rahmen für gezielte Interventionen. Um diese Lücke zu schließen, präsentieren wir einen praxisorientierten Survey, der sich an der Pipeline "Locate, Steer, and Improve" (Lokalisieren, Steuern, Verbessern) orientiert. Wir kategorisieren Lokalisierungs- (Diagnose) und Steuerungsmethoden (Intervention) formal anhand spezifischer interpretierbarer Objekte, um ein rigoroses Interventionsprotokoll zu etablieren. Darüber hinaus zeigen wir auf, wie dieser Rahmen greifbare Verbesserungen in den Bereichen Alignment, Fähigkeiten und Effizienz ermöglicht und MI so effektiv als anwendbare Methodik zur Modelloptimierung operationalisiert. Die kuratierte Literaturliste dieser Arbeit ist verfügbar unter https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.
Videos vermitteln umfassendere Informationen als Bilder oder Text, da sie sowohl räumliche als auch zeitliche Dynamiken erfassen. Die meisten bestehenden Videoanpassungsmethoden stützen sich jedoch auf Referenzbilder oder aufgabenspezifische zeitliche Priors, wodurch die inherenten reichhaltigen raumzeitlichen Informationen von Videos nicht vollständig genutzt werden. Dies schränkt die Flexibilität und Generalisierungsfähigkeit bei der Videogenerierung ein. Um diese Einschränkungen zu überwinden, schlagen wir OmniTransfer vor – ein vereinheitlichter Rahmen für raumzeitlichen Videotransfer. Das Verfahren nutzt Multi-View-Informationen über Bildsequenzen hinweg, um die Erscheinungskonsistenz zu verbessern, und erschließt zeitliche Hinweise für eine fein abgestufte zeitliche Steuerung. Zur Vereinheitlichung verschiedener Videotransferaufgaben integriert OmniTransfer drei Schlüsselkomponenten: Task-aware Positional Bias, der Referenzvideoinformationen adaptiv zur Verbesserung der temporalen Ausrichtung oder Erscheinungskonsistenz nutzt; Reference-decoupled Causal Learning, der Referenz- und Zielzweige entkoppelt, um präzisen Referenztransfer bei gesteigerter Effizienz zu ermöglichen; sowie Task-adaptive Multimodal Alignment, der multimodale semantische Guidance zur dynamischen Unterscheidung und Bearbeitung verschiedener Aufgaben einsetzt. Umfangreiche Experimente zeigen, dass OmniTransfer bestehende Methoden bei Erscheinungstransfer (ID und Stil) und temporalem Transfer (Kamerabewegung und Videoeffekte) übertrifft, während es bei Bewegungstransfer ohne Posennutzung posegestützte Methoden erreicht. Damit etabliert es ein neues Paradigma für flexible, hochwertige Videogenerierung.
Obwohl Multimodale Große Sprachmodelle (MLLMs) eine starke omnimodale Wahrnehmung demonstrieren, bleibt ihre Fähigkeit, zukünftige Ereignisse aus audiovisuellen Hinweisen vorherzusagen, weitgehend unerforscht, da sich bestehende Benchmarks hauptsächlich auf retrospektives Verständnis konzentrieren. Um diese Lücke zu schließen, stellen wir FutureOmni vor, den ersten Benchmark, der zur Bewertung der omnimodalen Zukunftsprognose aus audiovisuellen Umgebungen entwickelt wurde. Die evaluierten Modelle müssen kreuzmodale kausale und zeitliche Schlussfolgerungen durchführen sowie internes Wissen effektiv nutzen, um zukünftige Ereignisse vorherzusagen. FutureOmni wird über eine skalierbare, LLM-unterstützte Pipeline mit Human-in-the-Loop konstruiert und umfasst 919 Videos und 1.034 Multiple-Choice-Frage-Antwort-Paare aus 8 Hauptdomänen. Evaluationen an 13 omnimodalen und 7 rein videobasierten Modellen zeigen, dass aktuelle Systeme mit audiovisueller Zukunftsprognose kämpfen, insbesondere in sprachlastigen Szenarien, wobei die beste Genauigkeit von 64,8 % von Gemini 3 Flash erreicht wird. Um diese Einschränkung zu mildern, stellen wir einen Instruction-Tuning-Datensatz mit 7.000 Beispielen zusammen und schlagen eine Trainingsstrategie zur Ominmodalen Zukunftsprognose (OFF) vor. Evaluationen auf FutureOmni und beliebten audiovisuellen sowie rein videobasierten Benchmarks demonstrieren, dass OFF die Zukunftsprognose und Generalisierungsfähigkeit verbessert. Wir veröffentlichen allen Code (https://github.com/OpenMOSS/FutureOmni) und alle Datensätze (https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni) öffentlich.
Bestehende Arbeiten verwenden zunehmend speicherzentrierte Mechanismen, um lange Kontexte segmentweise zu verarbeiten. Ein effektives Speichermanagement ist eine der Schlüsselfähigkeiten, die es großen Sprachmodellen ermöglicht, Informationen über die gesamte Sequenz hinweg effektiv zu propagieren. Daher ist der Einsatz von Belohnungsmodellen (RMs) zur automatischen und zuverlässigen Bewertung der Speicherqualität von entscheidender Bedeutung. In dieser Arbeit stellen wir MemoryRewardBench vor, den ersten Benchmark, der systematisch die Fähigkeit von RMs untersucht, Prozesse des Langzeitspeichermanagements zu bewerten. MemoryRewardBench umfasst sowohl Aufgaben zum Verständnis langer Kontexte als auch zur Langformgenerierung und zeichnet sich durch 10 verschiedene Szenarien mit unterschiedlichen Speicherverwaltungsmustern bei Kontextlängen von 8.000 bis 128.000 Tokens aus. Evaluationen mit 13 modernsten RMs zeigen eine schwindende Leistungslücke zwischen Open-Source- und proprietären Modellen, wobei Modelle neuerer Generationen unabhängig von der Parameteranzahl konsequent ihre Vorgänger übertreffen. Wir beleuchten weiterhin die Fähigkeiten und grundlegenden Grenzen aktueller RMs bei der Bewertung des LLM-Speichermanagements in verschiedenen Szenarien.
Wir stellen LightOnOCR-2-1B vor, ein end-to-end multilinguales Vision-Language-Modell mit 1 Milliarde Parametern, das Dokumentenbilder (z.B. PDFs) direkt in sauberen, natürlich geordneten Text umwandelt, ohne auf fragile OCR-Pipelines angewiesen zu sein. LightOnOCR-2 wurde auf einem groß angelegten, hochwertigen Distillations-Datensatz trainiert, der Scans, französische Dokumente und wissenschaftliche PDFs umfassend abdeckt, und erzielt state-of-the-art Ergebnisse auf OlmOCR-Bench, ist dabei jedoch 9-mal kleiner und deutlich schneller als die bisher leistungsstärksten Modelle. Wir erweitern das Ausgabeformat außerdem um die Vorhersage normalisierter Bounding-Boxen für eingebettete Bilder, führen Lokalisierung während des Pre-Trainings über eine Resume-Strategie ein und verfeinern sie mit RLVR unter Verwendung von IoU-basierten Belohnungen. Schließlich verbessern wir die Robustheit durch Checkpoint-Averaging und Task-Arithmetic-Merging. Wir veröffentlichen die Modell-Checkpoints unter der Apache-2.0-Lizenz und stellen den Datensatz sowie LightOnOCR-bbox-bench unter ihren jeweiligen Lizenzen öffentlich zur Verfügung.
Die Erreichung menschlicher Leistungsfähigkeit in der visuell-sprachlichen Navigation (VLN) erfordert, dass ein verkörperter Agent multimodale Anweisungen und visuell-räumliche Kontexte gemeinsam versteht und gleichzeitig über lange Aktionssequenzen hinweg schlussfolgert. Neuere Arbeiten wie NavCoT und NavGPT-2 demonstrieren das Potenzial von Chain-of-Thought (CoT)-Reasoning zur Verbesserung der Interpretierbarkeit und langfristigen Planung. Darüber hinaus validieren multimodale Erweiterungen wie OctoNav-R1 und CoT-VLA CoT weiterhin als vielversprechenden Weg hinzu menschlichem Navigationsverhalten. Allerdings weisen bestehende Ansätze kritische Schwächen auf: rein textbasierte CoTs fehlt die räumliche Verankerung und sie neigen zur Überanpassung an spärlich annotierte Reasoning-Schritte, während multimodale CoTs durch die Generierung imaginierter visueller Beobachtungen zu erheblichem Token-Overhead führen, was Echtzeit-Navigation unpraktikabel macht. In dieser Arbeit stellen wir FantasyVLN vor, einen vereinheitlichten impliziten Reasoning-Rahmen, der die Vorteile von CoT-Reasoning ohne expliziten Token-Mehraufwand bewahrt. Konkret werden während des CoT-Reasoning-Trainings imaginierte visuelle Tokens mittels eines vortrainierten visuellen autoregressiven Modells (VAR) in einen kompakten latenten Raum kodiert, und das Modell lernt gemeinsam aus textuellen, visuellen und multimodalen CoT-Modi unter einer vereinheitlichten Multi-CoT-Strategie. Zur Inferenzzeit führt unser Modell eine direkte Anweisungs-Aktions-Abbildung durch, profitiert jedoch weiterhin von reasoning-bewussten Repräsentationen. Umfangreiche Experimente auf LH-VLN zeigen, dass unser Ansatz reasoning-bewusste und dennoch echtzeitfähige Navigation erreicht, die Erfolgsraten und Effizienz steigert und die Inferenzlatenz im Vergleich zu expliziten CoT-Methoden um eine Größenordnung reduziert.
Agentic Search hat sich kürzlich als leistungsstarkes Paradigma etabliert, bei dem ein Agent mehrstufiges Reasoning mit bedarfsgesteuerter Informationsbeschaffung (Retrieval) verknüpft, um komplexe Fragen zu lösen. Trotz dieser Erfolge ist die Frage, wie ein Retriever für Agentic Search zu gestalten ist, weitgehend unerforscht. Bestehende Suchagenten setzen typischerweise auf ähnlichkeitsbasierte Retriever, während ähnliche Passagen nicht immer nützlich für die Generierung der endgültigen Antwort sind. In diesem Artikel schlagen wir einen neuartigen Trainingsrahmen für Retriever vor, der speziell auf Agentic Search zugeschnitten ist. Im Gegensatz zu Retrievern, die für einstufiges Retrieval-Augmented Generation (RAG) entwickelt wurden und nur auf lokaler Passagennützlichkeit basieren, schlagen wir vor, sowohl die lokale Abfrage-Passagen-Relevanz als auch die globale Antwortkorrektheit zu nutzen, um die Nützlichkeit von Passagen in einer mehrstufigen Agentic Search zu bewerten. Wir führen weiterhin eine iterative Trainingsstrategie ein, bei der der Suchagent und der Retriever bidirektional und iterativ optimiert werden. Im Unterschied zu RAG-Retrievern, die nur einmal mit festen Fragen trainiert werden, wird unser Retriever kontinuierlich mit sich entwickelnden und qualitativ hochwertigeren Abfragen des Agents verbessert. Umfangreiche Experimente auf sieben Single-Hop- und Multi-Hop-QA-Benchmarks zeigen, dass unser Retriever, bezeichnet als , durchgängig starke Baseline-Methoden über verschiedene Suchagenten hinweg übertrifft. Unser Code ist verfügbar unter: https://github.com/8421BCD/Agentic-R.
Trotz jüngster Fortschritte haben medizinische Foundation-Modelle nach wie vor Schwierigkeiten, visuelles Verständnis und Generierung zu vereinen, da diese Aufgaben inhärent widersprüchliche Ziele verfolgen: semantische Abstraktion versus pixelgenaue Rekonstruktion. Bestehende Ansätze, die typischerweise auf parametergeteilten autoregressiven Architekturen basieren, führen häufig zu Beeinträchtigungen in einer oder beiden Aufgaben. Um dieses Problem zu lösen, präsentieren wir UniX, ein neuartiges vereinheitlichtes medizinisches Foundation-Modell für das Verständnis und die Generierung von Thorax-Röntgenaufnahmen. UniX entkoppelt die beiden Aufgaben in einen autoregressiven Zweig für das Verständnis und einen Diffusionszweig für hochpräzise Generierung. Entscheidend ist, dass ein cross-modaler Self-Attention-Mechanismus eingeführt wird, um den Generierungsprozess dynamisch mit Verständnismerkmalen zu steuern. In Kombination mit einer rigorosen Datenbereinigungs-Pipeline und einer mehrstufigen Trainingsstrategie ermöglicht diese Architektur eine synergetische Zusammenarbeit zwischen den Aufgaben, während sie die Stärken von Diffusionsmodellen für überlegene Generierung nutzt. In zwei repräsentativen Benchmarks erzielt UniX eine 46,1 %ige Verbesserung der Verständnisleistung (Micro-F1) und einen 24,2 %igen Zuwachs an Generierungsqualität (FD-RadDino) – bei lediglich einem Viertel der Parameter von LLM-CXR. Indem es eine Leistung auf Augenhöhe mit aufgabenspezifischen Modellen erreicht, etabliert unsere Arbeit ein skalierbares Paradigma für synergetisches medizinisches Bildverständnis und -generierung. Codes und Modelle sind verfügbar unter https://github.com/ZrH42/UniX.
Belohnungsgesteuerte Suchmethoden haben ein großes Potenzial bei der Verbesserung von werkzeugnutzenden Agenten gezeigt, indem sie die Stichprobenentnahme und Exploration in komplexen Aktionsräumen effektiv steuern. Als Kernkonzept nutzen diese Suchmethoden Prozessbelohnungsmodelle (PRMs), um schrittweise Belohnungen zu liefern und so eine fein granulierte Überwachung zu ermöglichen. Allerdings fehlt es an systematischen und zuverlässigen Evaluierungsbenchmarks für PRMs in werkzeugbasierten Umgebungen. In diesem Artikel stellen wir ToolPRMBench vor, einen groß angelegten Benchmark, der speziell zur Bewertung von PRMs für werkzeugnutzende Agenten entwickelt wurde. ToolPRMBench basiert auf mehreren repräsentativen Benchmarks zur Werkzeugnutzung und wandelt Agententrajektorien in schrittweise Testfälle um. Jeder Fall enthält den Interaktionsverlauf, eine korrekte Aktion, eine plausibel erscheinende, aber falsche Alternative sowie relevante Werkzeug-Metadaten. Wir verwenden Offline-Sampling, um lokale Einzelfehler zu isolieren, und Online-Sampling, um realistische Mehrschrittfehler aus vollständigen Agenten-Durchläufen zu erfassen. Eine Multi-LLM-Verifikationspipeline wird vorgeschlagen, um Label-Rauschen zu reduzieren und die Datenqualität zu sichern. Wir führen umfangreiche Experimente mit großen Sprachmodellen, allgemeinen PRMs und werkzeugspezifischen PRMs auf ToolPRMBench durch. Die Ergebnisse zeigen deutliche Unterschiede in der Wirksamkeit der PRMs und unterstreichen das Potenzial spezialisierter PRMs für die Werkzeugnutzung. Code und Daten werden unter https://github.com/David-Li0406/ToolPRMBench veröffentlicht.
Aktuelle Large Language Models (LLMs) weisen eine kritische modale Diskrepanz auf: Sie verfügen über umfangreiches semantisches Wissen, aber es fehlt ihnen an prozeduraler Verankerung, um die unveränderlichen Gesetze der physischen Welt zu berücksichtigen. Infolgedessen, obwohl diese Agenten implizit als Weltmodelle fungieren, leiden ihre Simulationen häufig unter physikalischen Halluzinationen – sie erzeugen Pläne, die logisch schlüssig, aber physikalisch nicht ausführbar sind. Bestehende Alignment-Strategien stützen sich überwiegend auf ressourcenintensives Training oder Fine-Tuning, das versucht, dynamische Umweltregeln in statische Modellparameter zu komprimieren. Eine solche parametrische Kapselung ist jedoch von Natur aus starr und kann sich ohne kontinuierliches, kostspieliges Neutraining nur schwer der unbegrenzten Variabilität physikalischer Dynamiken anpassen. Um diese Lücke zu schließen, stellen wir WorldMind vor, ein Framework, das autonom ein symbolisches Weltwissens-Repository durch die Synthese von Umweltfeedback aufbaut. Konkret vereinheitlicht es Prozesserfahrung, um physikalische Machbarkeit via Vorhersagefehler durchzusetzen, und Zielderfahrung, um Aufgabenoptimalität durch erfolgreiche Trajektorien zu steuern. Experimente auf EB-ALFRED und EB-Habitat demonstrieren, dass WorldMind eine überlegene Leistung im Vergleich zu Baseline-Modellen erreicht und dabei bemerkenswerte Cross-Model- und Cross-Environment-Übertragbarkeit aufweist.
Selbstspiel mit großen Sprachmodellen hat sich als vielversprechendes Paradigma zur Erreichung sich selbst verbessernder künstlicher Intelligenz erwiesen. Allerdings leiden bestehende Selbstspiel-Frameworks häufig unter Instabilität während der Optimierung, verursacht durch (i) nicht-stationäre Zielvorgaben, die durch lösungsabhängiges Reward-Feedback für den Fragensteller induziert werden, und (ii) Bootstrapping-Fehler aus selbstgenerierten Pseudo-Labels, die zur Supervision des Lösers verwendet werden. Um diese Herausforderungen zu bewältigen, stellen wir DARC (Decoupled Asymmetric Reasoning Curriculum) vor, ein zweistufiges Framework, das den Selbstevolutionsprozess stabilisiert. Zuerst trainieren wir den Fragensteller, schwierigkeitskalibrierte Fragen zu synthetisieren, die von expliziten Schwierigkeitsgraden und externen Korpora abhängen. Anschließend trainieren wir den Löser mit einem asymmetrischen Selbstdistillationsmechanismus, bei dem ein dokumenten-erweiterter Lehrer hochwertige Pseudo-Labels erzeugt, um den studentischen Löser ohne Dokumentenzugang zu supervidiieren. Empirische Ergebnisse zeigen, dass DARC modellagnostisch ist und eine durchschnittliche Verbesserung von 10,9 Punkten über neun Reasoning-Benchmarks und drei Basis-Modelle hinweg erzielt. Darüber hinaus übertrifft DARC durchgängig alle Baseline-Modelle und nähert sich der Leistung vollständig supervidierten Modelle an, ohne auf menschliche Annotationen angewiesen zu sein. Der Code ist verfügbar unter https://github.com/RUCBM/DARC.
In Produktions-LLM-Systemen werden häufig separate Modelle für Sicherheits- und andere klassifikationsintensive Schritte eingesetzt, was Latenz, VRAM-Bedarf und Betriebskomplexität erhöht. Stattdessen nutzen wir bereits für das servierende LLM durchgeführte Berechnungen erneut: Wir trainieren leichte Proben („Probes“) auf dessen verborgenen Zuständen und sagen Labels im selben Vorwärtsdurchlauf voraus, der auch für die Generierung verwendet wird. Wir formulieren Klassifikation als Repräsentationsauswahl über den gesamten Token-Ebenen-Zustandstensor, anstatt uns auf einen festen Token oder eine feste Ebene (z.B. First-Token-Logits oder Final-Layer-Pooling) festzulegen. Zur Implementierung führen wir einen zweistufigen Aggregator ein, der (i) Token innerhalb jeder Ebene zusammenfasst und (ii) die Ebenen-Zusammenfassungen zu einer einzigen Repräsentation für die Klassifikation aggregiert. Wir instanziieren diese Vorlage mit direktem Pooling, einem Bewertungs-Attentions-Gate mit 100.000 Parametern und einer Probe mit reduziertem multi-head self-attention (MHA) mit bis zu 35 Millionen trainierbaren Parametern. In Sicherheits- und Sentiment-Benchmarks übertreffen unsere Proben die Wiederverwendung nur von Logits (z.B. MULI) und sind mit deutlich größeren aufgabenspezifischen Baseline-Modellen wettbewerbsfähig, bei nahezu unveränderter Servicelatenz und ohne die VRAM- und Latenzkosten einer separaten Guard-Model-Pipeline.
Konzeptbasierte Erklärungen quantifizieren, wie hochrangige Konzepte (z.B. Geschlecht oder Berufserfahrung) das Modellverhalten beeinflussen, was für Entscheidungsträger in hochriskanten Bereichen entscheidend ist. Jüngste Arbeiten evaluieren die Vertrauenswürdigkeit solcher Erklärungen, indem sie mit referenziellen Kausaleffekten verglichen werden, die aus kontrafaktischen Szenarien geschätzt werden. In der Praxis stützen sich existierende Benchmarks auf kostspielige, menschlich verfasste Kontrafaktuale, die als unvollkommener Stellvertreter dienen. Um dies zu adressieren, führen wir einen Rahmen zur Konstruktion von Datensätzen mit strukturellen kontrafaktualen Paaren ein: LIBERTy (LLM-basierte interventionelle Benchmark für Erklärbarkeit mit Referenzzielen). LIBERTy basiert auf explizit definierten Strukturellen Kausalen Modellen (SCMs) der Textgenerierung; Interventionen an einem Konzept pflanzen sich durch das SCM fort, bis ein LLM das Kontrafaktuale generiert. Wir stellen drei Datensätze vor (Krankheitserkennung, Lebenslaufscreening und Vorhersage von Gewalt am Arbeitsplatz) zusammen mit einer neuen Evaluationsmetrik, der Ordnungstreue. Damit evaluieren wir eine breite Palette von Methoden über fünf Modelle hinweg und identifizieren erhebliches Verbesserungspotenzial für konzeptbasierte Erklärungen. LIBERTy ermöglicht auch eine systematische Analyse der Modellsensitivität gegenüber Interventionen: Wir stellen fest, dass proprietäre LLMs eine deutlich reduzierte Sensitivität gegenüber demografischen Konzepten aufweisen, wahrscheinlich aufgrund von Nachbearbeitungsmaßnahmen. Insgesamt bietet LIBERTy einen dringend benötigten Benchmark für die Entwicklung vertrauenswürdiger Erklärbarkeitsmethoden.
Pixelbasierte Reinforcement-Learning-Agenten versagen häufig unter rein visuellen Distributionsverschiebungen, selbst wenn die latenten Dynamiken und Belohnungen unverändert bleiben. Bestehende Benchmarks vermengen jedoch häufig mehrere Verschiebungsquellen und erschweren eine systematische Analyse. Wir stellen KAGE-Env vor, eine in JAX native 2D-Plattformer-Umgebung, die den Beobachtungsprozess in unabhängig steuerbare visuelle Achsen faktorisiert, während das zugrundeliegende Steuerungsproblem konstant bleibt. Durch diesen Aufbau beeinflusst die Variation einer visuellen Achse die Leistung ausschließlich über die induzierte zustandsbedingte Aktionsverteilung einer Pixel-Policy, was eine saubere Abstraktion für visuelle Generalisierung bietet. Aufbauend auf dieser Umgebung definieren wir KAGE-Bench, einen Benchmark mit sechs bekannten Achsen-Suites, die 34 Trainings-Evaluations-Konfigurationspaare umfassen und individuelle visuelle Verschiebungen isolieren. Unter Verwendung einer standardmäßigen PPO-CNN-Baseline beobachten wir starke achsenabhängige Fehler: Hintergrund- und photometrische Verschiebungen lassen den Erfolg häufig zusammenbrechen, während Verschiebungen in der Agenten-Erscheinung vergleichsweise harmlos sind. Einige Verschiebungen erhalten die Vorwärtsbewegung aufrecht, unterbrechen aber die Aufgabenabschlussfähigkeit, was zeigt, dass der Return allein Generalisierungsfehler verschleiern kann. Schließlich ermöglicht die vollständig vektorisierte JAX-Implementierung bis zu 33 Millionen Umgebungsschritte pro Sekunde auf einer einzelnen GPU, was schnelle und reproduzierbare Sweeps über visuelle Faktoren ermöglicht. Code: https://avanturist322.github.io/KAGEBench/.
Lange Chain-of-Thought (CoT)-Trajektorien liefern reichhaltige Aufsichtssignale für die Distillation von Reasoning-Fähigkeiten von Lehrer- zu Schüler-LLMs. Sowohl frühere Arbeiten als auch unsere Experimente zeigen jedoch, dass Trajektorien von stärkeren Lehrern nicht zwangsläufig bessere Schüler-Modelle hervorbringen, was die Bedeutung der Daten-Schüler-Kompatibilität bei der Distillation unterstreicht. Bestehende Methoden bewerten diese Kompatibilität hauptsächlich über die Likelihood des Schülers und begünstigen dabei Trajektorien, die eng mit dem aktuellen Verhalten des Modells übereinstimmen, jedoch informativeren Trajektorien übersehen. Um dieses Problem anzugehen, schlagen wir das Rank-Surprisal Ratio (RSR) vor, eine einfache Metrik, die sowohl Übereinstimmung als auch Informationsgehalt erfasst, um die Eignung einer Reasoning-Trajektorie zu bewerten. RSR ist motiviert durch die Beobachtung, dass effektive Trajektorien typischerweise eine niedrige absolute Wahrscheinlichkeit mit relativ hochrangigen Tokens unter dem Schüler-Modell kombinieren und so die Stärke des Lernsignals mit der Verhaltensübereinstimmung in Einklang bringen. Konkret ist RSR als das Verhältnis des durchschnittlichen tokenweisen Rangs einer Trajektorie zu ihrer durchschnittlichen negativen Log-Likelihood definiert, ist einfach zu berechnen und zu interpretieren. Über fünf Schüler-Modelle und Reasoning-Trajektorien von 11 verschiedenen Lehrern hinweg korreliert RSR stark mit der Leistung nach dem Training (durchschnittlicher Spearman-Koeffizient 0,86) und übertrifft dabei bestehende Metriken. Wir demonstrieren weiterhin seinen praktischen Nutzen sowohl bei der Trajektorienauswahl als auch bei der Lehrerauswahl.
Phonerkenning (PR) dient als atomare Schnittstelle für sprachunabhängige Modellierung in der cross-lingualen Sprachverarbeitung und phonetischen Analyse. Trotz langjähriger Bemühungen in der Entwicklung von PR-Systemen messen aktuelle Evaluationen nur die oberflächliche Transkriptionsgenauigkeit. Wir stellen PRiSM vor, den ersten Open-Source-Benchmark, der entwickelt wurde, um blinde Flecken in der phonetischen Wahrnehmung durch intrinsische und extrinsische Evaluation von PR-Systemen aufzudecken. PRiSM standardisiert transkriptionsbasierte Evaluation und bewertet den downstream-Nutzen in klinischen, Bildung- und multilingualen Kontexten mit Transkriptions- und Repräsentations-Tests. Unsere Ergebnisse zeigen, dass diverse Sprachexposition während des Trainings entscheidend für die PR-Leistung ist, Encoder-CTC-Modelle die stabilsten sind und spezialisierte PR-Modelle nach wie vor Large Audio Language Models übertreffen. PRiSM veröffentlicht Code, Rezepte und Datensätze, um das Feld hin zu multilingualen Sprachmodellen mit robuster phonetischer Fähigkeit zu bewegen: https://github.com/changelinglab/prism.
Outcome-reward Reinforcement Learning (RL) hat sich als wirksam erwiesen, um die Reasoning-Fähigkeiten großer Sprachmodelle (LLMs) zu verbessern. Standard-RL weist jedoch Belohnungen nur auf Ebene der endgültigen Antwort zu, bestraft also gesamte Reasoning-Pfade, wenn das Ergebnis falsch ist, und verstärkt alle Schritte gleichmäßig, wenn es korrekt ist. In der Folge können korrekte Zwischenschritte in fehlgeschlagenen Pfaden unterdrückt werden, während irrelevante Schritte in erfolgreichen Pfaden verstärkt werden. Wir bezeichnen dieses Problem als Credit-Assignment-Problem. Eine naheliegende Lösung ist das Training eines Prozess-Belohnungsmodells, doch die genaue Optimierung solcher Modelle zur Identifikation korrigierender Reasoning-Schritte bleibt herausfordernd. Wir stellen Intervention Training (InT) vor, ein Trainingsparadigma, bei dem das Modell eine feingranulare Credit-Zuweisung für seine eigenen Reasoning-Pfade vornimmt, indem es kurze, gezielte Korrekturen vorschlägt, die die Trajektorie in Richtung höherer Belohnung lenken. Unter Nutzung von Referenzlösungen, die in mathematischen Reasoning-Datensätzen commonly verfügbar sind, und der Tatsache, dass die Verifikation einer modellgenerierten Lösung einfacher ist als die Generierung einer korrekten Lösung von Grund auf, identifiziert das Modell den ersten Fehler in seiner Reasoning-Kette und schlägt eine Einzelschritt-Intervention vor, um die Trajektorie zur korrekten Lösung umzulenken. Anschließend wenden wir Supervised Fine-Tuning (SFT) auf den On-Policy-Pfad bis zum Fehlerpunkt, verkettet mit der Intervention, an, wodurch der Fehler auf den spezifischen Schritt lokalisiert wird, der zum Scheitern führte. Wir zeigen, dass das resultierende Modell eine deutlich bessere Initialisierung für das RL-Training darstellt. Nach der Anwendung von InT und anschließendem Fine-Tuning mit RL verbessern wir die Genauigkeit auf IMO-AnswerBench um fast 14 % gegenüber einem 4B-Parameter-Basismodell und übertreffen damit größere Open-Source-Modelle wie gpt-oss-20b.
Wir stellen eine hybride Methodik zur Erstellung groß angelegter semantischer Beziehungsdatensätze für ressourcenarme Sprachen vor, demonstriert anhand eines umfassenden türkischen Korpus für semantische Relationen. Unser Ansatz integriert drei Phasen: (1) FastText-Einbettungen mit agglomerativem Clustering zur Identifikation semantischer Cluster, (2) Gemini 2.5-Flash zur automatisierten Klassifikation semantischer Beziehungen und (3) die Integration kuratierter Wörterbuchquellen. Der resultierende Datensatz umfasst 843.000 einzigartige türkische semantische Paare über drei Beziehungstypen hinweg (Synonyme, Antonyme, Kohyponyme) und stellt eine Verzehnfachung des Umfangs bestehender Ressourcen bei minimalen Kosten (65 US-Dollar) dar. Wir validieren den Datensatz anhand zweier Downstream-Aufgaben: Ein Einbettungsmodell erreicht eine Top-1-Trefferquote von 90 % und ein Klassifikationsmodell erzielt einen F1-Macro-Score von 90 %. Unser skalierbares Protokoll adressiert die kritische Datenknappheit in der türkischen Sprachverarbeitung und demonstriert die Übertragbarkeit auf andere ressourcenarme Sprachen. Wir veröffentlichen den Datensatz und die Modelle öffentlich.
Neuronale Einbettungen haben einen bekannten blinden Fleck: Sie können Synonyme nicht zuverlässig von Antonymen unterscheiden. Folglich führt das Erhöhen von Ähnlichkeitsschwellenwerten oft nicht dazu, dass Gegensätze voneinander getrennt werden. Wir haben ein groß angelegtes semantisches Clustering-System entwickelt, das speziell zur Lösung dieses Problems konzipiert ist. Unsere Pipeline verarbeitet 15 Millionen lexikalische Einheiten, bewertet 520 Millionen potenzielle Beziehungen und generiert schließlich 2,9 Millionen hochpräzise semantische Cluster. Das System leistet drei Hauptbeiträge. Erstens führen wir einen gelabelten Datensatz mit 843.000 Konzeptpaaren ein, der Synonymie, Antonymie und Ko-Hyponymie umfasst und durch Gemini 2.5-Flash-LLM-Augmentierung erstellt sowie mit human-kuratierten Wörterbuchressourcen verifiziert wurde. Zweitens schlagen wir einen spezialisierten dreistufigen semantischen Relationsdiskriminator vor, der einen macro-F1-Score von 90 % erreicht und eine robuste Disambiguierung jenseits reiner Einbettungsähnlichkeit ermöglicht. Drittens führen wir einen neuartigen Soft-to-Hard-Clustering-Algorithmus ein, der semantischen Drift abmildert und fehlerhafte transitive Ketten (z.B. heiß -> scharf -> Schmerz -> Depression) verhindert, während gleichzeitig Polysemie aufgelöst wird. Unser Ansatz verwendet ein topologiebewusstes Zwei-Stufen-Expansions-Beschneidungs-Verfahren mit topologischem Voting, das sicherstellt, dass jeder Begriff genau einem semantisch kohärenten Cluster zugeordnet wird. Die resultierende Ressource ermöglicht hochpräzise semantische Suche und Retrieval-Augmented Generation, insbesondere für morphologisch komplexe und ressourcenschwache Sprachen, in denen bestehende Synonymdatenbanken nach wie vor spärlich sind.
Da große Sprachmodelle (LLMs) auf zunehmend undurchsichtigen Korpora trainiert werden, wurden Membership-Inference-Angriffe (MIAs) vorgeschlagen, um zu überprüfen, ob urheberrechtlich geschützte Texte während des Trainings verwendet wurden – trotz wachsender Bedenken hinsichtlich ihrer Zuverlässigkeit unter realistischen Bedingungen. Wir untersuchen, ob MIAs als zulässige Beweismittel in adversariellen Urheberrechtsstreitigkeiten dienen können, bei denen ein beschuldigter Modellentwickler die Trainingsdaten verschleiern könnte, während der semantische Inhalt erhalten bleibt, und formalisieren diesen Rahmen durch ein Kommunikationsprotokoll zwischen Richter, Anklage und Beschuldigtem. Um die Robustheit unter diesem Protokoll zu testen, führen wir SAGE (Structure-Aware SAE-Guided Extraction) ein, ein Paraphrasierungsframework, das von Sparse Autoencoders (SAEs) gesteuert wird und Trainingsdaten so umschreibt, dass die lexikalische Struktur verändert wird, während semantischer Inhalt und nachgelagerte Nützlichkeit erhalten bleiben. Unsere Experimente zeigen, dass state-of-the-art MIAs an Wirksamkeit verlieren, wenn Modelle auf SAGE-generierten Paraphrasen feinabgestimmt werden, was darauf hindeutet, dass ihre Signale nicht robust gegenüber semantikerhaltenden Transformationen sind. Obwohl in bestimmten Fine-Tuning-Regimen noch gewisse Informationslecks bestehen, legen diese Ergebnisse nahe, dass MIAs in adversariellen Settings anfällig sind und allein nicht als eigenständiger Mechanismus für das Urheberrechts-Auditing von LLMs ausreichen.
Wir stellen SciCoQA vor, einen Datensatz zur Erkennung von Diskrepanzen zwischen wissenschaftlichen Publikationen und ihren Codebasen, um treue Implementierungen sicherzustellen. Wir konstruieren SciCoQA aus GitHub-Issues und Reproduzierbarkeitsartikeln und schlagen zur Skalierung unseres Datensatzes eine Methode zur synthetischen Datengenerierung für die Erstellung von Papier-Code-Diskrepanzen vor. Wir analysieren die Papier-Code-Diskrepanzen im Detail und schlagen Diskrepanztypen und -kategorien vor, um die auftretenden Abweichungen besser zu verstehen. Insgesamt besteht unser Datensatz aus 611 Papier-Code-Diskrepanzen (81 echte, 530 synthetische), die verschiedene Disziplinen der computergestützten Wissenschaften abdecken, darunter KI, Physik, quantitative Biologie und andere. Unsere Auswertung von 21 LLMs unterstreicht die Schwierigkeit von SciCoQA, insbesondere bei Instanzen mit ausgelassenen Details im Artikel, langen Kontexteingaben und Daten außerhalb des Vor-Trainingskorpus der Modelle. Das in unserer Evaluation am besten abschneidende Modell, GPT-5, kann nur 45,7 % der realen Papier-Code-Diskrepanzen erkennen.
Differentially Private Stochastic Gradient Descent (DP-SGD) ist das dominierende Paradigma für privates Training, doch seine grundlegenden Limitierungen unter worst-case Adversary-Privacy-Definitionen sind nach wie vor kaum verstanden. Wir analysieren DP-SGD im Rahmen der f-Differential Privacy, die Privatsphäre über Hypothesentest-Trade-off-Kurven charakterisiert, und betrachten dabei geshuffeltes Sampling über eine einzelne Epoche mit M Gradientenupdates. Wir leiten eine explizite suboptimale obere Schranke für die erreichbare Trade-off-Kurve her. Dieses Ergebnis induziert eine geometrische untere Schranke für die Separation κ, die den maximalen Abstand zwischen der Trade-off-Kurve des Mechanismus und der idealen Raten-Geraden (random-guessing line) beschreibt. Da eine große Separation einen signifikanten Vorteil für einen Angreifer impliziert, erfordert eine sinnvolle Privatsphäre ein kleines κ. Wir beweisen jedoch, dass die Erzwingung einer kleinen Separation eine strikte untere Schranke für den Gauß'schen Rauschmultiplikator σ auferlegt, was die erreichbare Nutzbarkeit direkt begrenzt. Insbesondere muss unter dem standardmäßigen worst-case Adversary-Modell das geshuffelte DP-SGD die Bedingung σ ≥ 1/√(2 ln M) oder κ ≥ 1/8 * (1 - 1/(4π ln M)) erfüllen und kann somit nicht gleichzeitig starke Privatsphäre und hohe Nutzbarkeit erreichen. Obwohl diese Schranke asymptotisch für M → ∞ verschwindet, ist die Konvergenz extrem langsam: selbst für praktisch relevante Anzahlen von Updates bleibt das erforderliche Rauschniveau beträchtlich. Wir zeigen des Weiteren, dass sich dieselbe Limitierung bis auf konstante Faktoren auch auf Poisson-Subsampling erstreckt. Unsere Experimente bestätigen, dass die durch diese Schranke implizierten Rauschpegel in realistischen Trainingsszenarien zu einer signifikanten Genauigkeitsverschlechterung führen, was somit einen kritischen Engpass in DP-SGD unter standardmäßigen worst-case Adversary-Annahmen aufzeigt.
Instruction Tuning ist ein Standardparadigma zur Anpassung großer Sprachmodelle (LLMs), doch moderne Instruktionsdatensätze sind groß, verrauscht und redundant, was Fine-Tuning mit allen Daten kostspielig und oft unnötig macht. Bestehende Methoden zur Datenauswahl erstellen entweder teure Gradient-Datastores oder weisen statische Scores über einen schwachen Proxy zu, wobei sie die sich entwickelnde Unsicherheit weitgehend ignorieren und somit eine wichtige Quelle für die Interpretierbarkeit von LLMs verpassen. Wir schlagen GRADFILTERING vor, ein zielfunktionsagnostisches, unsicherheitsbewusstes Framework zur Datenauswahl, das einen kleinen GPT-2-Proxy mit einem LoRA-Ensemble nutzt und pro Beispiel Gradienten zu einem Gradient Signal-to-Noise Ratio (G-SNR) als Nutzenmetrik aggregiert. Unsere Methode übertrifft oder erreicht zufällige Teilmengen und starke Baselines in den meisten LLM-as-a-Judge-Auswertungen sowie in menschlichen Bewertungen. Darüber hinaus konvergieren die mit GRADFILTERING ausgewählten Teilmengen schneller als wettbewerbsfähige Filter unter dem gleichen Rechenbudget, was den Vorteil unsicherheitsbewusster Bewertung widerspiegelt.
Fernerkundungsänderungserkennung zielt darauf ab, Szenenänderungen zwischen zwei Zeitpunkten zu lokalisieren und zu charakterisieren und ist zentral für Anwendungen wie Umweltmonitoring und Katastrophenbewertung. Unterdessen haben visuelle autoregressive Modelle (VARs) kürzlich beeindruckende Bildgenerierungsfähigkeiten gezeigt, doch ihre Anwendung für pixelweise diskriminative Aufgaben bleibt aufgrund schwacher Steuerbarkeit, suboptimaler Dichtevorhersageleistung und Exposuralbias begrenzt. Wir stellen RemoteVAR vor, ein neues VAR-basiertes Framework zur Änderungserkennung, das diese Einschränkungen adressiert, indem es die autoregressive Vorhersage auf multi-resolutionell fusionierte bi-temporale Merkmale via Cross-Attention konditioniert und eine autoregressive Trainingsstrategie einsetzt, die speziell für die Vorhersage von Änderungskarten entwickelt wurde. Umfangreiche Experimente mit standardisierten Änderungserkennungs-Benchmarks zeigen, dass RemoteVAR durchgängige und signifikante Verbesserungen gegenüber starken diffusionsbasierten und transformerbasierten Baseline-Modellen erzielt und damit eine wettbewerbsfähige autoregressive Alternative für die Fernerkundungsänderungserkennung etabliert. Der Code wird unter https://github.com/yilmazkorkmaz1/RemoteVAR verfügbar sein.
Aktuelle datenwissenschaftliche Agenten auf Basis von Large Language Models (LLMs) zielen darauf ab, datenwissenschaftliche Aufgaben – von der Datenanalyse bis hin zu Deep Learning – zu automatisieren. Die offene Natur realer datenwissenschaftlicher Probleme, die oft mehrere Taxonomien umfassen und keine Standardlösungen haben, stellt jedoch eine erhebliche Herausforderung für die Evaluation dar. Um dies zu adressieren, stellen wir DSAEval vor, einen Benchmark, der 641 reale datenwissenschaftliche Probleme basierend auf 285 diversen Datensätzen umfasst und sowohl strukturierte als auch unstrukturierte Daten (z. B. aus den Bereichen Vision und Text) abdeckt. DSAEval zeichnet sich durch drei besondere Merkmale aus: (1) Multimodale Umgebungswahrnehmung, die es Agenten ermöglicht, Beobachtungen aus mehreren Modalitäten wie Text und Vision zu interpretieren; (2) Multi-Query-Interaktionen, die die iterative und kumulative Natur realer datenwissenschaftlicher Projekte widerspiegeln; und (3) Multidimensionale Evaluation, die eine ganzheitliche Bewertung über Reasoning, Code und Ergebnisse hinweg bietet. Wir evaluieren systematisch 11 fortgeschrittene agentenbasierte LLMs mit DSAEval. Unsere Ergebnisse zeigen, dass Claude-Sonnet-4.5 die insgesamt stärkste Leistung erzielt, GPT-5.2 am effizientesten und MiMo-V2-Flash das beste Kosten-Nutzen-Verhältnis aufweist. Wir zeigen weiter, dass multimodale Wahrnehmung die Leistung bei visuellen Aufgaben konsistent verbessert, mit Steigerungen zwischen 2,04 % und 11,30 %. Insgesamt schneiden aktuelle datenwissenschaftliche Agenten bei strukturierten Daten und routinemäßigen Datenanalyse-Workflows gut ab, es bestehen jedoch erhebliche Herausforderungen im Bereich unstrukturierter Daten. Abschließend liefern wir kritische Einblicke und skizzieren zukünftige Forschungsrichtungen zur Weiterentwicklung datenwissenschaftlicher Agenten.
Viele Studierende haben keinen Zugang zu fachkundiger Forschungsbetreuung. Wir untersuchen, ob ein KI-Mentor Studierende von einer Idee zu einer wissenschaftlichen Arbeit führen kann. Wir entwickeln METIS, einen werkzeuggestützten, phasenbewussten Assistenten mit Literaturrecherche, kuratierten Leitfäden, Methodenprüfungen und Gedächtnisfunktion. Wir evaluieren METIS im Vergleich zu GPT-5 und Claude Sonnet 4.5 über sechs Schreibphasen hinweg mittels paarweiser Präferenzen (LLM-as-a-judge), Bewertungsrastern aus Studentenperspektive, kurzen mehrschrittigen Tutoring-Sitzungen sowie Evidenz- und Konformitätsprüfungen. Bei 90 Einzelschritt-Anfragen zogen LLM-Bewerter METIS in 71 % der Fälle Claude Sonnet 4.5 und in 54 % GPT-5 vor. Die Bewertungen aus Studentenperspektive (Klarheit/Handlungsorientierung/Anforderungserfüllung; 90 Anfragen × 3 Bewerter) sind über alle Phasen hinweg höher. In mehrschrittigen Sitzungen (fünf Szenarien/Agent) erzielt METIS eine leicht höhere Endqualität als GPT-5. Die Verbesserungen konzentrieren sich auf dokumentenbasierte Phasen (D-F), was mit dem phasenbewussten Routing und der Verankerung konsistent ist. Zu den Fehlermodi gehören vorzeitiges Tool-Routing, oberflächliche Verankerung und gelegentliche Phasenfehlklassifizierung.
Sprachliche Ausdrücke von Emotionen wie Depressionen, Angstzuständen und traumaassoziierten Zuständen sind in klinischen Notizen, Beratungsdialogen und Online-Gesundheitscommunities allgegenwärtig. Eine genaue Erkennung dieser Emotionen ist für die klinische Triage, Risikobewertung und rechtzeitige Intervention unerlässlich. Obwohl Large Language Models (LLMs) bei Emotionsanalyseaufgaben eine starke Generalisierungsfähigkeit gezeigt haben, bleibt ihre diagnostische Zuverlässigkeit in hochriskanten, kontextintensiven medizinischen Umgebungen höchst empfindlich gegenüber dem Prompt-Design. Zudem stehen bestehende Methoden vor zwei zentralen Herausforderungen: emotionale Komorbidität, bei der mehrere verwobene emotionale Zustände die Vorhersage erschweren, und eine ineffiziente Erschließung klinisch relevanter Hinweise. Um diese Herausforderungen zu bewältigen, schlagen wir APOLO (Automated Prompt Optimization for Linguistic Emotion Diagnosis) vor – ein Framework, das systematisch einen breiteren und feiner granularen Prompt-Raum erkundet, um die diagnostische Effizienz und Robustheit zu verbessern. APOLO formuliert die Instruktionsverfeinerung als Partially Observable Markov Decision Process und nutzt einen Multi-Agenten-Kollaborationsmechanismus mit den Rollen Planner, Teacher, Critic, Student und Target. In diesem geschlossenen Kreislauf definiert der Planner eine Optimierungstrajektorie, während die Teacher-Critic-Student-Agenten iterativ Prompts verfeinern, um die Stabilität und Effektivität der Schlussfolgerung zu erhöhen. Der Target-Agent entscheidet auf Grundlage der Leistungsbewertung, ob die Optimierung fortgesetzt wird. Experimentelle Ergebnisse zeigen, dass APOLO die diagnostische Genauigkeit und Robustheit über domänenspezifische und stratifizierte Benchmarks hinweg konsistent verbessert. Dies demonstriert ein skalierbares und generalisierbares Paradigma für vertrauenswürdige LLM-Anwendungen im Bereich der psychischen Gesundheit.
Aktives Lernen (AL) hat das Potenzial, die Annotationskosten bei der 3D-Biomedizin-Bildsegmentierung erheblich zu senken, da die Expertenmarkierung volumetrischer Daten sowohl zeitaufwändig als auch teuer ist. Bisherige AL-Methoden sind jedoch nicht in der Lage, verbesserte Zufallsstichproben-Baselines, die an 3D-Daten angepasst sind, konsistent zu übertreffen, was das Feld ohne zuverlässige Lösung lässt. Wir stellen Class-stratified Scheduled Power Predictive Entropy (ClaSP PE) vor, eine einfache und effektive Abfragestrategie, die zwei Hauptprobleme standardmäßiger unsicherheitsbasierter AL-Methoden adressiert: Klassenungleichgewicht und Redundanz in frühen Auswahlen. ClaSP PE kombiniert klassenstratifizierte Abfragen, um die Abdeckung unterrepräsentierter Strukturen zu gewährleisten, sowie Rauschen auf der Logarithmusskala mit einem abklingenden Zeitplan, um Abfragevielfalt in der frühen AL-Phase zu erzwingen und später Exploitation zu fördern. In unserer Auswertung von 24 experimentellen Settings mit vier 3D-Biomedizin-Datensätzen innerhalb des umfassenden nnActive-Benchmarks ist ClaSP PE die einzige Methode, die verbesserte Zufallsbaselines generell in Bezug auf Segmentierungsqualität mit statistisch signifikanten Gewinnen übertrifft und dabei annotations-effizient bleibt. Darüber hinaus simulieren wir die reale Anwendung explizit, indem wir unsere Methode an vier zuvor unbekannten Datensätzen testen, ohne manuelle Anpassung, wobei alle Experimentparameter gemäß vordefinierter Richtlinien gesetzt werden. Die Ergebnisse bestätigen, dass ClaSP PE robust auf neue Aufgaben generalisiert, ohne datasetspezifisches Tuning zu erfordern. Innerhalb des nnActive-Frameworks liefern wir überzeugende Belege dafür, dass eine AL-Methode in einem realistischen, produktionsnahen Szenario in Bezug auf Leistung und Annotationseffizienz konsistent an 3D-Segmentierung angepasste Zufallsbaselines übertreffen kann. Unsere quelloffene Implementierung und klaren Einsatzrichtlinien machen sie sofort praktisch anwendbar. Code ist verfügbar unter https://github.com/MIC-DKFZ/nnActive.