papers.description
Reinforcement Learning from Verifier Rewards (RLVR) hat sich als weit verbreiteter Ansatz für das Nachtraining großer Sprachmodelle an Reasoning-Aufgaben etabliert, wobei gruppenbasierte Methoden wie GRPO und deren Varianten breite Anwendung finden. Diese Methoden stützen sich auf gruppenrelative Vorteilsschätzung, um gelernte Kritiker zu vermeiden; deren theoretische Eigenschaften sind jedoch nach wie vor kaum verstanden. In dieser Arbeit decken wir ein grundlegendes Problem des gruppenbasierten Reinforcement Learnings auf: Der gruppenrelative Vorteilsschätzer ist inhärent verzerrt im Vergleich zum wahren (erwarteten) Vorteil. Wir liefern die erste theoretische Analyse, die zeigt, dass er Vorteile für schwierige Prompts systematisch unterschätzt und für leichte Prompts überschätzt, was zu einem unausgewogenen Verhältnis von Exploration und Exploitation führt. Um dieses Problem zu adressieren, schlagen wir History-Aware Adaptive Difficulty Weighting (HA-DW) vor, ein adaptives Neugewichtungsschema, das die Vorteilsschätzungen auf Basis eines sich entwickelnden Schwierigkeits-Ankers und der Trainingsdynamik anpasst. Sowohl theoretische Analysen als auch Experimente mit fünf mathematischen Reasoning-Benchmarks belegen, dass HA-DW die Leistung bei Integration in GRPO und dessen Varianten konsistent verbessert. Unsere Ergebnisse deuten darauf hin, dass die Korrektur verzerrter Vorteilsschätzung entscheidend für ein robustes und effizientes RLVR-Training ist.
Die Integration von KI-Agenten in Wirtschaftsmärkte verändert die Landschaft strategischer Interaktion grundlegend. Wir untersuchen die wirtschaftlichen Auswirkungen der Erweiterung des verfügbaren Technologieportfolios in drei klassischen spieltheoretischen Settings: Verhandlungen (Ressourcenaufteilung), Aushandlung (Handel mit asymmetrischer Information) und Überzeugung (strategische Informationsübermittlung). Wir stellen fest, dass bereits die bloße Erweiterung der Auswahl an KI-Delegierten die Gleichgewichtsauszahlungen und Regulierungsergebnisse drastisch verschieben kann, was oft Anreize für Regulierungsbehörden schafft, proaktiv Technologien zu entwickeln und bereitzustellen. Umgekehrt identifizieren wir ein strategisches Phänomen, den sogenannten "Vergifteten Apfel"-Effekt: Ein Akteur kann eine neue Technologie freigeben, die weder er selbst noch sein Gegner letztlich nutzen, allein um die Wahl des Marktdesigns durch den Regulator zu seinen Gunsten zu manipulieren. Diese strategische Freigabe verbessert das Wohlfahrtsniveau des Freigebenden auf Kosten seines Kontrahenten und der Fairnessziele des Regulators. Unsere Ergebnisse zeigen, dass statische Regulierungsrahmen anfällig für Manipulation durch Technologieerweiterung sind, was dynamische Marktdesigns erfordert, die sich der sich entwickelnden Landschaft der KI-Fähigkeiten anpassen.
Die Fähigkeit großer Sprachmodelle (LLMs), Werkzeuge in mehrstufigen Interaktionen effektiv zu nutzen, ist entscheidend für die Entwicklung leistungsfähiger autonomer Agenten. Dennoch stellt die Beschaffung vielfältiger und realistischer Mehrfachaufruf-Daten eine erhebliche Herausforderung dar. In dieser Arbeit schlagen wir ein neuartiges textbasiertes Paradigma vor. Wir stellen fest, dass Textkorpora auf natürliche Weise umfangreiche, mehrstufige Problemlösungsprozesse enthalten, die als ungenutzte, skalierbare und authentische Datenquelle für Mehrfachaufruf-Aufgaben dienen können. Aufbauend auf dieser Erkenntnis stellen wir GEM vor, eine Daten-Synthese-Pipeline, die die Generierung und Extraktion von Mehrfachaufruf-Abläufen aus Textkorpora durch einen vierstufigen Prozess ermöglicht: Relevanzfilterung, Extraktion von Arbeitsabläufen und Werkzeugen, Verankerung der Abläufe und Komplexitätsverfeinerung. Um die Rechenkosten zu senken, trainieren wir weiterhin einen spezialisierten Ablauf-Synthesizer durch überwachtes Feintuning. Dieses Modell verdichtet die komplexe Generierungspipeline zu einem effizienten, end-to-end Ablaufgenerator. Experimente zeigen, dass unser GEM-32B-Modell eine Verbesserung von 16,5 % auf dem BFCL V3 Multi-turn Benchmark erzielt. Unsere Modelle übertreffen teilweise die Leistung von Modellen, die mit domänenspezifischen Daten von τ-bench (Airline und Retail) trainiert wurden, was die überlegene Generalisierungsfähigkeit unseres textbasierten Syntheseparadigmas unterstreicht. Besonders bemerkenswert ist, dass unser Ablauf-Synthesizer die Qualität der vollständigen Pipeline erreicht und dabei die Inferenzlatenz und -kosten erheblich reduziert.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat erhebliche Fortschritte in reasoning-intensiven Domänen wie der Mathematik vorangetrieben. Die Optimierung offener Generierungsaufgaben bleibt jedoch aufgrund fehlender Ground-Truth-Daten eine Herausforderung. Während rubrikbasierte Evaluation einen strukturierten Proxy für die Verifizierung bietet, leiden bestehende Methoden unter Skalierbarkeitsengpässen und grobkörnigen Kriterien, was zu einem Supervision-Ceiling-Effekt führt. Um dies zu adressieren, schlagen wir einen automatisierten Coarse-to-Fine-Rubric-Generation-Ansatz vor. Durch die Synergie von prinzipiengeleiteter Synthese, Multi-Modell-Aggregation und Difficulty Evolution erzeugt unser Ansatz umfassende und hochgradig diskriminative Kriterien, die feine Nuancen erfassen können. Aufbauend auf diesem Framework stellen wir RubricHub vor, einen großvolumigen (~110k) und domänenübergreifenden Datensatz. Wir validieren seinen Nutzen durch eine zweistufige Post-Training-Pipeline, bestehend aus Rubric-based Rejection Sampling Fine-Tuning (RuFT) und Reinforcement Learning (RuRL). Experimentelle Ergebnisse zeigen, dass RubricHub signifikante Leistungssteigerungen ermöglicht: Unser post-trainiertes Qwen3-14B erzielt State-of-the-Art (SOTA) Ergebnisse auf HealthBench (69.3) und übertrifft damit proprietäre Frontier-Modelle wie GPT-5. Code und Daten werden in Kürze veröffentlicht.
Personalisierte große Sprachmodelle (LLMs) passen das Modellverhalten an individuelle Nutzer an, um die Nutzerzufriedenheit zu steigern. Jedoch kann Personalisierung unbeabsichtigt das faktische Schlussfolgern verzerren. Wir zeigen, dass personalisierte LLMs bei faktischen Anfragen ein Phänomen aufweisen, bei dem das Modell Antworten generiert, die eher mit der bisherigen Nutzerhistorie übereinstimmen als mit der objektiven Wahrheit. Dies führt zu personalisierungsinduzierten Halluzinationen, welche die faktische Zuverlässigkeit beeinträchtigen und aufgrund einer repräsentationalen Verschränkung zwischen Personalisierungs- und Faktenrepräsentationen falsche Überzeugungen verbreiten können. Um dieses Problem zu adressieren, schlagen wir Factuality-Preserving Personalized Steering (FPPS) vor, einen leichtgewichtigen Ansatz zur Inferenzzeit, der personalisierungsinduzierte faktische Verzerrungen mildert, während personalisiertes Verhalten erhalten bleibt. Wir führen zudem PFQABench ein, den ersten Benchmark, der entwickelt wurde, um faktisches und personalisiertes Frage-Antworten unter Personalisierung gemeinsam zu evaluieren. Experimente mit verschiedenen LLM-Architekturen und Personalisierungsmethoden zeigen, dass FPPS die faktische Genauigkeit erheblich verbessert und gleichzeitig die Personalisierungsleistung aufrechterhält.
Vision-Language-Action (VLA)-Modelle haben sich als wesentliche allgemeine Roboter-Policies für verschiedene Manipulationsaufgaben etabliert, die konventionell auf der direkten Übersetzung multimodaler Eingaben in Aktionen über Vision-Language-Model (VLM)-Embeddings beruhen. Jüngste Fortschritte haben explizite Zwischenreasoning-Verfahren eingeführt, wie z.B. die Vorhersage von Teilaufgaben (Sprache) oder die Synthese von Zielbildern (Vision), um die Aktionsgenerierung zu steuern. Diese Zwischenreasoning-Ansätze sind jedoch oft indirekt und inhärent in ihrer Fähigkeit begrenzt, die vollständigen, granularen Informationen zu vermitteln, die für eine präzise Aktionsausführung erforderlich sind. Stattdessen postulieren wir, dass die effektivste Form des Reasonings eine ist, die direkt im Aktionsraum abläuft. Wir führen Action Chain-of-Thought (ACoT) ein, ein Paradigma, bei dem der Reasoning-Prozess selbst als strukturierte Abfolge grober Aktionsabsichten formuliert wird, die die finale Policy steuern. In diesem Artikel schlagen wir ACoT-VLA vor, eine neuartige Architektur, die das ACoT-Paradigma umsetzt. Konkret führen wir zwei komplementäre Komponenten ein: einen Expliziten Action Reasoner (EAR) und einen Impliziten Action Reasoner (IAR). Ersterer schlägt grobe Referenztrajektorien als explizite Reasoning-Schritte auf Aktionsebene vor, während Letzterer latente Aktions-Priors aus internen Repräsentationen der multimodalen Eingabe extrahiert. Gemeinsam bilden sie einen ACoT, der den nachgeschalteten Aktions-Kopf konditioniert, um ein fundiertes Policy-Lernen zu ermöglichen. Umfangreiche Experimente in realen und simulierten Umgebungen demonstrieren die Überlegenheit unserer vorgeschlagenen Methode, die auf LIBERO, LIBERO-Plus bzw. VLABench 98,5 %, 84,1 % und 47,4 % erreicht.
Agentenbasierte Suche mittels Reinforcement Learning (RL) ermöglicht es großen Sprachmodellen (LLMs), komplexe Fragen durch dynamische Planung und externe Suche zu lösen. Während dieser Ansatz die Genauigkeit durch agentenoptimierte Richtlinien, die mittels Reinforcement Learning im großen Maßstab optimiert werden, erheblich steigert, identifizieren wir eine kritische Lücke in der Zuverlässigkeit: Diese Agenten erkennen ihre Denkgrenzen nicht und geben nur selten zu, „ICH WEISS ES NICHT“ (IDK), selbst wenn die Beweislage unzureichend ist oder das Schlussfolgern an seine Grenzen stößt. Der Mangel an Zuverlässigkeit führt oft zu plausiblen, aber unzuverlässigen Antworten, was in vielen realen Szenarien erhebliche Risiken birgt. Zu diesem Zweck schlagen wir Boundary-Aware Policy Optimization (BAPO) vor, ein neuartiges RL-Framework, das entwickelt wurde, um ein zuverlässiges Grenzbewusstsein zu fördern, ohne die Genauigkeit zu beeinträchtigen. BAPO führt zwei Schlüsselkomponenten ein: (i) eine gruppenbasierte, grenzbewusste Belohnung, die eine IDK-Antwort nur dann fördert, wenn das Schlussfolgern an seine Grenzen stößt, und (ii) einen adaptiven Belohnungsmodulator, der diese Belohnung während der frühen Explorationsphase strategisch aussetzt, um zu verhindern, dass das Modell IDK als Abkürzung ausnutzt. Umfangreiche Experimente mit vier Benchmarks zeigen, dass BAPO die Gesamtzuverlässigkeit der agentenbasierten Suche erheblich verbessert.
Die Erzeugung menschlicher Bewegungen aus Textbeschreibungen hat in den letzten Jahren bemerkenswerte Fortschritte erzielt. Bisherige Methoden stützen sich jedoch hauptsächlich auf Beschreibungen auf Sequenz- oder Aktionsebene, da feingranulare, partielle Bewegungsannotationen fehlen. Dies schränkt ihre Steuerbarkeit über einzelne Körperteile ein. In dieser Arbeit erstellen wir einen hochwertigen Bewegungsdatensatz mit atomaren, zeitlich strukturierten Teilbereichs-Textannotationen, indem wir die Reasoning-Fähigkeiten großer Sprachmodelle (LLMs) nutzen. Im Gegensatz zu früheren Datensätzen, die entweder synchronisierte Teilbereichsbeschreibungen mit festen Zeitsegmenten liefern oder ausschließlich auf globale Sequenzlabels angewiesen sind, erfasst unser Datensatz asynchrone und semantisch distinkte Teilbewegungen mit hoher zeitlicher Auflösung. Aufbauend auf diesem Datensatz stellen wir ein diffusionsbasiertes, teilbereichssensitives Bewegungsgenerierungsframework vor, genannt FrankenMotion, bei dem jedes Körperteil durch seine eigene zeitlich strukturierte Textbeschreibung gesteuert wird. Dies ist unseres Wissens nach die erste Arbeit, die atomare, zeitlich bewusste Teilbereichs-Bewegungsannotationen bereitstellt und ein Modell ermöglicht, das Bewegungsgenerierung mit sowohl räumlicher (Körperteil) als auch zeitlicher (atomare Aktion) Kontrolle erlaubt. Experimente zeigen, dass FrankenMotion alle bisherigen Baseline-Modelle, die für unsere Einstellung adaptiert und neu trainiert wurden, übertrifft und dass unser Modell Bewegungen komponieren kann, die während des Trainings nicht gesehen wurden. Unser Code und Datensatz werden nach der Veröffentlichung öffentlich zugänglich sein.
Der Einsatz von LLMs wirft zwei gekoppelte Herausforderungen auf: (1) Monitoring – die Einschätzung, wo ein Modell bei sich verändernden Datenströmen und Domänen schlecht abschneidet – und (2) Verbesserung – die Priorisierung von Datenerfassung, um die größten Leistungslücken zu schließen. Wir testen, ob ein Signal zur Inferenzzeit die Genauigkeit auf Slice-Ebene unter Domänenverschiebung schätzen kann. Für jede Antwort berechnen wir ein Ausgabe-Entropie-Profil aus den Next-Token-Wahrscheinlichkeiten der letzten Schicht (basierend auf Top-k-Logprobs) und fassen es mit elf Statistiken zusammen. Ein leichtgewichtiger Klassifikator sagt die Korrektheit der Instanz vorher, und die Mittelung der vorhergesagten Wahrscheinlichkeiten ergibt eine Schätzung der Genauigkeit auf Domänenebene. Wir evaluieren auf zehn STEM-Reasoning-Benchmarks mit umfassenden Trainings-/Testzusammensetzungen (k in {1,2,3,4}; alle "10 choose k" Kombinationen) über neun LLMs aus sechs Familien (3B-20B). Die Schätzungen bilden oft die ausgeblendete Benchmark-Genauigkeit ab, und mehrere Modelle zeigen eine nahezu monotone Ordnung der Domänen. Ausgabe-Entropie-Profile sind somit ein zugängliches Signal für skalierbares Monitoring und für die zielgerichtete Datenerfassung.
Supervised Fine-Tuning (SFT) ist eine grundlegende Nachbearbeitungsstrategie, um Large Language Models (LLMs) mit menschlichen Absichten in Einklang zu bringen. Herkömmliches SFT ignoriert jedoch oft die Eins-zu-viele-Natur der Sprache, indem es die Ausrichtung auf eine einzige Referenzantwort erzwingt, was dazu führt, dass das Modell an nebensächliche Ausdrücke überangepasst wird. Obwohl unsere empirische Analyse nahelegt, dass die Einführung mehrerer Referenzantworten dieses Problem mildern kann, zwingen uns die prohibitiv hohen Daten- und Rechenkosten zu einem strategischen Umdenken: die Priorisierung der Minderung der Überanpassung an einzelne Referenzen gegenüber dem kostspieligen Streben nach Antwortvielfalt. Um dies zu erreichen, beleuchten wir den intrinsischen Zusammenhang zwischen Token-Wahrscheinlichkeit und semantischer Bedeutung: Tokens mit hoher Wahrscheinlichkeit tragen den Kern des logischen Gerüsts, während Tokens mit niedriger Wahrscheinlichkeit größtenteils ersetzbare Ausdrücke sind. Aufbauend auf dieser Erkenntnis schlagen wir ProFit vor, das gezielt Tokens mit niedriger Wahrscheinlichkeit maskiert, um eine Überanpassung auf oberflächlicher Ebene zu verhindern. Umfangreiche Experimente bestätigen, dass ProFit traditionelle SFT-Baselines auf Benchmarks für allgemeines Schlussfolgern und Mathematik durchgängig übertrifft.
Zukünftige Bewegungsrepräsentationen, wie optischer Fluss, bieten einen immensen Mehrwert für Steuerungs- und Generative Aufgaben. Die Vorhersage generalisierbarer, räumlich dichter Bewegungsrepräsentationen bleibt jedoch eine zentrale Herausforderung, und das Erlernen solcher Vorhersagen aus verrauschten, realen Daten ist relativ unerforscht. Wir stellen FOFPred vor, ein neuartiges, sprachkonditioniertes Modell zur Vorhersage von optischem Fluss, das eine vereinheitlichte Vision-Language-Model (VLM)- und Diffusionsarchitektur aufweist. Diese einzigartige Kombination ermöglicht starkes multimodales Reasoning mit pixelgenauer generativer Treue für die Vorhersage zukünftiger Bewegungen. Unser Modell wird mit Web-scale-Daten zu menschlichen Aktivitäten trainiert – einer hochskalierbaren, aber unstrukturierten Quelle. Um aussagekräftige Signale aus diesen verrauschten Video-Text-Daten zu extrahieren, setzen wir entscheidende Datenvorverarbeitungstechniken und unsere vereinheitlichte Architektur mit starker Bildvorverarbeitung ein. Das trainierte Modell wird anschließend erweitert, um zwei verschiedene Downstream-Aufgaben in den Bereichen Steuerung und Generierung zu bewältigen. Evaluationen in den Bereichen robotergestützte Manipulation und Videogenerierung unter sprachgesteuerten Bedingungen belegen die domänenübergreifende Vielseitigkeit von FOFPred und bestätigen den Wert einer vereinheitlichten VLM-Diffusions-Architektur sowie des skalierbaren Lernens aus diversen Webdaten für die Vorhersage von zukünftigem optischem Fluss.
Jüngste Fortschritte bei der 3D-Formgenerierung haben beeindruckende Ergebnisse erzielt, die meisten bestehenden Methoden setzen jedoch saubere, unverdeckte und gut segmentierte Eingabedaten voraus. Solche Bedingungen sind in realen Szenarien selten gegeben. Wir stellen ShapeR vor, einen neuartigen Ansatz zur bedingten 3D-Objektshape-Generierung aus beiläufig aufgenommenen Sequenzen. Ausgehend von einer Bildsequenz nutzen wir verfügbare Visual-Inertial-SLAM-Verfahren, 3D-Erkennungsalgorithmen und Vision-Language-Modelle, um für jedes Objekt eine Menge sparser SLAM-Punkte, posen-kalibrierte Multi-View-Bilder und maschinell generierte Bildbeschreibungen zu extrahieren. Ein rectified Flow-Transformer, der darauf trainiert ist, effektiv auf diese Modalitäten zu konditionieren, generiert dann hochauflösende metrische 3D-Formen. Um die Robustheit gegenüber den Herausforderungen beiläufig erfasster Daten zu gewährleisten, setzen wir eine Reihe von Techniken ein, darunter On-the-fly-kompositionelle Augmentierungen, ein Curriculum-Training-Schema über Objekt- und Szenenebenen-Datensätze hinweg sowie Strategien zur Handhabung von Hintergrundunordnung. Zusätzlich führen wir einen neuen Evaluierungsbenchmark ein, der 178 Objekte "in the wild" über 7 reale Szenen mit Geometrie-Annotationen umfasst. Experimente zeigen, dass ShapeR in dieser anspruchsvollen Umgebung bestehende Ansätze signifikant übertrifft und eine Verbesserung der Chamfer-Distanz um den Faktor 2,7 gegenüber dem State-of-the-Art erreicht.
Große Sprachmodelle haben bemerkenswerte Fähigkeiten in verschiedenen Bereichen erreicht, doch die Mechanismen, die anspruchsvollem Denken zugrunde liegen, bleiben schwer fassbar. Jüngste Reasoning-Modelle übertreffen vergleichbare instruktionsfinetunte Modelle bei komplexen kognitiven Aufgaben, was auf erweiterte Berechnungen durch längere Denkketten zurückgeführt wird. Hier zeigen wir, dass verbessertes Reasoning nicht allein aus erweiterter Berechnung entsteht, sondern aus der Simulation multi-agentenähnlicher Interaktionen – einer „Gesellschaft des Denkens“ –, die Diversifizierung und Debatte zwischen internen kognitiven Perspektiven ermöglicht, die durch unterschiedliche Persönlichkeitsmerkmale und Domänenexpertise charakterisiert sind. Durch quantitative Analysen und mechanistische Interpretierbarkeitsmethoden, angewendet auf Reasoning-Traces, finden wir, dass Reasoning-Modelle wie DeepSeek-R1 und QwQ-32B eine viel größere Perspektivenvielfalt aufweisen als instruktionsfinetunte Modelle und während des Reasoning breitere Konflikte zwischen heterogenen, persönlichkeits- und expertiserelevanten Merkmalen aktivieren. Diese Multi-Agenten-Struktur manifestiert sich in konversationellen Verhaltensweisen, einschließlich Frage-Antwort-Sequenzen, Perspektivwechseln und der Vermittlung widersprüchlicher Ansichten, sowie in sozio-emotionalen Rollen, die pointierte Hin-und-Her-Gespräche charakterisieren, was zusammen den Genauigkeitsvorteil bei Reasoning-Aufgaben erklärt. Kontrollierte Verstärkungslern-Experimente zeigen, dass Basismodelle konversationelle Verhaltensweisen verstärken, wenn sie ausschließlich für Reasoning-Genauigkeit belohnt werden, und das Finetunen von Modellen mit konversationellem Gerüst die Reasoning-Verbesserung gegenüber Basismodellen beschleunigt. Diese Ergebnisse deuten darauf hin, dass die soziale Organisation des Denkens eine effektive Erkundung von Lösungsräumen ermöglicht. Wir legen nahe, dass Reasoning-Modelle ein computationales Gegenstück zur kollektiven Intelligenz in menschlichen Gruppen etablieren, bei der Diversität zu überlegener Problemlösung führt, wenn sie systematisch strukturiert ist. Dies weist auf neue Möglichkeiten hin, Agentenorganisationen zu nutzen, um die Weisheit der Vielen zu erschließen.
Physikalische Grundsätze sind für realistische visuelle Simulationen fundamental, stellen jedoch nach wie vor eine wesentliche Vernachlässigung in der transformerbasierten Videogenerierung dar. Diese Lücke verdeutlicht eine entscheidende Einschränkung bei der Darstellung starrer Körperbewegungen, einem Kernprinzip der klassischen Mechanik. Während Computergrafik und physikbasierte Simulatoren solche Kollisionen problemlos mittels Newtonscher Formeln modellieren können, verwerfen moderne Pre-train-Fine-tune-Paradigmen das Konzept der Starrkörperphysik während der pixelbasierten globalen Entrauschung. Selbst mathematisch exakte Randbedingungen werden während der Modelloptimierung im Post-Training als suboptimale Lösungen (d.h. als Nebenbedingungen) behandelt, was den physikalischen Realismus generierter Videos grundlegend einschränkt. Angeregt durch diese Überlegungen führen wir erstmalig ein physikbewusstes Reinforcement-Learning-Paradigma für Videogenerierungsmodelle ein, das physikalische Kollisionsregeln direkt in hochdimensionalen Räumen durchsetzt und so gewährleistet, dass physikalisches Wissen strikt angewendet statt als bloße Nebenbedingung behandelt wird. Darauf aufbauend erweitern wir dieses Paradigma zu einem einheitlichen Rahmenwerk, dem sogenannten Mimicry-Discovery Cycle (MDcycle), das eine substanzielle Feinjustierung ermöglicht, während die Fähigkeit des Modells zur Nutzung physikalisch fundierter Rückmeldungen vollständig erhalten bleibt. Um unseren Ansatz zu validieren, entwickeln wir den neuen Benchmark PhysRVGBench und führen umfangreiche qualitative sowie quantitative Experimente durch, um dessen Wirksamkeit eingehend zu bewerten.
Während GUI-Agenten bei expliziten und vollständigen Anweisungen starke Leistung gezeigt haben, erfordert der reale Einsatz eine Ausrichtung an den komplexeren impliziten Intentionen der Nutzer. In dieser Arbeit stellen wir Hierarchical Implicit Intent Alignment for Personalized GUI Agent (PersonalAlign) vor – eine neue Agentenaufgabe, die es Agenten abverlangt, langfristige Nutzeraufzeichnungen als persistierenden Kontext zu nutzen, um ausgelassene Präferenzen in vagen Anweisungen aufzulösen und latente Routinen basierend auf dem Nutzerzustand für proaktive Unterstützung vorherzusehen. Um diese Forschung zu ermöglichen, führen wir AndroidIntent ein, einen Benchmark, der darauf ausgelegt ist, die Fähigkeit von Agenten zu bewerten, vage Anweisungen aufzulösen und proaktive Vorschläge durch Schlussfolgerungen aus langfristigen Nutzeraufzeichnungen zu liefern. Wir haben 775 nutzerspezifische Präferenzen und 215 Routinen aus 20.000 langfristigen Datensätzen verschiedener Nutzer zur Evaluation annotiert. Darüber hinaus stellen wir den Hierarchical Intent Memory Agent (HIM-Agent) vor, der einen sich kontinuierlich aktualisierenden persönlichen Speicher verwaltet und Nutzerpräferenzen sowie Routinen hierarchisch für die Personalisierung organisiert. Abschließend evaluieren wir eine Reihe von GUI-Agenten auf AndroidIntent, darunter GPT-5, Qwen3-VL und UI-TARS. Die weiteren Ergebnisse zeigen, dass HIM-Agent die Ausführungs- und Proaktivleistung signifikant um 15,7 % bzw. 7,3 % verbessert.
Die Fähigkeiten von fortschrittlichen Sprachmodellen verbessern sich rapide. Daher benötigen wir stärkere Gegenmaßnahmen gegen missbräuchliche Nutzung leistungsfähigerer Systeme durch böswillige Akteure. Frühere Arbeiten haben gezeigt, dass Aktivierungs-Probes eine vielversprechende Technik zur Missbrauchsvermeidung sein könnten, doch wir identifizieren eine entscheidende verbleibende Herausforderung: Probes generalisieren nicht unter wichtigen Produktions-Distributionsverschiebungen. Insbesondere stellen wir fest, dass der Wechsel von Eingaben mit kurzem Kontext zu solchen mit langem Kontext für bestehende Probe-Architekturen problematisch ist. Wir schlagen mehrere neue Probe-Architekturen vor, die diese Distributionsverschiebung bei langem Kontext bewältigen. Wir evaluieren diese Probes im Bereich cyber-offensiver Angriffe und testen ihre Robustheit gegenüber verschiedenen produktionsrelevanten Verschiebungen, einschließlich Mehrfach-Dialogen, statischen Jailbreaks und adaptivem Red Teaming. Unsere Ergebnisse zeigen, dass zwar Multimax die Kontextlänge adressiert, für breite Generalisierung jedoch eine Kombination aus Architekturauswahl und Training auf diversen Verteilungen erforderlich ist. Zusätzlich demonstrieren wir, dass die Kombination von Probes mit Prompt-basierten Klassifikatoren aufgrund der recheneffizienten Natur von Probes eine optimale Genauigkeit bei geringen Kosten erreicht. Diese Erkenntnisse haben die erfolgreiche Implementierung von Missbrauchsvermeidungs-Probes in nutzerorientierten Instanzen von Gemini, Googles modernstem Sprachmodell, ermöglicht. Abschließend verzeichnen wir erste positive Ergebnisse mit AlphaEvolve zur Automatisierung von Verbesserungen sowohl in der Probe-Architektursuche als auch im adaptiven Red Teaming, was zeigt, dass die Automatisierung eines Teils der KI-Sicherheitsforschung bereits möglich ist.
Autonome Agenten auf Basis großer Sprachmodelle (LLMs) zeigen vielfältige Fähigkeiten, um wesentlich zur wirtschaftlichen Produktion beizutragen. Bestehende Benchmarks konzentrieren sich jedoch weiterhin auf Einzelfähigkeiten von Agenten und erfassen keine langfristigen, realen Szenarien. Darüber hinaus stellt die Abhängigkeit von Human-in-the-Loop-Feedback für realistische Aufgaben einen Skalierbarkeitsengpass dar, der die automatisierte Sammlung und Auswertung von Rollouts behindert. Um diese Lücke zu schließen, führen wir AgencyBench ein, einen umfassenden Benchmark, der aus der täglichen KI-Nutzung abgeleitet ist. Er bewertet 6 Kernfähigkeiten von Agenten in 32 realen Szenarien, bestehend aus 138 Aufgaben mit spezifischen Abfragen, Ergebnissen und Bewertungsrubriken. Diese Szenarien erfordern durchschnittlich 90 Tool-Aufrufe, 1 Million Tokens und Stunden an Ausführungszeit, um gelöst zu werden. Um eine automatisierte Evaluation zu ermöglichen, setzen wir einen Benutzersimulations-Agenten für iteratives Feedback ein und eine Docker-Sandbox für visuelle und funktionale Bewertungen auf Basis der Rubriken. Experimente zeigen, dass Closed-Source-Modelle Open-Source-Modelle deutlich übertreffen (48,4 % vs. 32,1 %). Eine weitergehende Analyse offenbart erhebliche Disparitäten zwischen den Modellen in Bezug auf Ressourceneffizienz, feedbackgesteuerte Selbstkorrektur und spezifische Tool-Nutzungspräferenzen. Abschließend untersuchen wir die Auswirkungen von Agenten-Scaffolds und beobachten, dass proprietäre Modelle in ihren nativen Ökosystemen eine überlegene Leistung zeigen (z.B. Claude-4.5-Opus via Claude-Agent-SDK), während Open-Source-Modelle distincte Leistungsspitzen aufweisen, was auf eine potenzielle Optimierung für bestimmte Ausführungsframeworks hindeutet. AgencyBench dient als kritische Testumgebung für Agenten der nächsten Generation und unterstreicht die Notwendigkeit, Modellarchitekturen gemeinsam mit Agenten-Frameworks zu optimieren. Wir sind überzeugt, dass diese Arbeit die zukünftige Richtung autonomer Agenten beleuchtet, und veröffentlichen den vollständigen Benchmark sowie das Evaluation-Toolkit unter https://github.com/GAIR-NLP/AgencyBench.
Große visuell-sprachliche Modelle (LVLMs) haben bemerkenswerte Fähigkeiten demonstriert, doch ihr Beherrschungsgrad im Verständnis und Schlussfolgern über mehrere Bilder hinweg bleibt weitgehend unerforscht. Während bestehende Benchmarks die Evaluation von Multi-Image-Modellen eingeleitet haben, fehlt es nach wie vor an einer umfassenden Analyse ihrer zentralen Schwächen und deren Ursachen. In dieser Arbeit stellen wir MIMIC (Multi-Image Model Insights and Challenges) vor, einen neuen Benchmark, der entwickelt wurde, um die Multi-Image-Fähigkeiten von LVLMs rigoros zu bewerten. Mithilfe von MIMIC führen wir eine Reihe diagnostischer Experimente durch, die weitverbreitete Probleme aufdecken: LVLMs scheitern häufig daran, Informationen über Bilder hinweg zu aggregieren, und haben Schwierigkeiten, mehrere Konzepte gleichzeitig zu verfolgen oder zu beachten. Um diese Defizite zu adressieren, schlagen wir zwei neuartige, komplementäre Abhilfemaßnahmen vor. Auf der Datenseite präsentieren wir eine prozedurale Datengenerierungsstrategie, die Einzelbild-Annotationen zu umfangreichen, zielgerichteten Multi-Image-Trainingsbeispielen zusammensetzt. Auf der Optimierungsseite analysieren wir schichtweise Aufmerksamkeitsmuster und leiten ein auf Multi-Image-Eingaben zugeschnittenes Aufmerksamkeits-Masking-Schema ab. Experimente führten zu einer wesentlichen Verbesserung der bildübergreifenden Aggregation und steigerten gleichzeitig die Leistung auf bestehenden Multi-Image-Benchmarks, wobei frühere State-of-the-Art-Ansätze über verschiedene Aufgaben hinweg übertroffen wurden. Daten und Code werden unter https://github.com/anurag-198/MIMIC verfügbar gemacht.
Jüngste Fortschritte bei agentenbasierten Large Language Models (LLMs) haben sie zu universellen Planern gemacht, die in der Lage sind, über verschiedene Aufgaben hinweg zu schlussfolgern und zu handeln. Allerdings konzentrieren sich bestehende Agenten-Benchmarks weitgehend auf symbolische oder schwach fundierte Umgebungen, wodurch ihre Leistung in physikalisch beschränkten realen Domänen unzureichend erforscht bleibt. Wir stellen AstroReason-Bench vor, einen umfassenden Benchmark zur Bewertung agentenbasierter Planung bei Weltraumplanungsproblemen (Space Planning Problems, SPP), einer Familie von hochriskanten Problemen mit heterogenen Zielen, strengen physikalischen Randbedingungen und langfristiger Entscheidungsfindung. AstroReason-Bench integriert mehrere Planungsregime, einschließlich Bodenstationskommunikation und agiler Erdbeobachtung, und bietet ein einheitliches, agentenorientiertes Interaktionsprotokoll. Bei der Evaluation einer Reihe modernster agentenbasierter LLM-Systeme aus Open- und Closed-Source-Bereich stellen wir fest, dass aktuelle Agenten erheblich schlechter abschneiden als spezialisierte Löser, was zentrale Grenzen universeller Planung unter realistischen Constraints aufzeigt. AstroReason-Bench bietet eine anspruchsvolle und diagnostische Testplattform für zukünftige agentenbasierte Forschung.
Aktuelle diffusionsbasierte Videogenerierungsmodelle können visuell plausible Videos synthetisieren, haben jedoch oft Schwierigkeiten, physikalische Randbedingungen zu erfüllen. Ein Hauptgrund dafür ist, dass die meisten bestehenden Ansätze einstufig bleiben: Sie vermengen das hochlevelige physikalische Verständnis mit der niederleveligen visuellen Synthese, was die Erzeugung von Inhalten erschwert, die explizite physikalische Schlussfolgerungen erfordern. Um diese Einschränkung zu adressieren, schlagen wir eine trainierungsfreie dreistufige Pipeline vor, PhyRPR: PhyReason–PhyPlan–PhyRefine, die das physikalische Verständnis von der visuellen Synthese entkoppelt. Konkret nutzt PhyReason ein großes multimodales Modell zur physikalischen Zustandsableitung und einen Bildgenerator zur Synthese von Keyframes; PhyPlan erzeugt deterministisch ein steuerbares grobes Bewegungsskelett; und PhyRefine injiziert dieses Skelett mittels einer Latent-Fusion-Strategie in das Diffusions-Sampling, um die Darstellung zu verfeinern und gleichzeitig die geplanten Dynamiken beizubehalten. Dieser abgestufte Entwurf ermöglicht eine explizite physikalische Steuerung während der Generierung. Umfangreiche Experimente unter physikalischen Randbedingungen zeigen, dass unsere Methode durchgängig die physikalische Plausibilität und Bewegungssteuerbarkeit verbessert.
Wir untersuchen Datenkuratierung für multimodales Reasoning im Rahmen der NeurIPS 2025 DCVLR-Herausforderung, die die Datensatzauswahl isoliert, indem Modell und Trainingsprotokoll festgelegt werden. Mit einem kompakten, kuratierten Datensatz, der primär auf Walton Multimodal Cold Start basiert, belegte unser Beitrag den ersten Platz im Wettbewerb. Durch Post-Competition-Ablationen zeigen wir, dass eine schwierigkeitsbasierte Beispielauswahl auf einem alignierten Basis-Datensatz der Haupttreiber für Leistungssteigerungen ist. Eine Vergrößerung des Datensatzes verbessert die mittlere Genauigkeit unter dem festgelegten Trainingsrezept nicht zuverlässig, reduziert jedoch hauptsächlich die Lauf-zu-Lauf-Varianz, während gängige Heuristiken für Diversität und synthetische Augmentierung keinen zusätzlichen Nutzen bieten und die Leistung oft sogar verschlechtern. Diese Ergebnisse charakterisieren DCVLR als eine Evaluierung im Sättigungsbereich und unterstreichen die zentrale Rolle von Alignment und Schwierigkeitsgrad für dateneffizientes multimodales Reasoning.
Die Diversität der Ausgabe ist für große Sprachmodelle von entscheidender Bedeutung, da sie Pluralismus und Kreativität fördert. In dieser Arbeit zeigen wir, dass die Kontrolle der während des Denkprozesses des Modells verwendeten Sprache – der Sprache des Denkens – eine neuartige und strukturelle Quelle für Ausgabediversität darstellt. Unsere Vorstudie zeigt, dass verschiedene Denksprachen unterschiedliche Regionen im Denkraum eines Modells einnehmen. Aufbauend auf dieser Beobachtung untersuchen wir zwei wiederholte Sampling-Strategien unter mehrsprachigem Denken – Einzelsprach-Sampling und Gemischtsprach-Sampling – und führen Diversitätsbewertungen an Ausgaben durch, die kontrolliert auf Englisch erfolgen, unabhängig von der verwendeten Denksprache. In umfangreichen Experimenten zeigen wir, dass das Wechseln der Denksprache von Englisch zu nicht-englischen Sprachen die Ausgabediversität konsistent steigert, mit einer klaren und konsistenten positiven Korrelation, sodass Sprachen, die im Denkraum weiter von Englisch entfernt sind, größere Steigerungen erzielen. Wir zeigen weiter, dass die Aggregation von Samples über mehrere Denksprachen hinweg durch kompositionelle Effekte zusätzliche Verbesserungen bringt, und dass die Skalierung des Samplings mit linguistischer Heterogenität die Diversitätsgrenze des Modells erweitert. Abschließend zeigen wir, dass diese Erkenntnisse praktische Vorteile in pluralistischen Abgleichsszenarien bieten, was zu einer breiteren Abdeckung von kulturellem Wissen und Wertorientierungen in LLM-Ausgaben führt. Unser Code ist öffentlich verfügbar unter https://github.com/iNLP-Lab/Multilingual-LoT-Diversity.