HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

36 papers found

Jenseits der aktuellen Beobachtung: Bewertung multimodaler großer Sprachmodelle in kontrollierbaren Nicht-Markov-Spielen
Beyond the Current Observation: Evaluating Multimodal Large Language Models in Controllable Non-Markov Games

Jun 17

ByShengyuan Ding, Xilin Wei, Xinyu Fang, Haodong Duan, Dahua Lin, Jiaqi Wang, Yuhang Zang

Der Einsatz von multimodalen Fundamentmodellen als Closed-Loop-Strategien erfordert zunehmend, dass Handlungen auf Beobachtungen konditioniert werden, die nicht mehr sichtbar sind. Bestehende Benchmarks legen jedoch entweder den vollständigen Zustand offen, vermischen die Rekonstruktion verborgener Zustände mit anderen Agentenfähigkeiten oder testen das Abrufen erst nach Beendigung einer Episode. Wir stellen RNG-Bench (Rekonstruktive Nicht-Markov-Spiele) vor, eine Benchmark-Suite, die darauf ausgelegt ist, die Fähigkeit eines Basismodells zu isolieren, vergangene Beobachtungen zu rekonstruieren und während mehrschrittiger Interaktion auf diese zu reagieren. RNG-Bench enthält zwei komplementäre Spiele: Matching Pairs, bei dem kurzzeitig an bestimmten Positionen aufgedeckte Kartenidentitäten später erinnert werden müssen, und 3D Maze, bei dem ego-zentrische Ansichten in eine räumliche Karte integriert werden müssen. Beide Spiele werden unter einer einheitlichen Testumgebung mit drei kontrollierten Schwierigkeitsachsen ausgewertet: Gittergröße, visuelles Muster und Beobachtungsmodalität. Die Benchmark führt zudem ein Eins-gegen-Eins-Duell-Protokoll ein, um die Varianz auf Instanzebene zu kontrollieren, sowie eine Memory-Gap-Metrik, die Vergessen von schlechter Aktionsauswahl trennt. Die schwierigsten Konfigurationen erfordern Kontexte von etwa 128.000 Token und 350 Bildeingaben pro Episode und sind für führende MLLMs noch weitgehend ungesättigt. Die Memory-Gap-Analyse zeigt, dass die meisten verbleibenden Fehler auf das Vergessen früherer Beobachtungen zurückzuführen sind und nicht auf eine suboptimale Entscheidungsfindung. Schließlich verbessert die Feinabstimmung von Qwen3.5-9B auf Optimal-Policy-Rollouts und gefilterte Modelldemonstrationen die Leistung auf RNG-Bench und überträgt sich auf bestehende Benchmarks, ohne die allgemeinen multimodalen Fähigkeiten zu beeinträchtigen.

MolmoMotion: Vorhersage von Punkt-Trajektorien in 3D mit Sprachanweisung
MolmoMotion: Forecasting Point Trajectories in 3D with Language Instruction

Jun 17

ByJianing Zhang, Chenhao Zheng, Yajun Yang, Max Argus, Rustin Soraki, Winson Han, Taira Anderson, Chun-Liang Li, Shuo Liu, Jiafei Duan, Zhongzheng Ren, Jieyu Zhang, Ranjay Krishna

Bewegungsvorhersage ist zentral für die visuelle Intelligenz: Agenten müssen antizipieren, wie sich Objekte bewegen, um Handlungen zu planen, physikalische Interaktionen zu durchdenken und realistische Zukünfte zu synthetisieren. Wir argumentieren, dass 3D-Punkte in Weltkoordinaten eine allgemeine Repräsentation bieten, die klassenagnostisch, blickstabil, kompakt und direkt für nachgelagerte Aufgaben nützlich ist. Wir formalisieren die Aufgabe der zielbedingten 3D-Punkt-Bewegungsvorhersage: Gegeben eine kurze visuelle Vorgeschichte, eine Menge von 3D-Abfragepunkten auf einem interessierenden Objekt und eine Sprachbeschreibung des beabsichtigten Ziels, sagt das Modell die zukünftige 3D-Trajektorie jedes Punktes voraus. Wir stellen einen vollständigen Stack zur Untersuchung dieser Aufgabe in großem Maßstab vor: (1) MolmoMotion-1M ist ein großes Korpus von handlungsbeschriebenen, objektverankerten 3D-Punkt-Trajektorien, die aus 1,16 Millionen uneingeschränkten Videos annotiert wurden; (2) PointMotionBench ist ein menschlich verifizierter Benchmark, der 111 Objektkategorien und 61 Bewegungstypen umfasst; und (3) MolmoMotion ist ein allgemeines Bewegungsvorhersagemodell, das sowohl autoregressive Koordinatenvorhersage als auch auf Flussabgleich basierende Trajektoriengenerierung unterstützt. MolmoMotion sagt präzise diverse Bewegungsmuster mit unterschiedlichen Sprachinstruktionen voraus und übertrifft bestehende Bewegungsvorhersage-Baselines auf PointMotionBench deutlich. Schließlich zeigen wir, dass der gelernte 3D-Bewegungs-Prior gut auf nachgelagerte Anwendungen übertragbar ist: Er verbessert die Trainingseffizienz und Generalisierung für die Robotersteuerung, und seine vorhergesagten Trajektorien liefern eine effektive Bewegungshilfe für generative Modelle, um Videos mit realistischeren Objektbewegungen zu synthetisieren.

Kairos: Ein nativer Weltmodell-Stack für Physikalische KI
Kairos: A Native World Model Stack for Physical AI

Jun 16

ByKairos Team, Fei Wang, Shan You, Qiming Zhang, Tao Huang, Zuoyi Fu, Zhisheng Zheng, Yunlong Xi, Feng Lv, Xiaoming Wu, Zeyu Liu, Cong Wan, Pu Li, Ruiqing Yang, Xiaoou Li, Wei Wang, Kangkang Zhu, Yuwei Zhang, Shi Fu, Zheng Zhang, Xiaoning Wu, Xuzeng Fan, Dacheng Tao, Xiaogang Wang

Weltmodelle wandeln sich von passiven visuellen Generatoren zu grundlegender, betrieblicher Infrastruktur für Physische KI: Sie müssen nativ Weltwissen aus heterogenen Erfahrungen erwerben, persistente Zustände über lange Horizonte hinweg aufrechterhalten und effizient innerhalb realer Einsatzbeschränkungen ausgeführt werden. Wir stellen Kairos vor, einen nativen Weltmodell-Stack, der um diese Anforderungen herum entwickelt wurde. (1) Kairos lernt die Welt, indem es ein natives Vorab-Trainingsparadigma einführt, das durch ein Cross-Embodiment-Datencurriculum gesteuert wird, welches Open-World-Videos, menschliche Verhaltensdaten und Roboterinteraktionen in einen fortschreitenden Entwicklungspfad organisiert. (2) Kairos erhält die Welt durch einheitliches Weltverständnis, -generierung und -vorhersage innerhalb einer nativen einheitlichen Architektur, die mit Hybrider Linearer Temporaler Aufmerksamkeit ausgestattet ist, wobei eine Aufmerksamkeit mit gleitendem Fenster lokale Dynamiken erfasst, dilatierte gleitende Fenster mittlere Abhängigkeiten erfassen und gegatete lineare Aufmerksamkeit einen persistenten globalen Speicher aufrechterhält. Wir stellen formale theoretische Grenzen auf, die zeigen, dass diese zeitliche Faktorisierung die Fehlerakkumulation strikt begrenzt und mathematisch die Zustandsfortpflanzung über erweiterte Horizonte hinweg garantiert. (3) Kairos führt die Welt aus, indem es ein einsatzbewusstes System-Co-Design integriert, um eine latenzarme Rollout-Generierung auf Server- und Verbraucherhardware für reale Beobachtungs-Aktions-Rückkopplungsschleifen zu unterstützen. Experimente mit verkörperten Weltmodell-, Langfrist- und Aktionsstrategie-Benchmarks zeigen, dass Kairos Spitzenleistungen erreicht und gleichzeitig einen starken Kompromiss zwischen Effizienz und Leistungsfähigkeit bietet. Zusammen positionieren diese Ergebnisse Kairos als kohärente operative Grundlage für zukünftige, sich selbst entwickelnde physische Intelligenz.

Guava: Ein effektives und universelles Werkzeug für die Embodied Manipulation
Guava: An Effective and Universal Harness for Embodied Manipulation

Jun 16

ByHaowen Liu, Xirui Li, Shaoxiong Yao, Peng Shi, Tianyi Zhou, Jia-Bin Huang, Furong Huang, Jiayuan Mao

Sprachmodelle, die auf großen visuell-linguistischen Datensätzen trainiert wurden, haben ein starkes Potenzial für verkörperte Agenten (Embodied Agents) gezeigt. Die Nutzung solcher Modelle durch den Einsatz verkörperter Werkzeuge bietet eine vielversprechende Alternative zu End-to-End-Vision-Language-Action-Systemen, indem sie hochrangige Schlussfolgerung (Reasoning) mit externen Modulen für Wahrnehmung, Planung und Steuerung kombiniert. Es bleibt jedoch unklar, was eine effektive Kopplung (Harness) für verkörperte Manipulation ausmacht und inwieweit eine solche Kopplung verkörperte Fähigkeiten in einer Vielzahl von Reasoning-Modellen freisetzen kann. In dieser Arbeit stellen wir Guava vor, ein Rahmenwerk (Harness Framework) für den Einsatz verkörperter Werkzeuge, das durch systematische Erkundung des Gestaltungsraums von Agenten-Workflows, Aktionsräumen und Beobachtungsräumen entwickelt wurde. Unsere Studie identifiziert drei wesentliche Bestandteile für effektive verkörperte Agenten: iterative Wahrnehmungs-Schlussfolgerungs-Handlungs-Schleifen, semantische Aktionsabstraktionen und multimodale Beobachtungen. Um zu verstehen, ob diese Gestaltungsprinzipien selbst für kleine Modelle universell gültig sind, entwickeln wir eine End-to-End-Trainingspipeline, die verkörperte Manipulationsfähigkeiten in ein quelloffenes 4B-Modell destilliert, wobei weniger als 2000 vollständig in der Simulation erfasste Trajektorien verwendet werden. Experimentelle Ergebnisse sowohl in Simulations- als auch in realen Umgebungen zeigen eine mit führenden proprietären Modellen vergleichbare Leistung und weisen eine starke Generalisierung auf unbekannte Objekte, neuartige Anweisungen und langfristige Aufgaben auf. Die Ergebnisse deuten darauf hin, dass ein gut gestaltetes Rahmenwerk als skalierbare, modellunabhängige Schnittstelle für verkörperte Manipulation dienen kann, die bei kompakten quelloffenen Modellen mit minimalen Trainingsdaten starke emergente verkörperte Fähigkeiten ermöglicht.

Die Belohnung steckte die ganze Zeit in Ihren Daten: Korrektur von Flow Matching mit diskriminatorgesteuertem RL
The Reward Was in Your Data All Along: Correcting Flow Matching with Discriminator-Guided RL

Jun 17

ByNicolas Beltran-Velez, Felix Friedrich, Zhang Xiaofeng, Reyhane Askari-Hemmat, Xiaochuang Han, Adriana Romero-Soriano, Michal Drozdzal

Score- und Flow-Matching-Modelle verlassen sich häufig aus zwei Gründen auf präferenzbasiertes Reinforcement Learning: um sich an subjektiven Präferenzen auszurichten und, überraschenderweise, um Eigenschaften wie visuelle Realitätstreue und kohärente Objektstrukturen wiederherzustellen, die das matching-basierte Training eigentlich aus den Daten selbst lernen soll. Wir argumentieren, dass dies eine strukturelle Diskrepanz widerspiegelt. Matching-Verluste messen den l2-Regressionsfehler im Geschwindigkeits- oder Score-Feld unter den Randverteilungen zum Trainingszeitpunkt – ein Proxy, der schlecht mit den visuellen und semantischen Eigenschaften übereinstimmt, die die Stichprobenqualität zur Inferenzzeit bestimmen. Mit einer auf diese Eigenschaften abgestimmten Belohnung umgeht RL die Diskrepanz, indem es das Modell anhand seiner eigenen Stichproben bewertet und der Belohnungslandschaft direkt folgt. Die Herausforderung besteht darin, eine solche Belohnung zu erhalten, ohne sich auf menschliche Präferenzen zu stützen, die teuer sind und Datenrealitätstreue mit den Neigungen der Annotatoren vermischen. Wir schlagen Discriminator-Guided RL (DRL) vor. DRL trainiert einen Diskriminator, um Daten von Stichproben des Basis-Modells in einem vortrainierten Repräsentationsraum zu trennen, und verwendet dessen Logit als Belohnung im KL-regulierten RL. Der vortrainierte Raum schränkt den Diskriminator auf wahrnehmungsbezogen sinnvolle Richtungen ein, und der Logit schätzt das Log-Likelihood-Verhältnis zwischen Daten und Modell, was die optimale Belohnung zur Zielausrichtung auf die Datenverteilung darstellt. In SiT, JiT, REPA und RAE reduziert DRL den führungsfreien FID (z. B. von 9,38 auf 2,62 bei SiT) und die semantische FD (z. B. von 88,2 auf 19,3 bei DINOv3 für SiT) mit konsistenten Verbesserungen über alle Backbones hinweg und verbessert die Belohnungen für menschliche Präferenzen, ohne dass auf diesen trainiert wird. Darüber hinaus ergibt sich eine bessere Pareto-Frontier zwischen Präferenzbelohnung und Bildtreue unter anschließendem präferenzbasiertem Post-Training, was die Ausrichtung verbessert und gleichzeitig niederfrequente Artefakte wie Übersättigung und übermäßige Helligkeit reduziert.

EfficientRollout: Systembewusste selbst-spekulative Dekodierung für RL-Rollouts
EfficientRollout: System-Aware Self-Speculative Decoding for RL Rollouts

Jun 17

ByMinseo Kim, Minjae Lee, Seunghyuk Oh, Kevin Galim, Donghoon Kim, Coleman Hooper, Harman Singh, Amir Gholami, Hyung Il Koo, Wonjun Kang

Verstärkungslernen (RL) hat sich zu einem repräsentativen Nachtrainingsparadigma für große Sprachmodelle (LLMs) entwickelt, das leistungsstarke Fähigkeiten im Bereich des logischen Denkens und der agentenhaften Interaktion ermöglicht. Allerdings bleibt die Rollout-Generierung ein dominanter Latenzengpass, da autoregressives Abtasten Antworten sequenziell dekodiert und eine kleine Anzahl langer Ausgaben oft die Gesamtbearbeitungszeit bestimmt. Spekulative Dekodierung (SD) bietet einen naheliegenden Ansatz zur Überwindung dieses Engpasses, da es sich um eine etablierte Technik für den Betrieb festgelegter LLMs handelt, die Latenzzeiten reduziert, indem Token schnell entworfen und durch parallele Verifikation akzeptiert werden, während die Verteilung des Zielmodells erhalten bleibt. Ihre praktischen Beschleunigungen lassen sich jedoch nicht direkt auf RL-Rollouts übertragen: (i) Die sich entwickelnde Zielpolitik führt dazu, dass ein festgelegter Entwerfer zunehmend von der Ausgabeverteilung der Politik abweicht; (ii) Die aktiven Batch-Größen schrumpfen während der Rollout-Dekodierung, wodurch die Dekodierung von rechenintensiven zu speicherbegrenzten Regimen wechselt, in denen parallele Verifikation ungenutzte Rechenleistung nutzen kann. Daher erfordert die Beschleunigung von RL-Rollouts sowohl einen Entwerfer, der unter langen, hochtemperaturigen Generierungen aus einer sich entwickelnden Politik effektiv bleibt, als auch eine systembewusste Nutzung von SD, die rechenintensive Regime vermeidet. Wir präsentieren EfficientRollout, ein systembewusstes Selbst-SD-Framework, das speziell auf diese Lücke bei RL-Rollouts abzielt. EfficientRollout generiert einen quantisierten Entwerfer aus dem Zielmodell (d. h. selbstspekulative Dekodierung), der an die sich entwickelnde Politik gekoppelt bleibt, ohne separates Vortraining des Entwerfers oder Online-Adaption. Es koordiniert ferner eine systembewusste SD-Umschaltstrategie mit akzeptanzbewusster Anpassung der Entwurfslänge, sodass Spekulation nur in vorteilhaften Regimen erfolgt, während das Entwurfsbudget an die sich entwickelnde Qualität des Entwerfers angepasst wird. EfficientRollout reduziert die Rollout- und End-to-End-Latenz um bis zu 19,6 % bzw. 12,7 % gegenüber einer beschleunigten AR-Rollout-Baseline, während die endgültige Modellqualität erhalten bleibt.

SAE-Interventionen sind unzuverlässig: Wiederherstellung unterdrückten Verhaltens nach der Intervention
SAE Interventions are Unreliable: Post-Intervention Recovery of Suppressed Behavior

Jun 16

ByMingyue Cui, Linghui Shen, Xingyi Yang

Sparse Autoencoder (SAEs) zerlegen Residualstrom-Aktivierungen in interpretierbare Merkmale. Neuere Latenzraum-Verteidigungen stützen sich zunehmend auf diese Zerlegungen unter der Annahme, dass identifizierte „unsichere“ SAE-Merkmale als handhabbare Ansatzpunkte für Überwachung und Intervention dienen. In diesem Paradigma wird erwartet, dass das Klemmen eines bestimmten schädlichen Merkmals zuverlässig Fehlverhalten des Modells verhindert. Wir zeigen jedoch, dass dieser Erfolg einen wiederherstellbaren Fehlermodus verbergen kann: Die Klemme blockiert möglicherweise einen sichtbaren Weg zu einem Verhalten, ohne das Verhalten selbst zu beseitigen. Wir formulieren diese Schwachstelle als Wiederherstellung nach Intervention (post-intervention recovery), ein eingeschränktes Optimierungsproblem im Residualraum. Ausgehend vom Residualzustand nach der Intervention optimieren wir Residualstörungen, um das Verhalten vor der Intervention wiederherzustellen, während die Werte der anvisierten SAE-Merkmale nach der Intervention erhalten bleiben. Selbst unter einem starken Bedrohungsmodell, bei dem die Intervention während Optimierung und Generierung aktiv bleibt, bleibt eine Wiederherstellung möglich. Um auszuschließen, dass die Wiederherstellung die Intervention einfach rückgängig macht, verwenden wir encoder-orthogonale Aktualisierungen für Ein-Schicht-Interventionen und die entsprechende Feature-Map-Jacobi-Matrix im schichtübergreifenden Fall. In Experimenten zu TPP, Unlearning, IOI und Refusal Steering zeigt dieser Belastungstest wiederherstellbares Verhalten trotz erfolgreicher Merkmalsintervention. Besonders im sicherheitskritischen Refusal-Steering-Setting erreichen wir eine Wiederherstellungsrate von 95,8 % für gültige Stichproben, während die relative Drift der verteidigten Merkmale bei 0,131 liegt, deutlich unter suffixbasierten Basislinien. Eine Attributionsanalyse des Wiederherstellungspfads lokalisiert diese Wiederherstellung weiter auf das SAE-Rekonstruktionsresiduum, die durch den SAE unerklärte Komponente. Diese Ergebnisse legen eine Lücke zwischen Merkmalskontrolle und verhaltensbezogener Vollständigkeit offen: SAE-Merkmale können kausale Interventionen unterstützen, aber ihre Kontrolle garantiert nicht die Kontrolle über das zugrundeliegende Verhalten.

Vom Trainee zum Trainer: LLM-entworfene Trainingsumgebung für RL mit Multi-Agenten-Reasoning
From Trainee to Trainer: LLM-Designed Training Environment for RL with Multi-Agent Reasoning

Jun 16

ByChao Chen, Chengzu Li, Zhiwei Li, Yinhong Liu, Zhijiang Guo

Reinforcement-Learning-Pipelines für das Training von Large Language Models (LLMs) basieren oft auf manuell umgestalteten Umgebungen zwischen den Phasen, was Praktiker dazu zwingt, heuristisch abzuleiten, welche Konfiguration die aktuelle Policy am besten verbessert. Um diesen Prozess zu automatisieren, schlagen wir das LLM-as-Environment-Engineer-Framework vor, bei dem das aktuelle Policy-Modell Fehlerverläufe zusammen mit kontextuellen Informationen analysiert und Änderungen an der Konfiguration der Trainingsumgebung der nächsten Phase vorschlägt. Wir stellen außerdem MAPF-FrozenLake vor, eine kontrollierbare Testumgebung, deren Generator mehrdimensionale Umgebungskonfigurationen bereitstellt, was sie für die Untersuchung und das Benchmarking von Umgebungsneugestaltungen geeignet macht. In dieser Testumgebung konditionieren wir den Environment Engineer auf strukturierte Zusammenfassungen des Policy-Verhaltens, von Fehlerfällen und Umgebungsstatistiken, aus denen er die Konfiguration für die nächste Trainingsphase erzeugt. Mit Qwen3-4B als Rückgrat erzielt unser Framework die stärkste Gesamtleistung in unseren Benchmarks, wobei es größere proprietäre LLMs (z. B. GPT, Gemini) und Trainingsbaselines mit festen Umgebungen übertrifft. Wir analysieren weiter, welche Formen von Kontext am effektivsten sind, und stellen fest, dass erfolgreiche Umgebungsaktualisierungen auf Fehlernachweisen beruhen und Konfigurationen beibehalten, die bereits funktionieren. Interessanterweise dient der aktuelle RL-Checkpoint als besserer Environment Engineer als das ursprüngliche Basismodell, was darauf hindeutet, dass das Policy-Lernen die Fähigkeit des Modells verbessert, seine verbleibenden Schwächen zu diagnostizieren.

Verstärkung des Dual-Path-Reasonings in räumlichen visuellen Sprachmodellen
Reinforcing Dual-Path Reasoning in Spatial Vision Language Models

Jun 16

ByYatai Ji, An-Chieh Cheng, Yang Fu, Yukang Chen, Han Zhang, Zhaojing Yang, Wei Huang, Ka Chun Cheung, Song Han, Vidya Nariyambut Murali, Pavlo Molchanov, Jan Kautz, Simon See, Hongxu Yin, Ping Luo, Sifei Liu

Räumliche visuelle Sprachmodelle (VLMs) haben bedeutende Fortschritte in der geometrischen Wahrnehmung erzielt, dennoch bleibt komplexes räumliches Denken, das mehrschrittige Inferenzen über Tiefe, Entfernung und Szenenbeziehungen erfordert, herausfordernd. Darüber hinaus erfordern unterschiedliche räumliche Abfragen grundlegend verschiedene Strategien: Einige lassen sich am besten durch rein linguistische, schrittweise Deduktion bewältigen, während andere eine explizite 3D-Verankerung vor der quantitativen Inferenz benötigen. Wir stellen SR-REAL (Dual-Path Spatial Reasoning via Reinforcement Learning for Spatial VLMs) vor, ein einheitliches Framework, das ein räumliches VLM mit zwei komplementären Denkpfaden ausstattet: dem rein sprachbasierten Denken (LOR – Language-Only Reasoning), das eine schrittweise linguistische Deduktion durchführt, und dem „Erkennen-dann-Denken“ (DTR – Detect-Then-Reason), das über Regionstoken 3D-geometrische Hinweise (z. B. Zentren oder Begrenzungsrahmen) erfasst, bevor explizite geometrische Inferenz erfolgt. SR-REAL beginnt mit einer Kaltstart-Phase des überwachten Feintunings, die LOR- und DTR-Gedankenketten-Supervision konstruiert und eine Region-zu-3D-Schnittstelle bereitstellt. Darauf folgt Reinforcement Learning (RL), das das Policy-Modell mit Genauigkeits- und Formatbelohnungen optimiert; für DTR verfeinert eine diskrete zentrumsbasierte Erkennungsbelohnung zusätzlich die geometrische Ausrichtung. Über verschiedene räumliche Benchmarks hinweg übertrifft SR-REAL räumliche VLM-Baselines deutlich: (i) Ein einzelnes RL-trainiertes Modell unterstützt beide Denkpfade, wobei DTR bei regionsbewussten Aufgaben durch präzise 3D-Lokalisierung hervorsticht und LOR das allgemeine räumliche Denken verbessert; (ii) das gemeinsame Training beider Pfade fördert gegenseitige Verstärkung; (iii) hochwertige, gemischte Kaltstartdaten sind entscheidend für eine stabile RL-Optimierung; und (iv) das Modell generalisiert über Datensätze und Domänen hinweg ohne aufgabenspezifisches Feintuning und zeigt positiven Transfer zwischen LOR und DTR.

Dem richtigen Lehrer vertrauen: Qualitätsbewusste Selbstdestillation für GUI Grounding
Trust the Right Teacher: Quality-Aware Self-Distillation for GUI Grounding

Jun 16

ByJingyuan Huang, Zuming Huang, Yucheng Shi, Tianze Yang, Xiaoming Zhai, Wei Chu, Ninghao Liu

Die grafische Benutzeroberflächenverankerung (GUI Grounding) erfordert, dass Vision-Language-Modelle (VLMs) kleine Zielelemente in hochauflösenden Screenshots identifizieren und präzise Bildschirmkoordinaten vorhersagen. Die On-Policy-Selbstdestillation (OPSD) ist ein vielversprechender Post-Training-Ansatz für diese koordinatensensitive Aufgabe, da sie dichte Lehrersignale auf Token-Ebene über harte Koordinatenlabels hinaus bereitstellt. Allerdings ist die naive OPSD nicht optimal für GUI Grounding geeignet: Die OPSD evaluiert den Lehrer auf von Schülern generierten Präfixen, wobei die Qualität der Koordinaten-Token-Lehrersignale nachlassen kann, wenn das Präfix bereits von der Zielkoordinate abweicht, was zu unzuverlässigen Lehrersignalen führt. Um dies zu mildern, schlagen wir eine qualitätsbewusste Selbstdestillation für VLM-basiertes GUI Grounding vor, die die Qualität der Koordinaten-Token-Lehrersignale durch weiches korrektheitsbewusstes Gating und Skalierung der Lehrerwahrscheinlichkeit verbessert. Das weiche korrektheitsbewusste Tor prüft, ob die aktuelle Koordinaten-Token-Vorhersage des Lehrers unter dem vom Schüler generierten Präfix noch zur Ground-Truth-Box vervollständigt werden kann. Ist dies nicht der Fall, wird das entsprechende Lehrersignal heruntergewichtet. Die Skalierung der Lehrerwahrscheinlichkeit nutzt dann das Vertrauen des Lehrers als leichtgewichtigen Faktor, um die Stärke der getorten Überwachung weiter zu kalibrieren. Ein zentraler empirischer Befund ist, dass keine Komponente allein die Gesamtleistung verbessert, während ihre Kombination konsistent die Leistung steigert. Dies deutet darauf hin, dass die beiden Mechanismen komplementäre Rollen spielen: Das korrektheitsbewusste Gating unterdrückt unzuverlässige Koordinaten-Token-Überwachung, während die Skalierung der Lehrerwahrscheinlichkeit die Stärke der verbleibenden Signale kalibriert. Experimente über sechs GUI-Grounding-Benchmarks zeigen, dass unsere Methode das Basismodell konsistent verbessert und starke Baselines übertrifft.

Native aktive Wahrnehmung als Reasoning für omni-modales Verstehen
Native Active Perception as Reasoning for Omni-Modal Understanding

Jun 17

ByZhenghao Xing, Ruiyang Xu, Yuxuan Wang, Jinzheng He, Ziyang Ma, Qize Yang, Yunfei Chu, Jin Xu, Junyang Lin, Chi-Wing Fu, Pheng-Ann Heng

Passive Modelle für das Verständnis langer Videos stützen sich typischerweise auf ein "schau-alles"-Paradigma, bei dem Frames unabhängig von der Schwierigkeit der Abfrage einheitlich verarbeitet werden, was dazu führt, dass der Rechenaufwand mit der Videodauer wächst. Obwohl interaktive Frameworks entstanden sind, stützen sie sich oft auf ein globales Vortasten, und ihr Kontextaufwand skaliert weiterhin mit der Videolänge. Wir stellen OmniAgent vor, den ersten nativen omnimodalen Agenten, der das Verständnis von Videos als einen auf POMDP basierenden iterativen Beobachtungs-Denk-Handlungs-Zyklus formuliert. OmniAgent führt bedarfsgesteuerte Aktionen aus, um audiovisuelle Hinweise selektiv in einen persistenten textuellen Speicher zu destillieren, wodurch die Komplexität des Denkens effektiv von der Rohvideodauer entkoppelt wird. Zur praktischen Umsetzung führen wir (1) Agentic Supervised Fine-Tuning ein, um die native aktive Wahrnehmung durch Best-of-N-Trajektoriensynthese mit zweistufiger Qualitätskontrolle zu bootstrappen, und (2) Agentic Reinforcement Learning mit TAURA (Turn-aware Adaptive Uncertainty Rescaled Advantage), das die Entropie auf Zug-Ebene nutzt, um die Kreditzuweisung auf entscheidende Entdeckungszüge zu lenken. Entscheidend ist, dass OmniAgent ein positives Testzeitskalierungsverhalten zeigt, bei dem die Leistung mit zunehmender Anzahl von Denkschritten verbessert wird, was die Wirksamkeit der aktiven Wahrnehmung bestätigt. Empirische Ergebnisse über zehn Benchmarks (z. B. VideoMME, LVBench) zeigen, dass OmniAgent eine Spitzenleistung unter den Open-Source-Modellen erzielt. Insbesondere übertrifft unser 7B-Agent auf LVBench den 10-mal größeren Qwen2.5-VL-72B (50,5 % gegenüber 47,3 %).

STARE: Überraschungsgesteuerte Token-Level-Vorteilsneugewichtung für die Stabilität der Policy-Entropie
STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

Jun 17

ByHaipeng Luo, Qingfeng Sun, Songli Wu, Can Xu, Wenfeng Deng, Han Hu, Yansong Tang

Verstärkungslernen mit überprüfbaren Belohnungen (Reinforcement Learning with Verifiable Rewards), wie etwa GRPO-Algorithmen, hat sich als dominantes Post-Training-Paradigma für komplexes Reasoning in großen Sprachmodellen (LLMs) etabliert, leidet jedoch häufig unter einem Zusammenbruch der Policy-Entropie während des Trainings. Wir führen eine Gradientenanalyse erster Ordnung der Token-Ebene-Entropiedynamik unter GRPO durch und identifizieren eine Diskrepanz bei der Kreditzuweisung auf Token-Ebene: Die Entropievariation pro Token zerfällt in das Produkt aus dem Trajektorien-Vorteil (trajectory-level advantage) und einer Entropie-Empfindlichkeitsfunktion über die Verteilung des nächsten Tokens, was eine Vier-Quadranten-Struktur von Vorteil und Überraschung (advantage-surprisal) sowie eine Eigenschaft naher Kritikalität ergibt. Motiviert durch diese Erkenntnis schlagen wir STARE (Surprisal-guided Token-level Advantage Reweighting for policy Entropy stability) vor, das mittels batchinterner Überraschungsquantile entropiekritische Token-Teilmengen identifiziert, deren effektive Vorteile selektiv neu gewichtet und einen geschlossenen Regelkreis für Zielentropie zur stabilen Entropieregulation integriert. Über Modellgrößen von 1,5B bis 32B und drei Aufgabenfamilien (kurze CoT, lange CoT und mehrfache Tool-Nutzung) hinweg hält STARE ein stabiles RL-Training über tausende von Schritten aufrecht, während die Policy-Entropie innerhalb des Zielbereichs bleibt. Auf AIME24 und AIME25 übertrifft STARE DAPO und andere kompetitive Baselines um 4%–8% in der durchschnittlichen Genauigkeit, wobei Reflexionstokens und Antwortlänge parallel wachsen, was ein anhaltendes Gleichgewicht zwischen Erkundung und Ausbeutung anzeigt und das Potenzial des RL-Trainings weiter freisetzt. Der Code ist verfügbar unter https://github.com/hp-luo/STARE.

Sumi: Offenes Uniform-Diffusions-Sprachmodell von Grund auf
Sumi: Open Uniform Diffusion Language Model from Scratch

Jun 17

ByMengyu Ye, Keito Kudo, Wataru Ikeda, Ryosuke Matsuda, Keisuke Sakaguchi, Jun Suzuki

Diffusionsmodelle haben sich zu einer vielversprechenden Alternative zu autoregressiven Modellen entwickelt. Unter diesen erlauben uniforme Diffusions-Sprachmodelle (UDLMs), dass jedes Token zu jedem Schritt aktualisiert werden kann, was prinzipiell eine flexiblere Generierung ermöglicht. Allerdings wurde bisher kein UDLM sowohl mit großem Parameterumfang als auch mit großem Token-Budget von Grund auf vortrainiert. Sowohl autoregressive Modellierung als auch maskierte Diffusionsmodellierung verfügen bereits über leistungsfähige Modelle in großem Maßstab, die die Gemeinschaft untersuchen und darauf aufbauen kann; uniforme Diffusion hat keine. Ein von Grund auf vortrainiertes UDLM in großem Maßstab würde einen sauberen Referenzpunkt bieten, um Skalierungsverhalten, Generierungsdynamik, Steuerbarkeit und Abwägungen gegenüber etablierten autoregressiven und maskierten Diffusionsmodellen zu untersuchen. Zu diesem Zweck stellen wir Sumi (japanisch für „Tinte“) vor, ein vollständig offenes 7B uniformes Diffusions-Sprachmodell, das von Grund auf mit 1,5 Billionen Token vortrainiert wurde. Sumi schneidet im Vergleich zu autoregressiven Modellen, die mit vergleichbaren Token-Budgets trainiert wurden, bei Benchmarks zu Wissen, Reasoning und Codierung wettbewerbsfähig ab, während es bei Common-Sense-Benchmarks schwächer abschneidet, wo unsere bildungslastige Datenmischung wahrscheinlich dazu beiträgt. Wir veröffentlichen unsere Modellgewichte, Checkpoints und das vollständige Trainingsrezept, einschließlich einer vollständigen Spezifikation der Datenmischung über öffentlich verfügbare Korpora. Wir hoffen, dass diese Veröffentlichung es der Gemeinschaft ermöglicht, native uniforme Diffusion in großem Maßstab zu untersuchen und die Arbeit an ihren bisher kaum verstandenen Aspekten voranzutreiben.

MaineCoon: Anstreben eines Echtzeit-Audio-Visuellen Sozialen Weltmodells
MaineCoon: Pursuing A Real-Time Audio-Visual Social World Model

Jun 16

ByLichen Bai, Tianhao Zhang, Shitong Shao, Dingwei Tan, Qiyu Zhong, Zhengpeng Xie, Haopeng Li, Qinghao Huang, Dandan Shen, Tengjiao Ji, Wei Wang, Peicheng Wu, Yuxuan Zhao, Xiangyu Zhu, Welly Luo, Shurui Yang, Zeke Xie

Da ein zunehmender Anteil globaler Videoinhalte auf sozialen Plattformen zu interaktiven sozialen Zwecken konsumiert wird, sind Modelle zur Videogenerierung, die für soziale Welten entwickelt wurden, wichtig, werden jedoch in früheren Studien weitgehend übersehen. In dieser Arbeit definieren wir die Position von Modellen für soziale Welten und entwickeln ein Prototypmodell als ersten Schritt in diese Richtung. Während frühere Weltmodelle erfolgreich physikalische Umgebungen oder die Erkundung von Spielwelten simulieren, bleiben sie grundlegend von menschenzentrierten sozialen Dynamiken entkoppelt. Um diese Lücke als ersten Schritt zu Modellen für soziale Welten zu schließen, präsentieren wir MaineCoon, das erste Echtzeit-Audio-Video-autoregressive Modell mit 22B Parametern, das in der Lage ist, in Echtzeit streamingfähige Inhalte zu generieren und in Subsekunden-Interaktionen zu agieren, mit einer rekordverdächtigen Bildrate von bis zu 47,5 FPS auf einer einzelnen GPU. Nach unserem besten Wissen ist MaineCoon auch das erste Echtzeit-Audio-Video-Generierungsmodell, das speziell für sozial-interaktive Anwendungen optimiert wurde. Um effizientes und stabiles Training zu ermöglichen, führen wir mehrere neuartige Techniken in MaineCoon ein, darunter Selbst-Resampling, kreuzmodale Repräsentationsausrichtung, domänenbewusste Präferenzoptimierung und verstärkte Online-Policy-Destillation (ROPD). Wir entwickeln außerdem das erste agentische Streaming-Inferenz-Framework, das Generierungen im Tausend-Sekunden-Maßstab oder sogar länger unterstützt und gleichzeitig Drift durch agentische Cache-Verwaltung und Prompt-Planung reduziert. Diese Innovationen beschleunigen das Training erheblich, während die Echtzeit-Inferenz-Leistung optimiert wird. Wir glauben, dass diese Arbeit nicht nur einen neuen State-of-the-Art (SOTA)-Leistungsbenchmark für qualitativ hochwertige, latenzarme und langanhaltende Audio-Video-autoregressive Modelle setzt, sondern auch auf den Paradigmenwechsel hinweist, der für die nächste Generation KI-nativer sozialer Plattformen erforderlich ist.

Jenseits von Alignment: Wertevielfalt als kollektive Eigenschaft in multikulturellen Agentensystemen
Beyond Alignment: Value Diversity as a Collective Property in Multicultural Agent Systems

Jun 4

ByShaoyang Xu, Jingshen Zhang, Long P. Hoang, Jinyuan Li, Wenxuan Zhang

Multikulturelle Multiagentensysteme werden zunehmend in global diversen Umgebungen eingesetzt, in denen verschiedene Agenten unterschiedlichen kulturellen Hintergründen entstammen. Die bisherige kulturelle Evaluierung konzentriert sich auf Wertausrichtung: wie genau ein einzelner Agent mit einer Zielkultur übereinstimmt. Doch Ausrichtung ist eine eigenschaftsbezogene Größe pro Agent und kann nicht aufdecken, ob ein System als Ganzes die kulturelle Pluralität bewahrt, die es repräsentieren soll. Wir schlagen Wertvielfalt als eine systemweite Evaluierungsachse für multikulturelle Agentensysteme vor, definiert durch die Unähnlichkeit zwischen den Antworten kulturell konditionierter Agenten auf eine gemeinsame Werteerhebung. Anhand der World Values Survey evaluieren wir 19 Kulturen und 18 Grundmodelle über eine breite Palette von Systemkonfigurationen hinweg. Wir stellen fest, dass Vielfalt weitgehend unkorreliert mit Ausrichtung ist, was darauf hindeutet, dass beide Größen komplementäre Systemeigenschaften erfassen, und dass aktuelle multikulturelle Agentensysteme in der Wertvielfalt erheblich unter menschlichen Gesellschaften liegen. Systeme mit gemischten Grundmodellen verringern diese Lücke, schließen sie jedoch nicht, und die Lücke bleibt über Kulturzusammensetzungen und Agentenskalen hinweg bestehen. Soziale Interaktion verringert die Vielfalt zusätzlich, indem sie Agenten zu einem Konsens treibt, und eine Fallstudie zum Bürgerhaushalt zeigt, dass diese Homogenisierung die Breite kollektiver Entscheidungsfindung einschränkt. Zusammen etablieren unsere Ergebnisse Wertvielfalt als eine eigenständige Evaluierungsachse für multikulturelle Multiagentensysteme und offenbaren eine anhaltende Homogenisierungstendenz in aktuellen auf LLM basierenden Gesellschaften. Unser Code und unsere Daten sind öffentlich verfügbar unter https://github.com/iNLP-Lab/MultiAgent-Diversity.

CEO-Bench: Können Agenten das lange Spiel spielen?
CEO-Bench: Can Agents Play the Long Game?

Jun 16

ByHaozhe Chen, Karthik Narasimhan, Zhuang Liu

Sprachmodell-Agenten werden zunehmend zu versierten Ausführenden bei isolierten, kurzfristigen Aufgaben wie Softwareentwicklung und Kundenservice. Dennoch erfordern reale Herausforderungen eine Kombination anspruchsvoller Fähigkeiten, die bei Agenten weitgehend ungetestet bleiben: (1) Navigation über lange Zeithorizonte unter Unsicherheit; (2) Informationsbeschaffung in verrauschten Umgebungen; (3) Anpassung an eine sich verändernde Welt; (4) Koordination mehrerer beweglicher Teile auf ein kohärentes Ziel hin. Wir stellen CEO-Bench vor, das diese Fähigkeiten gemeinsam bewertet, indem es eine repräsentative reale Aufgabe simuliert: das Betreiben eines Startups über 500 Tage. Ein Agent verwaltet Preisgestaltung, Marketing, Budgetierung und viele andere Aspekte eines fiktiven Unternehmens über eine programmierbare Python-Schnittstelle und agiert dabei in derselben Umgebung und steht vor denselben Herausforderungen wie ein menschlicher CEO. Erfolg erfordert die Analyse verrauschter, miteinander verbundener Geschäftsdatenbanken, die Übersetzung von Signalen in eine fundierte Strategie und die Koordination vieler Entscheidungen mit Programmierung. Die stärksten Agenten schreiben anspruchsvolle Code, der Kundenkohorten simuliert, um zukünftige Geldmittel vorherzusagen, und Verhandlungsverläufe auswertet, um versteckte Kundenpräferenzen aufzudecken. Trotzdem tun sich die meisten modernsten Modelle in dieser Umgebung schwer. Nur Claude Opus 4.8 und GPT-5.5 schließen über dem Startguthaben von 1 Million Dollar ab, und keines erzielt durchgängig Gewinn. CEO-Bench ist ein erster Schritt zur Messung der Intelligenz, die erforderlich ist, um anhaltenden, anpassungsfähigen Fortschritt im Laufe der Zeit voranzutreiben.

ViT-Up: Getreues Feature-Upsampling für Vision-Transformer
ViT-Up: Faithful Feature Upsampling for Vision Transformers

Jun 12

ByKrispin Wandel, Jingchuan Wang, Hesheng Wang

Vision Transformers (ViTs) haben sich zu einer dominanten Architektur für visuelles Repräsentationslernen entwickelt, die außergewöhnlich starke und breit wiederverwendbare Backbone-Merkmale liefern. Allerdings werden ViTs aufgrund der quadratischen Kosten der globalen Selbstaufmerksamkeit üblicherweise mit relativ kleinen Patch-Token-Gittern betrieben, was einen anhaltenden Engpass für dichte Vorhersageaufgaben wie semantische Segmentierung und Tiefenschätzung darstellt. Dies hat die Entwicklung aufgabenagnostischer Merkmals-Upsampler motiviert. Während aktuelle hochmoderne Verfahren visuell scharfe dichte Repräsentationen erzeugen, kann ihre Abhängigkeit von flachen Bildencodern für geführtes Upsampling zu Merkmalsleckagen, Fragmentierung und Unschärfe führen. Wir stellen ViT-Up vor, ein implizites Merkmals-Upsampling-Framework, das die externe Bildführung durch eine schichtweise Abfragekonstruktion aus zwischengeschalteten versteckten ViT-Zuständen ersetzt. Dies ermöglicht die Vorhersage von Merkmalen an beliebigen kontinuierlichen Bildkoordinaten unter Wahrung der Ausrichtung mit dem Backbone-Merkmalsraum. Experimente zeigen, dass ViT-Up durchgängig besser abschneidet als hochmoderne bildgeführte Upsampler bei dichten Vorhersagen und semantischer Korrespondenz. Auf DINOv3-S+ verbessert ViT-Up frühere Methoden um bis zu +2,07 mIoU auf Cityscapes und +4,17 PCK@0,10 auf SPair-71k. Mit dem größeren DINOv3-B-Backbone steigen diese Gewinne auf +3,36 mIoU und +8,09 PCK@0,10, was zeigt, dass ViT-Up günstig mit der Backbone-Kapazität skaliert.

PAIWorld: Ein 3D-konsistentes Welt-Fundamentmodell für die Robotermanipulation
PAIWorld: A 3D-Consistent World Foundation Model for Robotic Manipulation

Jun 16

ByYuhang Huang, Xuan Lv, Junyan Xu, Zhiyuan Yu, Jiazhao Zhang, Ruizhen Hu, Wancheng Feng, Shilong Zou, Hewen Xiao, Ziqiao Zhou, Kaiyun Huang, Zhiyu Peng, Juzhan Xu, Hang Zhao, Chenyang Zhu, Renjiao Yi, Yifei Huang, Douhui Wu, Yan Zhang, Kexu Cheng, Chunhe Song, Yunzhi Xue, Xiuhong Zhang, Leitao Guo, Yunji Chen, Bin Wu, Haibin Yu, Kai Xu

Weltfundamentmodelle (World Foundation Models, WFMs) sind leistungsstarke Simulatoren, arbeiten jedoch überwiegend im Einzelansichtsmodus und entbehren der für die Robotermanipulation erforderlichen Multi-View-3D-Konsistenz. Obwohl Robotersysteme für das Policylernen auf mehrere Kameras (egozentrisch, Auge-zu-Hand und am Handgelenk montiert) angewiesen sind, verknüpfen aktuelle Multi-View-Weltmodelle lediglich die Ansichts-Token ohne explizite geometrische Argumentation. Dies führt zu ansichtübergreifendem Objektdrift, Tiefeninkonsistenz und Texturfehlausrichtung. Wir führen diese Fehler auf zwei Defizite zurück: das Fehlen eines expliziten ansichtübergreifenden Kommunikationsmechanismus und das Fehlen eines 3D-geometrischen Priors. Wir argumentieren, dass die gleichzeitige Behebung beider Defizite notwendig und ausreichend ist. Um dies zu adressieren, stellen wir PAIWorld vor, ein Framework, das Diffusions-Transformer-Weltmodelle durch drei Kernkomponenten erweitert: (1) Geometriebewusste ansichtübergreifende Aufmerksamkeitsblöcke (Geometry-Aware Cross-View Attention blocks), die einen expliziten Pfad zwischen den Ansichten herstellen, (2) Geometrische Rotary-Positionseinbettung (Geometric Rotary Position Embedding), die Kamerastrahlenrichtungen und extrinsische Posen in den Aufmerksamkeitsmechanismus kodiert, und (3) Latente 3D-REPA (Latent 3D-REPA), die 3D-bewusste Merkmale aus eingefrorenen 3D-Fundamentmodellen destilliert, um 3D-Konsistenz zu gewährleisten. Aufbauend auf einem DiT-basierten Weltfundamentmodell erreicht PAIWorld modernste Multi-View-3D-Konsistenz bei Robotermanipulationsbenchmarks, belegt Platz 1 auf der WorldArena-Rangliste und Platz 2 auf der AgiBot-Challenge2026-Rangliste, und ermöglicht nachgelagerte Anwendungen wie modellbasierte Planung, Welt-Aktionsmodelle und Multi-View-Policy-Post-Training.

SciOrch: Lernen, Experten-LLMs zur Lösung bahnbrechender multimodaler wissenschaftlicher Reasoning-Aufgaben zu orchestrieren
SciOrch: Learning to Orchestrate Expert LLMs for Solving Frontier Multimodal Scientific Reasoning Tasks

Jun 14

ByJingru Guo, Xiangyuan Xue, Lian Zhang, Wanghan Xu, Siki Chen, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin

Frontier-wissenschaftliches Denken bleibt eine große Herausforderung für große Sprachmodelle (Large Language Models, LLMs), bei der selbst die leistungsfähigsten kommerziellen Systeme kein Expertniveau erreichen. Ein genauerer Blick auf das Modellverhalten offenbart erhebliche Komplementaritäten, die die Evaluierung einzelner Modelle verdeckt: Verschiedene Frontier-Modelle zeichnen sich bei unterschiedlichen Fragetypen aus, und kein einzelnes Modell erfasst das gesamte Bild. Wir stellen SciOrch vor, ein Framework, das ein leichtgewichtiges 8B-Modell trainiert, um Frontier-LLMs für wissenschaftliches Denken zu orchestrieren. Der Orchestrator zerlegt jede Frage, delegiert Teilprobleme über API-Aufrufe an ausgewählte kommerzielle Modelle und synthetisiert eine endgültige Antwort. Das Training eines solchen Orchestrators ist grundlegend schwieriger als herkömmliches agentenbasiertes Reinforcement Learning: Jede Aktion löst einen API-Aufruf aus, der sowohl in Bezug auf Dollar-Kosten als auch auf Latenz teuer ist, was standardmäßige Online-Rollouts unpraktikabel macht. Wir begegnen diesem Problem mit einem MCTS-basierten Ansatz, der vielfältige Orchestrierungspfade erzeugt, Einzelknoten-Einzelschritt-Stichproben extrahiert und den Orchestrator mit GRPO-artigem Training optimiert. Auf einem 240-Fragen-Testsatz, der SGI-Reasoning und Scientists' First Exam umfasst, erreicht SciOrch eine durchschnittliche Genauigkeit von 56,66 % und übertrifft damit das stärkste einzelne kommerzielle Modell um 3,74 % und die stärkste Multi-Agenten-Baseline um 3,33 %. Es erzielt zudem die beste Genauigkeit sowohl auf SGI als auch auf SFE mit weniger als der Hälfte der API-Kosten typischer Multi-Agenten-Methoden.

RODS: Belohnungsgesteuerte Online-Datensynthese für Multi-Turn-Werkzeugnutzungsagenten
RODS: Reward-Driven Online Data Synthesis for Multi-Turn Tool-Use Agents

Jun 17

ByRuishan Fang, Siyuan Lu, Chenyi Zhuang, Tao Lin

Mehrstufiges Werkzeugnutzungs-RL wird durch die schnelle Erschöpfung informativer Stichproben in statischen Datensätzen eingeschränkt. Wir beobachten, dass sich das Gradientensignal in GRPO auf Aufgaben mit der höchsten Rollout-Belohnungsvarianz konzentriert, eine Folge der Popoviciu-Obergrenze. Folglich tragen Stichproben nahe der Fähigkeitsgrenze des Agenten – an denen Erfolge und Misserfolge etwa ausgewogen sind – überproportional große Policy-Gradienten bei. Mit fortschreitendem Training verschiebt sich diese Grenze kontinuierlich, wodurch der Pool informativer Stichproben in einem statischen Datensatz allmählich erschöpft wird. Wir schlagen RODS (belohnungsgesteuerte Online-Datensynthese) vor, um diese Erschöpfung zu beheben. RODS schließt den Kreislauf zwischen RL-Training und Datengenerierung, indem es die Fortschrittsbelohnungsvarianz als praktischen, kostenlosen Grenzdetektor umfunktioniert, der keine zusätzliche Inferenz über die bereits für das Training berechneten Rollouts hinaus erfordert. Es identifiziert kontinuierlich solche Grenzstichproben, synthetisiert neue mehrstufige Varianten, die deren struktureller Komplexität (z. B. API-Topologie und Abhängigkeitstiefe) entsprechen, über eine fähigkeitsabgestimmte Resampling-Pipeline und verwaltet einen dynamischen Wiederholungspuffer, der mit der Policy koevolviert. Ausgehend von 400 menschlichen Seeds und einem aktiven Trainingspool von etwa 800 Stichproben erreicht RODS eine vergleichbare Leistung wie eine Offline-Pipeline mit 17.000 Stichproben, benötigt dabei etwa 20-mal weniger Trajektorien und verbessert sich in unserer kontrollierten Umgebung gegenüber RL mit festen Daten und Umgebungsaugmentierung.

Wann ermöglicht Überwachung auf Trajektorienebene effizientes Offline Reinforcement Learning?
When Does Trajectory-Level Supervision Permit Efficient Offline Reinforcement Learning?

Jun 16

ByXuanfei Ren, Tengyang Xie

Offline Reinforcement Learning wird typischerweise unter Belohnungsüberwachung auf Prozessebene analysiert, doch viele sequenzielle Entscheidungsdatensätze erfassen nur Ergebnisse auf Trajektorienebene. Wir entwickeln eine statistische Theorie für die offline Politikoptimierung aus solchen Ergebnissen auf Ausgangsebene. Zunächst untersuchen wir das kanonische Szenario, bei dem das Ziel die erwartete kumulative Belohnung bleibt, jede offline Trajektorie jedoch nur eine skalare Kennzahl liefert, deren bedingter Erwartungswert der kumulative Ertrag ist. Wir schlagen OPAC vor, einen pessimistischen Actor-Critic-Algorithmus, der ein latentes Belohnungsmodell lernt und eine Politik aus Kennzahlen auf Trajektorienebene optimiert. Wir beweisen eine Hochwahrscheinlichkeitsgarantie der Ordnung \(\widetilde{O}(H^2 C_{\text{sa}}(\pi^\star)/n)\) sowie eine passende untere Schranke, die die scharfen statistischen Kosten des Ersatzes von Belohnungen auf Prozessebene durch eine Kennzahl auf Trajektorienebene charakterisiert. Anschließend erweitern wir das Prinzip auf präferenzbasiertes Feedback, wobei die führende Horizont- und Konzentrierbarkeitsabhängigkeit bis auf präferenzmodellspezifische Konstanten erhalten bleibt. Schließlich untersuchen wir das verallgemeinerte ergebnisbasierte Offline Reinforcement Learning, bei dem sowohl die Überwachung als auch das Ziel Größen auf Trajektorienebene sind, die durch eine nichtlineare Aggregation latenter schrittweiser Belohnungen induziert werden. Dieses Problem ist im Allgemeinen nicht lernbar: Für „Alles-Erfolg“-Ziele benötigt jeder offline Lernende möglicherweise \(\Omega(2^H)\) Trajektorien, selbst bei deterministischen Übergängen und konstanter Konzentrierbarkeit. Wir identifizieren dann durch zwei strukturelle Koeffizienten, \(\kappa_\mu(\sigma)\) und \(\chi_\mu(\sigma)\), die den Informationsverlust bei der Ergebnisaggregation und bei verallgemeinerten Bellman-Updates erfassen, einen handhabbaren Bereich, in dem das verallgemeinerte OPAC eine polynomielle Stichprobenkomplexität erreicht. Zusammengenommen zeigen unsere Ergebnisse, wann Überwachung auf Ausgangsebene ein stichprobeneffizientes Offline-Controlling ermöglicht und wann fehlende Prozessbelohnungen grundlegende statistische Barrieren schaffen.

Lernen von Benutzer-Simulatoren mit Turing-Belohnungen
Learning User Simulators with Turing Rewards

Jun 17

ByYingshan Susan Wang, Cedegao E. Zhang, Linlu Qiu, Zexue He, Pengyuan Li, Alex Pentland, Roger P. Levy, Yoon Kim

Das Erlernen der Simulation menschlicher Nutzer in interaktiven Umgebungen könnte den Fortschritt des Trainings von Agenten-Assistenten, die Evaluierung von Personalisierungssystemen, die Forschung in den Sozialwissenschaften und mehr vorantreiben. Bisherige Ansätze tun dies in der Regel, indem sie ein großes Sprachmodell (LLM) so trainieren, dass es mit einer einzigen Grundwahrheitsantwort übereinstimmt, entweder durch Maximierung der Log-Wahrscheinlichkeit oder durch Verwendung einer Ähnlichkeitsbelohnung. Wir schlagen stattdessen {Turing-RL} vor: einen auf dem Turing-Test basierenden Reinforcement-Learning-Ansatz zum Training von Nutzersimulatormodellen. {Turing-RL} verwendet eine diskriminative Turing-Belohnung mit einem LLM-Judge, um zu bewerten, wie ununterscheidbar eine generierte Antwort von der des echten Nutzers angesichts dessen Vorgeschichte ist, und das Nutzersimulator-LLM lernt, Antworten zu erzeugen, die von dem, was der Nutzer hätte sagen können, nicht zu unterscheiden sind – mit solchen Belohnungen. In zwei verschiedenen Bereichen – Konversationschat und Reddit-Forum-Diskussion – stellen wir fest, dass {Turing-RL} sowohl bei LLM- als auch bei menschlichen Bewertungsmetriken durchweg besser abschneidet als Baseline-Methoden. Unsere Studie legt nahe, dass die Optimierung auf Ununterscheidbarkeit, anstatt auf Antwortabgleich, effektiv für das Erlernen von Nutzersimulatoren ist.

Physik-IQ verifiziert
Physics-IQ Verified

Jun 17

ByTim Rädsch, Yuki M Asano, Hilde Kuehne, Stefan Bauer, Priyank Jaini, Robert Geirhos, Carsten T. Lüth

Videogenerative Modelle (VGMs) haben sich zu einer neuen Grenze entwickelt, die nicht nur zur Videogenerierung, sondern auch für eine Vielzahl nachgelagerter Aufgaben, einschließlich der Weltmodellierung, eingesetzt werden kann. Um diese Aufgaben voranzubringen, muss ein gutes Videomodell die physikalische Realität der Welt verstehen. Die Bewertung dieses Verständnisses ist ein aufstrebendes Feld und hat zum Physics-IQ-Benchmark geführt, der dieses explizit quantifiziert, indem er modellgenerierte Videos mit realen Videos physikalischer Experimente vergleicht. In dieser Arbeit präsentieren wir eine systematische Überprüfung des Physics-IQ-Benchmarks, decken Schwächen auf und schlagen drei Lösungen vor, die messen, wie wir das physikalische Verständnis von VGMs schärfen können. Insbesondere verbessern wir die Qualität der Prompts und Ground-Truth, um den Einfluss von Störfaktoren zu reduzieren, und führen zudem ein Stichproben-bewertungssystem auf Sample-Ebene ein, das jede Stichprobe und Metrik gleich gewichtet. Unser daraus resultierender Benchmark, Physics-IQ Verified, verfeinert 57,6% aller Stichproben und verbessert 34,8% der Prompts. In einer Vergleichsstudie mit sechs Bild-zu-Video generativen Modellen beobachten wir moderate, aber bedeutsame Rangänderungen (Kendall's τ = 0,46). Wir hoffen, dass Physics-IQ Verified die Gemeinschaft voranbringt, indem es ein zuverlässigeres Signal für physikalisch genaue VGMs liefert. Der Code für den Benchmark ist unter https://github.com/google-deepmind/physics-iq-benchmark zugänglich.

Externalisierung von Forschungssynthese und -validierung bei KI-Wissenschaftlern durch einen Forschungsrahmen
Externalizing Research Synthesis and Validation in AI Scientists through a Research Harness

Jun 17

ByZijian Wang, Hanqi Li, Ziyue Yang, Zijian Hu, Shenghan Zuo, Yunzhe Zhang, Da Ma, Danyu Luo, Chenrun Wang, Jing Peng, Tiancheng Huang, Sijia Guo, Huayang Wang, Zichen Zhu, Senyu Han, Yilu Cao, Kai Yu, Lu Chen

KI-Systeme können zunehmend wissenschaftliche Arbeitsabläufe automatisieren, doch die Schlussfolgerung, die vorherige Belege, generierte Ideen, Experimente und endgültige Behauptungen miteinander verknüpft, bleibt oft innerhalb der Modellinferenz implizit. Hier stellen wir Xcientist vor, einen Forschungsrahmen, der die Forschungssynthese und experimentelle Validierung in überprüfbare, vertraglich geregelte Prozesse externalisiert. Xcientist organisiert Literaturbelege, Ideenstände, Implementierungspläne, Ablationsaufzeichnungen und Reparaturspuren als persistente Forschungsartefakte, sodass generierte Mechanismen fundiert, ausgeführt, getestet und überarbeitet werden können, ohne ihre Evidenzbasis zu verlieren. Wir identifizieren Behauptungsdrift als einen Fehlermodus automatisierter Forschung, bei dem ausführbare Artefakte den ursprünglich beanspruchten Mechanismus nicht mehr stützen. In trainingsfreien Gedächtnissystemen, graphstrukturierter Verkehrsvorhersage und mehrskaligen physikinformierten neuronalen Netzen bewahrt Xcientist nachvollziehbare Trajektorien von der Problemformulierung über das Mechanismusdesign bis hin zur Validierung und begrenzten Revision. Diese Ergebnisse legen nahe, dass KI-Wissenschaftler nicht nur anhand ihrer endgültigen Artefakte bewertet werden sollten, sondern auch danach, ob ihre Synthese- und Validierungsprozesse attribuierbar, überprüfbar und wissenschaftlich verantwortbar bleiben.

REVES: REvision und VErifikation – erweitertes Training für Testzeit-Skalierung
REVES: REvision and VErification--Augmented Training for Test-Time Scaling

Jun 17

ByYuanxin Liu, Ruida Zhou, Xinyan Zhao, Amr Sharaf, Hongzhou Lin, Arijit Biswas, Mohammad Ghavamzadeh, Zhaoran Wang, Mingyi Hong

Testzeit-Skalierung durch sequentielle Überarbeitung hat sich als leistungsfähiges Paradigma zur Verbesserung der Argumentationsfähigkeit großer Sprachmodelle (LLMs) erwiesen. Allerdings optimieren standardmäßige Post-Training-Methoden hauptsächlich Ein-Punkt-Ziele, was zu einer grundlegenden Fehlanpassung an die Dynamik mehrstufiger Inferenz führt. Während neuere Arbeiten dies als mehrstufiges Reinforcement Learning (RL) behandeln, optimieren konventionelle Ansätze direkt die mehrstufigen Trajektorien und versäumen es, die qualitativ hochwertigen Fehler in Zwischenschritten weiter auszunutzen, aus deren Korrektur das Modell lernen kann. Wir schlagen ein zweistufiges iteratives Framework vor, das zwischen Online-Daten/Prompt-Anreicherung und Politikoptimierung wechselt. Indem die Zwischenschritte („Beinahe-Treffer“-Antworten) in den erfolgreichen Wiederherstellungsbahnen in entkoppelte Überarbeitungs- und Verifikationsaufforderungen umgewandelt werden, konzentriert sich unser Ansatz sowohl auf effektive Antworttransformation als auch auf Fehleridentifikation. Dieser Ansatz ermöglicht eine effiziente Off-Policy-Datengenerierung und reduziert den Rechenaufwand von Langzeitsampling im Vergleich zu standardmäßigem mehrstufigem RL. Auf LiveCodeBench beobachten wir unter Verwendung öffentlich verfügbarer Testfälle als Feedback Gewinne von +6,5 Punkten gegenüber der RL-Baseline und +4,0 Punkten gegenüber standardmäßigem mehrstufigem Training. Über das Programmieren hinaus erreicht unser Ansatz das zuvor berichtete SOTA-Ergebnis bei der Kreispackung, während er das kleinste Basismodell (4B) und weitaus weniger Rollouts verwendet als die wesentlich größeren evolutionären Suchsysteme. Mathematische Ergebnisse unter Ground-Truth-Verifikation bestätigen zudem eine verbesserte Korrekturfähigkeit. Es verallgemeinert sich auch auf nicht-verteilungskonforme Constraints-Erfüllungs-Puzzles wie n-Damen und Mini-Sudoku, bei denen Korrektheit vollständig durch Problemrestriktionen definiert wird. Code ist verfügbar unter https://github.com/yxliu02/REVES.git.

MyPCBench: Ein Benchmark für persönlich intelligente Computer-Nutzungs-Agenten
MyPCBench: A Benchmark for Personally Intelligent Computer-Use Agents

Jun 15

ByLawrence Keunho Jang, Andrew Keunwoo Jang, Jing Yu Koh, Ruslan Salakhutdinov

Aktuelle Benchmarks für computerbasierte Agenten evaluieren Modelle in unpersönlichen Umgebungen. Dadurch entsteht eine Lücke zwischen Evaluierung und Einsatz, da persönliche Assistenten das gesamte digitale Leben eines Nutzers abdecken sollen, einschließlich seines Kontextes, historischer Daten und angemeldeter Konten. Diese Lücke ist bei Web-Aufgaben am größten, da Evaluierungen mit Live-Webseiten keine Seiten nutzen können, die eine Anmeldung oder persönliche Informationen erfordern – genau die Art von Seiten, die ein echter persönlicher Assistent bedienen muss. Wir stellen MyPCBench vor, das computerbasierte Agenten als persönliche Assistenten auf einem Linux-Desktop testet, der mit 17 simulierten realen Webanwendungen und einem vollständigen Desktop-Stack ausgestattet ist, alle für eine kanonische Persona eingerichtet: Michael Scott aus *The Office*. Wir definieren 184 Aufgaben in dieser Umgebung, jede inspiriert von einer echten Anfrage aus der OpenClaw-Community, und evaluieren sechs geschlossene und offene Modelle mit einer einheitlichen Computer+Bash-Werkzeugoberfläche. Wir stellen fest, dass das beste Modell, Claude Opus 4.6, 55,4 % der Aufgaben vollständig löst – das einzige Modell über 50 %. Modellfehler häufen sich bei Aufgaben, die viele Anwendungen umfassen, und bei langen Trajektorien, bei denen die Personalisierung einen Assistenten am stärksten fordert. Wir veröffentlichen die Umgebung, den Aufgabensatz und den Agenten-Harness unter https://mypcbench.com.

iOSWorld: Ein Benchmark für persönlich intelligente Telefonagenten
iOSWorld: A Benchmark for Personally Intelligent Phone Agents

Jun 8

ByLawrence Keunho Jang, Mareks Woodside, Geronimo Carom, Andrew Keunwoo Jang, Jing Yu Koh, Ruslan Salakhutdinov

Ein nützlicher Telefon-Agent muss persönlich intelligent sein. Er sollte über die Identität, den Verlauf und die Präferenzen eines Benutzers nachdenken, wie sie auf dem Gerät existieren, und nicht nur isolierte Anweisungen in einer unpersönlichen Sandbox befolgen. Bestehende Benchmarks für mobile Agenten entbehren dieser Art von Personalisierung. Wir stellen iOSWorld vor, den ersten interaktiven nativen iOS-Simulator-Benchmark, der um eine persistente Benutzeridentität herum aufgebaut ist und 26 neu entwickelte iOS-Apps umfasst. Diese Apps enthalten verbundene Daten wie Transaktionen, Nachrichten, Reiseaufzeichnungen, soziale Beziehungen und finanzielle Aktivitäten. iOSWorld umfasst 133 Aufgaben in drei zunehmend schwierigen Kategorien. Einzel-App-Aufgaben (27) testen eine App, Multi-App-Aufgaben (60) erstrecken sich über 2 bis 8 Apps, und Gedächtnis- und Personalisierungsaufgaben (46) erfordern, dass Agenten Muster aus persönlichen Daten ableiten. Wir bewerten Spitzenmodelle und Open-Source-Modelle für die Computernutzung sowohl im reinen Vision-Modus als auch im privilegierten Vision+XML-Modus. Die beste Konfiguration erreicht insgesamt 52 %, aber nur 37 % bei Multi-App-Aufgaben. Privilegierter Vision+XML-Zugang verbessert Spitzenmodelle um bis zu 26 Prozentpunkte, während kleinere Modelle nicht von zusätzlichem Accessibility-Tree-Input profitieren. Wir veröffentlichen iOSWorld als Open-Source-Benchmark mit allen Apps, gesäten Daten, Aufgaben, Rubriken und Evaluationscode.

IndustryBench-MIPU: Benchmarking der Mehrbild-Attributwertextraktion für industrielle Produkte
IndustryBench-MIPU: Benchmarking Multi-Image Attribute Value Extraction for Industrial Products

Jun 12

ByHaonan Qi, Jin Cao, Yongqi Zhang, Xintong Wang, Weidong Tang, Bin Chen, Chengfu Huo, Haojun Pan, Hengyu You, Jing Li, Yingde Wang, Liang Ding

Industrieprodukte wie Ventile und Leistungsschalter werden durch dichte technische Spezifikationen definiert, die Beschaffung, Kompatibilität und Sicherheit über Lieferketten hinweg regeln. Diese Spezifikationen sind über mehrere heterogene Produktbilder verteilt, darunter Spezifikationstabellen, Typenschilder und technische Zeichnungen. Ob Multimodale Große Sprachmodelle (MLLMs) sie zuverlässig extrahieren können, ist jedoch noch wenig erforscht. Um diese Lücke zu schließen, führen wir IndustryBench-MIPU ein, den ersten groß angelegten Benchmark für das multimodale Verständnis industrieller Produkte, der auf der strukturierten Attributextraktion basiert – der Wiederherstellung von Eigenschaft-Wert-Paaren aus Produktbildern. Diese Aufgabe erfordert gleichzeitig Texterkennung aus Spezifikationstabellen und Typenschildern, visuelles Verständnis technischer Zeichnungen, Fachwissen zur Dekodierung industrieller Terminologie sowie bildübergreifende Evidenzintegration zur Zusammenführung verstreuter Spezifikationen. Konkret umfasst der Benchmark 4.559 Produkte über 27.652 Bilder mit 103.703 Annotationen aus 18 Industriekategorien, die durch Multi-Modell-Konsens und dreistufige Qualitätssicherung erstellt wurden. Die Evaluierung von neun MLLMs unter Einzelbild- und produktspezifischer Mehrbildkonfiguration zeigt eine deutliche Vollständigkeitslücke: Die Modelle erzielen eine hohe Präzision (86–94 %), aber das beste Modell extrahiert nur 49,9 % der produktspezifischen Attribute; der Übergang von Einzelbild- zur Mehrbildextraktion verursacht einen Rückgang des Recall um 15–34 Prozentpunkte. Die Vollständigkeit bei Mehrbildern, nicht die Genauigkeit bei Einzelbildern, stellt den zentralen Engpass dar. Datensatz und Code sind öffentlich verfügbar.

Bag of Dims: Trainingsfreie mechanistische Interpretierbarkeit durch Vorzeichenmuster auf Dimensionsebene
Bag of Dims: Training-Free Mechanistic Interpretability via Dimension-Level Sign Patterns

Jun 17

ByVarun Reddy Nalagatla

Wir zeigen, dass die Standardbasis der versteckten Zustände von Transformatoren bereits eine trainingsfreie, architekturübergreifende Merkmalsbasis bietet. Einzelne Dimensionen kodieren semantischen Gehalt über ihre Vorzeichen (±1) und Konfidenz über ihre Beträge und fungieren als unabhängige binäre Register; ein Merkmal ist eine Teilmenge von Dimensionen mit einem konsistenten Vorzeichenmuster, das durch Zählen von Vorzeichenübereinstimmungen ohne gelernte Rotation ausgelesen wird. Dieses Bag-of-Dims-Framework validieren wir an sieben Modellen aus den Bereichen Sprache (Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), Bildverarbeitung (DINOv2, ViT-Base) und Audio (AST). Allein die Vorzeichen tragen prädiktiven Gehalt: Vorzeichenmuster mit Einheitsbetrag bewahren 60–93% der Top-5-Nächste-Token-Genauigkeit durch den LM-Kopf, und decoderfreies Hamming-Scoring erreicht 80–90% der Top-4096. Aus einem Ein-Token-Cache (ein Vorwärtspass pro Token, ohne Kontext, ohne Labels) detektieren wir 175 Kategorien mit einem AUC von 0,97–0,99 durch Vorzeichenübereinstimmung; ein trainierter Sondenkopf fügt nur +0,018 AUC hinzu und konvergiert zu achsengebundenen Gewichten. Diese Merkmale sind kausal wirksam: Sie überleben die K/V-Aufmerksamkeitsprojektionen, lassen sich auf die FFN-Neuronenkoalitionen zurückverfolgen, die sie schreiben (Kontrollen mit zufälligen Gewichten reproduzieren dies nie), und das Umdrehen der Vorzeichen eines Merkmals während des aktiven Vorwärtspasses unterdrückt sein Konzept über vier Sprachmodelle hinweg, betragsangepasst und konzeptspezifisch. Die Dimensionen bleiben währenddessen unabhängig (paarweise Transinformation unter 0,006 Bit). Die Struktur ist nicht sprachspezifisch: Dieselben dimensionsweisen Vorzeichen treten in selbstüberwachtem Sehen (DINOv2, 9/12 ImageNet-Superklassen), überwachtem Sehen (ViT-Base, 11/12) und Audio (AST, 50/50 ESC-50-Kategorien) auf, spiegelt also allgemein das Training von Transformatoren wider, nicht das Sprachmodellierungsziel. Die Standardbasis reicht bereits für das Merkmalsauslesen in einem Vorwärtspass aus, ohne Optimierung, ohne GPU-Tage. Das offene Problem verschiebt sich von der Suche nach der richtigen Rotation hin zur Katalogisierung dessen, was jede Dimension kodiert.

HiLo-Token: Eingabeadaptive Hoch-Niederfrequenz-Tokenkompression für effiziente Bildbearbeitung
HiLo-Token: Input-Adaptive High-Low Frequency Token Compression for Efficient Image Editing

Jun 11

ByHaoran You, Yotam Nitzan, Lingzhi Zhang, Yifan Gong, Mang-Tik Chiu, Connelly Barnes, Yan Kang, Yuqian Zhou, Eli Shechtman, Sohrab Amirghodsi

Kreative Bildbearbeitungswerkzeuge wie die Schaltflächen „Entfernen“ oder „Generatives Füllen“ in Photoshop sind ein zentraler Bestandteil der alltäglichen Nutzung durch Kunden und machen einen erheblichen Anteil des Traffics in Photoshop und Lightroom aus. Aktuelle generative KI-Modelle stehen jedoch vor erheblichen Latenzproblemen, die sich beim Übergang von faltungsbasierten U-Nets zu Diffusion Transformers (DiTs) noch verstärken. In unserer Evaluierung anhand von Hunderten repräsentativer Bildbearbeitungsbeispiele, die ein breites Spektrum an Maskenverhältnissen abdecken, entfallen auf das DiT-Modul allein durchschnittlich 73 % der gesamten Modelllatenz – selbst nach einer Destillation von 50 auf 8 Zeitschritte. Um diese Herausforderung zu bewältigen, schlagen wir HiLo-Token vor, ein eingabeadaptives Token-Komprimierungsframework, das mehr Token-Budget auf hochfrequente, kontextreiche Regionen verteilt und niederfrequenten Bereichen weniger Tokens zuweist. Konkret behalten wir für den durch die Benutzermaske festgelegten Bearbeitungsbereich alle Tokens innerhalb einer dilatierten Maske bei, um eine starke Lokalität und kontextuelle Relevanz zu wahren. Außerhalb des Bearbeitungsbereichs führen wir eine einfache, aber effektive Strategie zur Auswahl hochfrequenter Tokens basierend auf der räumlichen Frequenz ein, um wichtige lokale Details zu erfassen, während wir Tokens aus einem 16-fach herunterskalierten Bild verwenden, um niederfrequente Komponenten darzustellen und die unscharfe, aber globale Struktur zu erhalten. Umfangreiche Experimente mit Evaluierungsdaten auf Produktionsniveau bestätigen die Wirksamkeit der vorgeschlagenen Methode. Sie erzielt eine 3,13-fache, 2,59-fache bzw. 1,67-fache DiT-Beschleunigung auf A100-80GB für Bildbearbeitungsaufgaben in den Kategorien kleiner, mittlerer und großer Maskenverhältnisse mit durchschnittlichen Verhältnissen von 6,38 %, 15,92 % bzw. 35,36 % – ohne jede Regression der Generierungsqualität.

Sehen vor dem Denken: Entkopplung von Wahrnehmung und Schlussfolgerung für kurzschlussresistente multimodale On-Policy-Selbstdestillation
Seeing Before Reasoning: Decoupling Perception and Reasoning for Shortcut-Resilient Multimodal On-Policy Self-Distillation

Jun 17

BySihan Wang, Xiyao Liu, Lianqing Liu, Zhi Han

Die On-Policy-Selbstdestillation (OPSD) trainiert ein Modell auf seinen eigenen Rollouts und verwendet eine eingefrorene Kopie, um dichte Token-Zielgrößen basierend auf einem Referenzziel bereitzustellen. Dies funktioniert gut für das Reasoning von LLMs, aber eine direkte Erweiterung auf multimodale große Sprachmodelle (MLLMs) kann einen Shortcut erzeugen: Das privilegierte Ziel könnte Tokens hauptsächlich basierend auf dem Textreferenzziel statt auf dem Bild lenken. Wir schlagen ViGOS vor, ein visuell verankertes OPSD-Framework für das Nachtraining von MLLMs. Der Schüler schreibt zunächst eine visuelle Beschreibung und folgert dann auf die endgültige Antwort. Für gültige Rollouts überwacht ein rein bildbasierter Wahrnehmungslehrer die Beschreibung, während ein privilegierter Reasoning-Lehrer das Reasoning und die endgültige Antwort auf demselben Schüler-Präfix überwacht. Ein Referenzlehrer wird nur für ungültige Rollouts verwendet, um das Ausgabeformat wiederherzustellen. In Benchmarks zu allgemeinem Sprach-Sehen, Experten-Reasoning, visueller Mathematik, räumlicher Verankerung und visuell-sprachlichen Prioritaten behält ViGOS die Hauptvorteile von OPSD und verbessert das bildgestützte Verhalten in shortcut-anfälligen Umgebungen.

Morpheus: Ein morphologiebewusster neuronaler Tokenisierer und Wort-Embedder für Türkisch
Morpheus: A Morphology-Aware Neural Tokenizer and Word Embedder for Turkish

Jun 17

ByTolga Şakar

Türkisch ist agglutinierend: Bedeutung wird durch Morpheme transportiert, doch die Subwort-Tokenisierer, die moderne Sprachmodelle antreiben, zerlegen Wörter nach Korpusstatistiken, zerschlagen semantisch aufgeladene Suffixe und – im Fall von WordPiece und regelbasierten Analysatoren – scheitern daran, ihre Ausgabe zurück zum Originaltext zu dekodieren. Dieses Paper stellt Morpheus vor, ein neuronales Morphemgrenzen-Modell für Türkisch, das zugleich ein verlustfreier, morphologiebewusster Tokenisierer und ein Produzent von Worteinbettungen ist. Ein differenzierbares Poisson-Binomial-Dynamisches Programm wandelt zeichenweise Grenzwahrscheinlichkeiten während des Trainings in weiche Morphemzugehörigkeiten und bei der Inferenz in exakte Segmente um, ohne String-Normalisierung, sodass decode(encode(w)) = w konstruktionsbedingt gilt. Da das Modell neuronal ist, erzeugt derselbe Vorwärtsdurchlauf, der tokenisiert, auch eine strukturierte Worteinbettung. Unter reversiblen Tokenisierern – den einzigen, die für die Generierung valide sind – erreicht Morpheus die niedrigsten Bits pro Zeichen (1,425), verdoppelt in etwa die goldene morphologische Ausrichtung der Subwort-Familie (MorphScore macro-F1 0,61 vs. ~0,32) und benötigt ~19 % weniger GPU-Speicher als Subwort-Tokenisierer mit 64K-Vokabular. Als Embedder führen eingefrorene Morpheus-Vektoren bei lexikalischem Retrieval (Root-Family MAP 0,85) und Gleichstamm-Verifikation (ROC-AUC 1,00) und übertreffen den multilingualen Retriever BGE-M3 sowie BERTurk; bei kontext- und flexionsabhängigen Aufgaben (NER, Kasus/Numerus-Probing) bleiben die schwereren kontextuellen Encoder vorn – ein Kompromiss, den wir auf Morpheus' wurzelzentrierte Geometrie zurückführen. Code: https://github.com/lonewolf-rd/TurkishMorpheus; Modell: https://huggingface.co/lonewolflab/Morpheus-TR-50K; interaktive Demo: https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo.

Wiederausrichtung auf den Menschen bei der LLM-Personalisierung
Re-Centering Humans in LLM Personalization

Jun 4

ByLechen Zhang, Jiarui Liu, Tal August

Trotz des wachsenden Interesses basieren die meisten Evaluierungen der Personalisierungsfähigkeiten großer Sprachmodelle (LLMs) auf synthetischen Daten. Es bleibt unklar, wie gut aktuelle Personalisierungssysteme für echte Nutzer funktionieren. In dieser Arbeit untersuchen wir die Diskrepanz in der Personalisierungsleistung von LLMs bei Verwendung synthetischer im Vergleich zu menschlichen Daten. Wir sammeln menschliche Gespräche (550 Gespräche) und Bewertungen in drei Phasen der Personalisierung: Extrahieren von Benutzermerkmalen aus Gesprächen (5.949 Bewertungen), Zuordnen relevanter Merkmale zu neuen Aufforderungen (11.919) und Einbeziehen relevanter Merkmale in eine personalisierte Antwort (1.101). Die Einbeziehung menschlicher Daten offenbart Systemgrenzen in jeder Phase. Modelle haben Schwierigkeiten, Merkmale aus menschlichen Gesprächen zu extrahieren, stimmen nicht mit menschlichen Bewertungen über relevante Merkmale überein und generieren personalisierte Antworten, die von Menschen als nicht besser bewertet werden als generische Antworten (obwohl die LLM-Bewertungen diese weithin als besser einstufen). Wir führen zwei leichtgewichtige trainingsbasierte Interventionen ein, die die automatisierte Personalisierungsevaluierung in den ersten beiden Phasen näher an menschliche Daten heranführen. In der dritten Phase stellen wir jedoch fest, dass erlernte Belohnungsmodelle nur eine bescheidene Korrelation mit menschlichen Bewertungen aufweisen, was darauf hindeutet, dass menschenorientierte Personalisierungsqualitätsurteile nur schwer direkt modellierbar sind. Unsere gesammelten Daten bieten eine Grundlage für die Untersuchung, wie Modelle Benutzerinformationen auf eine für Menschen nützliche Weise extrahieren, auswählen und einbeziehen sollten.

Ein Benchmark und Framework zur Evaluierung von Vorhersagen nächster Aktionen in Tabellenkalkulationen
A Benchmark and Framework for Evaluating Next Action Predictions in Spreadsheets

Jun 11

ByTejas Agrawal, Vu Le, Sumit Gulwani, Gust Verbruggen

Prädiktive Codevervollständigung beschleunigt die Arbeitsgeschwindigkeit von Entwicklern erheblich. In Tabellenkalkulationen sind solche Autovervollständigungsfunktionen trotz ihrer größeren Verbreitung praktisch nicht vorhanden. Um diese Lücke zu schließen, führen wir einen Benchmark für Systeme ein, die eine Sequenz von Benutzeraktionen in einer Tabellenkalkulation beobachten und zukünftige Aktionen vorhersagen. Zwei Herausforderungen sind (1) das Fehlen von Bearbeitungshistorien in öffentlichen Tabellenkalkulationskorpora und (2) der komplexe Raum von Tabellenkalkulationsaktionen (räumlich, zeitlich, zusammengesetzt). Zur Bewältigung von (1) kuratieren wir manuell 52 Sequenzen mit 12.000 Aktionen, die Tabellenkalkulationen aus öffentlichen Korpora nachbilden, gespeist von parametrisierten Heuristiken und LLM-Verfeinerung. Zur Bewältigung von (2) schlagen wir eine Online-Evaluierung vor, die nach jeder Benutzeraktion eine Vorhersage erwartet, diese Vorhersage akzeptiert oder ablehnt, bei Akzeptanz die zukünftigen Aktionen aktualisiert und dies wiederholt, bis die Ziel-Tabellenkalkulation erreicht ist. Wir verwenden mehrere Basislinien-Prädiktoren (darunter Zero-Shot-LLMs, feinabgestimmte SLMs und klassische Modelle) und analysieren verschiedene Eigenschaften, die unser Benchmark uns lehrt, einschließlich, aber nicht beschränkt auf: Eigenschaften gespeicherter Aktionen und Falschpositive, Effizienz, Auswirkung von Benutzerprofilen, Auswirkung von Auslösern und Auswirkung des Kontexts.

Bestärkendes Lernen-gesteuertes Retrieval mit weicher Fusion für robustes multimodales Imitationslernen bei fehlenden Modalitäten
Reinforcement Learning-Guided Retrieval with Soft Fusion for Robust Multimodal Imitation Learning under Missing Modalities

Jun 13

ByHassan Ismkhan, Hamid Bouchahcia

Robotische Systeme nehmen die Welt durch mehrere Eingabemodalitäten wahr – darunter visuelle Kamera-Streams und Anweisungen in natürlicher Sprache – und müssen basierend auf diesen Signalen geeignete Aktionen auswählen. Allerdings ist die Annahme einer permanenten Verfügbarkeit aller Eingabegeräte unrealistisch, da Sensoren während des Einsatzes ausfallen, verdeckt werden oder vollständig ausfallen können. Eine robuste Handhabung solcher Szenarien fehlender Modalitäten ist daher für den realen Roboterbetrieb unerlässlich. Dieser Beitrag stellt RL4IL vor, eine durch Verstärkungslernen gesteuerte Methode für Imitation Learning, die die am besten geeignete Aktion für eine gegebene Beobachtung auswählt, indem sie die relevantesten Expertendemonstrationen aus einer Trainingsbibliothek identifiziert. Eine Verstärkungslern-Policy, trainiert durch Proximale Politikoptimierung über Breitensuch-Kandidatenmengen, bewertet Kandidatendemonstrationen, und ein weicher Kreuzaufmerksamkeits-Fusionskopf aggregiert deren Aktionssignale, um die endgültige Vorhersage zu erzeugen. Wenn eine Modalität zur Inferenzzeit fehlt, identifiziert eine dedizierte, modalitätsspezifische RL-Abrufpolicy Spenderdemonstrationen aus der Trainingsbibliothek, und ein weicher Imputationskopf rekonstruiert die fehlende Einbettung mittels Kreuzaufmerksamkeit über die am besten bewerteten Spender – ohne dass ein erneutes Training des Systems erforderlich ist. Experimente mit drei LIBERO-Benchmark-Suiten zeigen, dass RL4IL unter Sensorausfallbedingungen moderne Imitation-Learning-Methoden deutlich übertrifft, ohne dass ein Training des Policy-Netzwerks erforderlich ist. Der Code ist unter https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera zu finden.

LLM-gestützter NWDAF: Ein Schritt in Richtung KI-nativer 6G-Netzwerkintelligenz
LLM-Enabled NWDAF: A Step Toward AI-Native 6G Network Intelligence

Jun 10

ByHenok Daniel, Omar Alhussein, Cheng Li, Jie Liang, Ernesto Damiani

Die Netzwerkdatenanalysefunktion (NWDAF) ist von zentraler Bedeutung für die Ermöglichung des Zero-Touch-Netzwerkmanagements in Netzen der fünften Generation (5G), da sie Echtzeitanalysen und Closed-Loop-Automatisierung unterstützt. Trotz ihrer entscheidenden Rolle sind Open-Source-NWDAF-Implementierungen hinsichtlich Umfang und Zugänglichkeit nach wie vor begrenzt. In dieser Arbeit entwickeln wir eine Open-Source-NWDAF, die mit dem Open-Source-Kernnetz Free5GC kompatibel ist, Netzwerkdaten über Abonnements von Netzwerkfunktionen (NFs) sammelt und auch eine integrierte Schnittstelle für große Sprachmodelle (LLM) umfasst, die eine Interaktion in natürlicher Sprache mit menschlichen Bedienern ermöglicht. Die Schnittstelle verarbeitet Benutzerabsichten, kodiert diese mithilfe eines semantischen Einbettungsmodells und ordnet sie einer von sieben vordefinierten Absichtskategorien zu, um Analytikabfragen oder Ereignisabonnementbefehle auszulösen. Diese Architektur abstrahiert die Komplexität traditioneller Schnittstellen und ermöglicht es auch Nicht-Experten, Netzwerkanalysen und Abonnements einfach zu verwalten. Das System unterstützt Ereignisabonnements der Zugangs- und Verwaltungsfunktion (AMF) und der Sitzungsverwaltungsfunktion (SMF), Echtzeitüberwachung und Analytikabruf über Prometheus, die alle über eine dialogbasierte Schnittstelle zugänglich sind. Durch die Überbrückung von KI-gesteuerter Absichtserkennung mit standardisierter Netzwerkanalyse verbessert unsere Implementierung die Benutzerfreundlichkeit für Bediener und schafft eine Grundlage für KI-native 6G-Netze. Der Quellcode und die Datensätze, die während der aktuellen Studie generiert wurden, sind im GitHub-Repository verfügbar: https://github.com/HenokDanielbfg/testbed.