HuggingFace Daily Papers

Tägliche Publikationen

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

43 papers found

Utonia: Auf dem Weg zu einem Encoder für alle Punktwolken
Utonia: Toward One Encoder for All Point Clouds

Mar 3

ByYujia Zhang, Xiaoyang Wu, Yunhan Yang, Xianzhe Fan, Han Li, Yuechen Zhang, Zehao Huang, Naiyan Wang, Hengshuang Zhao

185

Wir träumen von einer Zukunft, in der Punktwolken aus allen Domänen zusammenkommen können, um ein einziges Modell zu formen, das allen zugutekommt. Als Schritt in diese Richtung präsentieren wir Utonia, einen ersten Ansatz zum Training eines einzigen selbstüberwachten Point-Transformer-Encoders über verschiedene Domänen hinweg – von der Fernerkundung über Outdoor-LiDAR, Indoor-RGB-D-Sequenzen und objektzentrierten CAD-Modellen bis hin zu Punktwolken, die aus reinen RGB-Videos extrahiert wurden. Trotz ihrer unterschiedlichen Erfassungsgeometrien, Dichten und Vorannahmen lernt Utonia einen konsistenten Repräsentationsraum, der domänenübergreifend transferierbar ist. Diese Vereinheitlichung verbessert die Wahrnehmungsfähigkeit und offenbart zugleich faszinierende emergente Verhaltensweisen, die nur bei gemeinsamer Trainierung der Domänen auftreten. Über die Wahrnehmung hinaus beobachten wir, dass Utonia-Repräsentationen auch embodiedes und multimodales Reasoning unterstützen können: Die Konditionierung von Vision-Language-Action-Policies auf Utonia-Merkmale verbessert die robotische Manipulation, und ihre Integration in Vision-Language-Modelle führt zu Fortschritten im räumlichen Schließen. Wir hoffen, dass Utonia als Schritt hin zu Foundation Models für sparse 3D-Daten dienen und nachgelagerte Anwendungen in AR/VR, Robotik und autonomen Fahren unterstützen kann.

Jenseits des Sprachmodellierens: Eine Erkundung multimodalen Vorabtrainings
Beyond Language Modeling: An Exploration of Multimodal Pretraining

Mar 3

ByShengbang Tong, David Fan, John Nguyen, Ellis Brown, Gaoyue Zhou, Shengyi Qian, Boyang Zheng, Théophane Vallaeys, Junlin Han, Rob Fergus, Naila Murray, Marjan Ghazvininejad, Mike Lewis, Nicolas Ballas, Amir Bar, Michael Rabbat, Jakob Verbeek, Luke Zettlemoyer, Koustuv Sinha, Yann LeCun, Saining Xie

104

Die visuelle Welt bietet eine entscheidende Achse, um Foundation-Modelle über Sprache hinaus weiterzuentwickeln. Trotz wachsendem Interesse in diese Richtung bleibt der Gestaltungsraum für native multimodale Modelle undurchsichtig. Wir schaffen empirische Klarheit durch kontrollierte Pretraining-Experimente von Grund auf, die die Faktoren isolieren, die multimodales Pretraining bestimmen, ohne Beeinflussung durch Sprach-Pretraining. Wir adaptieren den Transfusion-Rahmen, der Next-Token-Prediction für Sprache und Diffusion für Vision verwendet, um mit diversen Daten zu trainieren, einschließlich Text, Video, Bild-Text-Paaren und sogar aktionsbedingten Videos. Unsere Experimente ergeben vier zentrale Erkenntnisse: (i) Representation Autoencoder (RAE) bietet eine optimale vereinheitlichte visuelle Repräsentation, indem er sowohl visuelles Verständnis als auch Generierung hervorragend beherrscht; (ii) visuelle und Sprachdaten ergänzen sich und erzeugen Synergie für nachgelagerte Fähigkeiten; (iii) vereinheitlichtes multimodales Pretraining führt natürlich zu Weltmodellierung, wobei Fähigkeiten aus dem allgemeinen Training emergieren; und (iv) Mixture-of-Experts (MoE) ermöglicht effizientes und effektives multimodales Skalieren und induziert natürlich Modalspezialisierung. Durch IsoFLOP-Analyse berechnen wir Skalierungsgesetze für beide Modalitäten und decken eine Skalierungsasymmetrie auf: Vision ist deutlich datenhungriger als Sprache. Wir demonstrieren, dass die MoE-Architektur diese Skalierungsasymmetrie harmonisiert, indem sie die für Sprache erforderliche hohe Modellkapazität bereitstellt und gleichzeitig den datenintensiven Charakter der Vision berücksichtigt, was den Weg für wirklich vereinheitlichte multimodale Modelle ebnet.

UniG2U-Bench: Fördern vereinheitlichte Modelle das multimodale Verständnis?
UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

Mar 3

ByZimo Wen, Boxiu Li, Wanbo Zhang, Junxiang Lei, Xiaoyu Chen, Yijia Fan, Qi Zhang, Yujiang Wang, Lili Qiu, Bo Li, Ziwei Liu, Caihua Shan, Yifan Yang, Yifei Shen

Einheitliche multimodale Modelle haben kürzlich starke generative Fähigkeiten demonstriert, doch ob und wann Generierung das Verständnis verbessert, bleibt unklar. Bestehende Benchmarks fehlen eine systematische Untersuchung der spezifischen Aufgaben, bei denen Generierung das Verständnis erleichtert. Zu diesem Zweck führen wir UniG2U-Bench ein, einen umfassenden Benchmark, der die Generierung-zu-Verständnis (G2U)-Evaluation in 7 Regime und 30 Teilaufgaben kategorisiert und unterschiedliche Grade impliziter oder expliziter visueller Transformationen erfordert. Eine umfangreiche Evaluierung von über 30 Modellen zeigt drei zentrale Erkenntnisse: 1) Einheitliche Modelle schneiden generell schlechter ab als ihre Basis-Vision-Sprache-Modelle (VLMs), und Generate-then-Answer (GtA)-Inferenz verschlechtert typischerweise die Leistung im Vergleich zur direkten Inferenz. 2) Konsistente Verbesserungen zeigen sich bei Teilaufgaben zu räumlicher Intelligenz, visuellen Illusionen oder mehrstufigem Reasoning, bei denen erweiterte räumliche und Formwahrnehmung sowie mehrstufige Zwischenbildzustände vorteilhaft sind. 3) Aufgaben mit ähnlichen Reasoning-Strukturen und Modelle mit gemeinsamen Architekturen zeigen korrelierte Verhaltensmuster, was darauf hindeutet, dass die Generierung-Verständnis-Kopplung klassenkonsistente induktive Verzerrungen über Aufgaben, Vortrainingsdaten und Modellarchitekturen induziert. Diese Erkenntnisse unterstreichen die Notwendigkeit diverserer Trainingsdaten und neuartiger Paradigmen, um das Potenzial einheitlicher multimodaler Modellierung vollständig zu erschließen.

Qwen3-Coder-Next Technischer Bericht
Qwen3-Coder-Next Technical Report

Feb 28

ByRuisheng Cao, Mouxiang Chen, Jiawei Chen, Zeyu Cui, Yunlong Feng, Binyuan Hui, Yuheng Jing, Kaixin Li, Mingze Li, Junyang Lin, Zeyao Ma, Kashun Shum, Xuwu Wang, Jinxi Wei, Jiaxi Yang, Jiajun Zhang, Lei Zhang, Zongmeng Zhang, Wenting Zhao, Fan Zhou

Wir stellen Qwen3-Coder-Next vor, ein Open-Weight-Sprachmodell, das speziell für Coding-Agenten entwickelt wurde. Qwen3-Coder-Next ist ein Modell mit 80 Milliarden Parametern, von dem während des Inferenzvorgangs nur 3 Milliarden Parameter aktiviert werden, was eine hohe Code-Fähigkeit bei effizienter Inferenz ermöglicht. In dieser Arbeit untersuchen wir, wie weit leistungsstarke Trainingsverfahren die Fähigkeitsgrenzen von Modellen mit kleinem Parameter-Footprint verschieben können. Dazu führen wir agentisches Training durch großskalige Synthese verifizierbarer Coding-Aufgaben in Kombination mit ausführbaren Umgebungen durch, was Lernen direkt aus Umgebungsfeedback mittels Mid-Training und Reinforcement Learning ermöglicht. In agentenzentrierten Benchmarks wie SWE-Bench und Terminal-Bench erzielt Qwen3-Coder-Next eine wettbewerbsfähige Leistung im Verhältnis zu seiner aktiven Parameteranzahl. Wir veröffentlichen sowohl Basis- als auch instruktionsfeinabgestimmte Open-Weight-Versionen, um die Forschung und die Entwicklung praktischer Coding-Agenten zu unterstützen.

BeyondSWE: Können aktuelle Code-Agenten mehr als Fehlerbehebungen in einzelnen Repositories bewältigen?
BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

Mar 3

ByGuoxin Chen, Fanzhe Meng, Jiale Zhao, Minghao Li, Daixuan Cheng, Huatong Song, Jie Chen, Yuzhi Lin, Hui Chen, Xin Zhao, Ruihua Song, Chang Liu, Cheng Chen, Kai Jia, Ji-Rong Wen

Aktuelle Benchmarks für Code-Agenten bewerten hauptsächlich eng gefasste, repositoriespezifische Korrekturen und übersehen dabei kritische Herausforderungen der realen Welt, wie repositoryübergreifendes Denken, domänenspezifische Problemlösung, abhängigkeitsgetriebene Migration und die Generierung vollständiger Repositories. Um diese Lücke zu schließen, führen wir BeyondSWE ein, einen umfassenden Benchmark, der bestehende Evaluationen entlang zweier Achsen erweitert – Auflösungsbereich und Wissensbereich – unter Verwendung von 500 realen Instanzen aus vier verschiedenen Settings. Experimentelle Ergebnisse zeigen eine erhebliche Fähigkeitslücke: Selbst Spitzenmodelle stagnieren unterhalb von 45 % Erfolgsquote, und kein einziges Modell schneidet konsistent über alle Aufgabentypen hinweg gut ab. Um die Rolle von externem Wissen systematisch zu untersuchen, entwickeln wir SearchSWE, ein Framework, das tiefgehende Suche mit Programmierfähigkeiten integriert. Unsere Experimente zeigen, dass suchbasierte Erweiterung inkonsistente Verbesserungen bringt und in einigen Fällen die Leistung sogar verschlechtern kann, was die Schwierigkeit unterstreicht, entwicklerähnliche Workflows nachzubilden, die Suche und logisches Denken während Programmieraufgaben verzahnen. Diese Arbeit bietet sowohl einen realistischen, anspruchsvollen Evaluationsmaßstab als auch ein flexibles Framework, um die Forschung hin zu leistungsfähigeren Code-Agenten voranzutreiben.

Jenseits der Längenskalierung: Synergie von Breite und Tiefe für generative Belohnungsmodelle
Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models

Mar 2

ByQiyuan Zhang, Yufei Wang, Tianhe Wu, Can Xu, Qingfeng Sun, Kai Zheng, Xue Liu, Chen Ma

Jüngste Fortschritte bei Generativen Belohnungsmodellen (GRMs) haben gezeigt, dass die Skalierung der Länge von Chain-of-Thought (CoT)-Argumentation die Zuverlässigkeit der Bewertung erheblich verbessert. Allerdings stützen sich aktuelle Arbeiten überwiegend auf unstrukturierte Längenskalierung und ignorieren die unterschiedliche Wirksamkeit verschiedener Argumentationsmechanismen: Breiten-CoT (B-CoT, d.h. mehrdimensionale Prinzipienabdeckung) und Tiefen-CoT (D-CoT, d.h. substanzielle Urteilsstichhaltigkeit). Um dies zu adressieren, führen wir Mix-GRM ein, ein Framework, das Rohrationalen durch eine modulare Synthese-Pipeline in strukturiertes B-CoT und D-CoT rekonfiguriert und anschließend Supervised Fine-Tuning (SFT) und Reinforcement Learning with Verifiable Rewards (RLVR) einsetzt, um diese Mechanismen zu internalisieren und zu optimieren. Umfassende Experimente belegen, dass Mix-GRM einen neuen State-of-the-Art auf fünf Benchmarks etabliert und führende Open-Source-RMs im Durchschnitt um 8,2 % übertrifft. Unsere Ergebnisse zeigen eine klare Divergenz in der Argumentation: B-CoT profitiert subjektive Präferenzaufgaben, während D-CoT bei objektiven Korrektheitsaufgaben überzeugt. Folglich verschlechtert eine Fehlausrichtung des Argumentationsmechanismus mit der Aufgabe direkt die Leistung. Darüber hinaus demonstrieren wir, dass RLVR als Schaltverstärker wirkt und eine emergente Polarisierung induziert, bei der das Modell spontan seinen Argumentationsstil zur Erfüllung der Aufgabenanforderungen zuteilt. Die synthetisierten Daten und Modelle sind unter https://huggingface.co/collections/DonJoey/mix-grm veröffentlicht, und der Code ist unter https://github.com/Don-Joey/Mix-GRM verfügbar.

Kling-MotionControl Technischer Bericht
Kling-MotionControl Technical Report

Mar 3

ByKling Team, Jialu Chen, Yikang Ding, Zhixue Fang, Kun Gai, Kang He, Xu He, Jingyun Hua, Mingming Lao, Xiaohan Li, Hui Liu, Jiwen Liu, Xiaoqiang Liu, Fan Shi, Xiaoyu Shi, Peiqin Sun, Songlin Tang, Pengfei Wan, Tiancheng Wen, Zhiyong Wu, Haoxian Zhang, Runze Zhao, Yuanxing Zhang, Yan Zhou

Charakteranimation zielt darauf ab, lebensechte Videos zu erzeugen, indem Bewegungdynamik aus einem Antriebsvideo auf ein Referenzbild übertragen wird. Jüngste Fortschritte bei generativen Modellen haben den Weg für hochwertige Charakteranimation geebnet. In dieser Arbeit stellen wir Kling-MotionControl vor, einen vereinheitlichten, auf DiT basierenden Rahmen, der speziell für robuste, präzise und ausdrucksstarke ganzheitliche Charakteranimation entwickelt wurde. Indem das Modell eine Divide-and-Conquer-Strategie innerhalb eines kohäsiven Systems nutzt, orchestriert es heterogene Bewegungsrepräsentationen, die auf die distinkten Eigenschaften von Körper, Gesicht und Händen zugeschnitten sind, und schafft so einen effektiven Ausgleich zwischen großmaßstäblicher struktureller Stabilität und feingranularer artikulatorischer Ausdruckskraft. Um eine robuste generalisierbarkeit über verschiedene Identitäten hinweg zu gewährleisten, integrieren wir adaptives, identitätsagnostisches Lernen, das eine natürliche Bewegungsübertragung für diverse Charaktere – von realistischen Menschen bis hin zu stilisierten Cartoons – ermöglicht. Gleichzeitig gewährleisten wir eine originalgetreue Darstellungserhaltung durch sorgfältig gestaltete Identitätsinjektions- und Fusionsmechanismen, die zusätzlich durch einen Subjektbibliotheksmechanismus unterstützt werden, der umfassende Referenzkontexte nutzt. Um die praktische Anwendbarkeit sicherzustellen, implementieren wir ein fortschrittliches Beschleunigungsframework, das mehrstufige Distillation nutzt und die Inferenzgeschwindigkeit um mehr als das 10-fache steigert. Kling-MotionControl zeichnet sich durch intelligentes semantisches Bewegungsverständnis und präzise Textsteuerung aus, was eine flexible Kontrolle über visuelle Eingaben hinaus ermöglicht. Bewertungen durch menschliche Präferenzen zeigen, dass Kling-MotionControl eine überlegene Leistung im Vergleich zu führenden kommerziellen und Open-Source-Lösungen erbringt und dabei außergewöhnliche Treue in der ganzheitlichen Bewegungssteuerung, Generalisierung in offenen Domänen sowie visueller Qualität und Kohärenz erreicht. Diese Ergebnisse etablieren Kling-MotionControl als eine robuste Lösung für hochwertige, steuerbare und lebensechte Charakteranimation.

Wie kontrollierbar sind große Sprachmodelle? Eine einheitliche Evaluation über Verhaltensgranularitäten hinweg
How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

Mar 3

ByZiwen Xu, Kewei Xu, Haoming Xu, Haiwen Hong, Longtao Huang, Hui Xue, Ningyu Zhang, Yongliang Shen, Guozhou Zheng, Huajun Chen, Shumin Deng

Große Sprachmodelle (LLMs) werden zunehmend in sozial sensiblen Bereichen eingesetzt, doch ihre unvorhersehbaren Verhaltensweisen – von fehlausgerichteten Absichten bis hin zu inkonsistenter Persönlichkeit – bergen erhebliche Risiken. Wir stellen SteerEval vor, einen hierarchischen Benchmark zur Bewertung der Steuerbarkeit von LLMs in drei Bereichen: Sprachmerkmale, Sentiment und Persönlichkeit. Jeder Bereich ist in drei Spezifikationsebenen strukturiert: L1 (was ausgedrückt werden soll), L2 (wie es ausgedrückt werden soll) und L3 (wie es instanziiert werden soll), die hochrangige Verhaltensabsichten mit konkreter textueller Ausgabe verbinden. Mit SteerEval evaluieren wir systematisch zeitgenössische Steuerungsmethoden und zeigen, dass die Kontrolle auf feiner granularen Ebenen oft abnimmt. Unser Benchmark bietet einen prinzipienbasierten und interpretierbaren Rahmen für sicheres und steuerbares LLM-Verhalten und dient als Grundlage für zukünftige Forschung.

Kiwi-Edit: Vielseitige Videobearbeitung durch Anweisungs- und Referenzanleitung
Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Mar 2

ByYiqi Lin, Guoqiang Liang, Ziyun Zeng, Zechen Bai, Yanzhe Chen, Mike Zheng Shou

Instruktionsbasierte Videobearbeitung hat rasante Fortschritte erzielt, doch aktuelle Methoden kämpfen oft mit präziser visueller Steuerung, da natürliche Sprache von Natur aus eingeschränkt ist, um komplexe visuelle Nuancen zu beschreiben. Obwohl referenzgesteuerte Bearbeitung eine robuste Lösung bietet, wird ihr Potenzial derzeit durch die Knappheit an hochwertigen gepaarten Trainingsdaten begrenzt. Um diese Lücke zu schließen, führen wir eine skalierbare Daten-Generierungspipeline ein, die bestehende Videobearbeitungspaare unter Nutzung von Bildgenerierungsmodellen zu hochwertigen Trainingsquadrupeln veredelt und synthetische Referenzgerüste erstellt. Mit dieser Pipeline konstruieren wir RefVIE, einen großen Datensatz, der für Instruktions-Referenz-Following-Aufgaben maßgeschneidert ist, und etablieren RefVIE-Bench für eine umfassende Evaluation. Des Weiteren schlagen wir eine vereinheitlichte Bearbeitungsarchitektur, Kiwi-Edit, vor, die lernbare Abfragen und latente visuelle Merkmale zur Referenzsemantikführung synergetisch kombiniert. Unser Modell erzielt signifikante Verbesserungen in der Befolgung von Anweisungen und der Referenztreue durch einen progressiven mehrstufigen Trainingsplan. Umfangreiche Experimente belegen, dass unsere Daten und Architektur einen neuen State-of-the-Art in der kontrollierbaren Videobearbeitung etablieren. Alle Datensätze, Modelle und Codes sind unter https://github.com/showlab/Kiwi-Edit verfügbar.

Nächste Einbettungsvorhersage macht Weltmodelle stärker
Next Embedding Prediction Makes World Models Stronger

Mar 3

ByGeorge Bredis, Nikita Balagansky, Daniil Gavrilov, Ruslan Rakhimov

Die Erfassung zeitlicher Abhängigkeiten ist entscheidend für modellbasierte Verstärkungslernen (MBRL) in teilweise beobachtbaren, hochdimensionalen Domänen. Wir stellen NE-Dreamer vor, einen dekodiererfreien MBRL-Agenten, der einen temporalen Transformer nutzt, um Encoder-Einbettungen für den nächsten Schritt aus latenten Zustandssequenzen vorherzusagen und dabei die zeitliche prädiktive Ausrichtung im Repräsentationsraum direkt optimiert. Dieser Ansatz ermöglicht es NE-Dreamer, kohärente, vorhersagende Zustandsrepräsentationen ohne Rekonstruktionsverluste oder zusätzliche Supervision zu erlernen. Auf der DeepMind Control Suite erreicht NE-Dreamer eine vergleichbare oder bessere Leistung als DreamerV3 und führende dekodiererfreie Agenten. Auf einer anspruchsvollen Teilmenge von DMLab-Aufgaben, die Gedächtnis und räumliches Schlussfolgern erfordern, erzielt NE-Dreamer erhebliche Verbesserungen. Diese Ergebnisse etablieren die Next-Embedding-Vorhersage mit temporalen Transforms als effektives, skalierbares Framework für MBRL in komplexen, teilweise beobachtbaren Umgebungen.

PRISM: Erweiterung der Grenzen des tiefen Denkens durch prozessgesteuerte Inferenz mit Belohnungsmodellen
PRISM: Pushing the Frontier of Deep Think via Process Reward Model-Guided Inference

Mar 3

ByRituraj Sharma, Weiyuan Chen, Noah Provenzano, Tu Vu

DEEPTHINK-Methoden verbessern das Reasoning durch die Generierung, Verfeinerung und Aggregation von Populationen von Kandidatenlösungen, was eine hohe Leistung bei komplexen mathematischen und wissenschaftlichen Aufgaben ermöglicht. Bestehende Frameworks verfügen während des Inferenzprozesses jedoch oft nicht über zuverlässige Korrektheitssignale, was zu einem Population-Verbesserungs-Flaschenhals führt, bei dem tiefergehende Deliberation Fehler verstärkt, korrekte Minderheitenlösungen unterdrückt und nur schwache Erträge für zusätzlichen Rechenaufwand liefert. In diesem Artikel führen wir eine funktionale Zerlegung von DEEPTHINK-Systemen ein und schlagen PRISM vor, einen Inferenzalgorithmus, der von einem Process Reward Model (PRM) geleitet wird und schrittweise Verifikation zur Führung sowohl der Populationsverfeinerung als auch der Lösungsaggregation nutzt. Während der Verfeinerung behandelt PRISM Kandidatenlösungen als Partikel in einer PRM-definierten Energielandschaft und formt die Population durch bewertungsgesteuertes Resampling und stochastische Verfeinerung um, wodurch die Wahrscheinlichkeitsmasse auf höherwertige Reasoning-Pfade konzentriert wird, während die Diversität erhalten bleibt. In mathematischen und wissenschaftlichen Benchmarks ist PRISM mit bestehenden DEEPTHINK-Methoden wettbewerbsfähig oder übertrifft diese, erreicht 90,0 %, 75,4 % bzw. 71,4 % mit gpt-oss-20b auf AIME25, HMMT25 und GPQA Diamond und erreicht oder übertrifft dabei gpt-oss-120b. Darüber hinaus zeigt unsere Analyse, dass PRISM während der Verfeinerung eine konsistente netto-richtungsweise Korrektur bewirkt, zuverlässig bleibt, wenn die Ausgangspopulation nur wenige korrekte Kandidaten enthält, und oft auf der Compute-Genauigkeits-Pareto-Front liegt.

Code2Math: Kann Ihr Code-Agent Mathematikprobleme durch Exploration effektiv weiterentwickeln?
Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

Mar 3

ByDadi Guo, Yuejin Xie, Qingyu Liu, Jiayu Liu, Zhiyuan Fan, Qihan Ren, Shuai Shao, Tianyi Zhou, Dongrui Liu, Yi R. Fung

Mit der Weiterentwicklung der mathematischen Fähigkeiten großer Sprachmodelle (LLMs) auf das Niveau der Internationalen Mathematik-Olympiade (IMO) ist die Knappheit an anspruchsvollen, hochwertigen Problemen für Training und Evaluation zu einem erheblichen Engpass geworden. Gleichzeitig haben neuere Code-Agenten anspruchsvolle Fähigkeiten im agentenbasierten Programmieren und logischen Schließen demonstriert, was darauf hindeutet, dass Code-Ausführung als skalierbare Umgebung für mathematische Experimente dienen kann. In dieser Arbeit untersuchen wir das Potenzial von Code-Agenten, bestehende mathematische Probleme autonom zu komplexeren Variationen weiterzuentwickeln. Wir stellen ein Multi-Agenten-Framework vor, das entwickelt wurde, um Problemevolution durchzuführen und dabei die Lösbarkeit sowie den erhöhten Schwierigkeitsgrad der generierten Probleme zu validieren. Unsere Experimente zeigen, dass Code-Agenten bei ausreichender Exploration zur Testzeit neue, lösbare Probleme synthetisieren können, die sich strukturell von den Originalen unterscheiden und anspruchsvoller sind. Diese Arbeit liefert empirische Belege dafür, dass codegesteuerte Agenten als praktikabler Mechanismus zur Synthese von mathematischen Denkproblemen mit hohem Schwierigkeitsgrad in skalierbaren Rechenumgebungen dienen können. Unsere Daten sind unter https://github.com/TarferSoul/Code2Math verfügbar.

Menschen und LLMs weichen bei probabilistischen Inferenzen voneinander ab
Humans and LLMs Diverge on Probabilistic Inferences

Feb 26

ByGaurav Kamath, Sreenath Madathil, Sebastian Schuster, Marie-Catherine de Marneffe, Siva Reddy

Menschliches Denken beinhaltet oft das Verarbeiten begrenzter Informationen, um zu probabilistischen Schlussfolgerungen zu gelangen. In seiner einfachsten Form bedeutet dies, eine Schlussfolgerung zu ziehen, die nicht strikt aus einer Prämisse folgt, sondern nur wahrscheinlich ist, gegeben die Prämisse. Während reasoning-fähige LLMs bei logischen und mathematischen Aufgaben starke Leistungen gezeigt haben, ist ihr Verhalten bei solchen offenen, nicht-deterministischen Schlussfolgerungen weitgehend unerforscht. Wir stellen ProbCOPA vor, einen Datensatz mit 210 handgefertigten probabilistischen Schlussfolgerungen auf Englisch, die jeweils von 25–30 menschlichen Teilnehmern hinsichtlich der Wahrscheinlichkeit der Schlussfolgerung annotiert wurden. Wir stellen fest, dass die menschlichen Antworten abgestuft und vielfältig sind und probabilistische Urteile über die Schlussfolgerungen in unserem Datensatz offenbaren. Ein Vergleich dieser Urteile mit den Antworten von acht state-of-the-art reasoning-LLMs zeigt, dass die Modelle durchweg nicht in der Lage sind, menschenähnliche Verteilungen zu erzeugen. Schließlich finden wir durch die Analyse der LLM-Begründungsketten Hinweise auf ein gemeinsames Denkmuster, das zur Bewertung solcher Schlussfolgerungen verwendet wird. Unsere Ergebnisse zeigen anhaltende Unterschiede zwischen Menschen und LLMs auf und unterstreichen die Notwendigkeit, Denkprozesse über deterministische Settings hinaus zu bewerten.

Lernen, wann zu handeln oder abzulehnen ist: Absicherung agentenbasierter Reasoning-Modelle für sichere mehrstufige Werkzeugnutzung
Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

Mar 3

ByAradhye Agarwal, Gurdit Siyan, Yash Pandya, Joykirat Singh, Akshay Nambi, Ahmed Awadallah

Agentische Sprachmodelle operieren in einem grundlegend anderen Sicherheitsregime als Chat-Modelle: Sie müssen planen, Werkzeuge aufrufen und langfristige Aktionen ausführen, bei denen bereits ein einziger Fehltritt – wie der Zugriff auf Dateien oder die Eingabe von Anmeldedaten – irreparablen Schaden verursachen kann. Bestehende Alignment-Methoden, die weitgehend für statische Generierung und Aufgabenabschluss optimiert sind, versagen in diesen Szenarien aufgrund sequenzieller Entscheidungsfindung, adversarieller Werkzeugrückmeldungen und übermütiger Zwischenargumentation. Wir stellen MOSAIC vor, ein Post-Training-Framework, das Agenten für die sichere Nutzung von Werkzeugen in mehreren Schritten aligniert, indem es Sicherheitsentscheidungen explizit und erlernbar macht. MOSAIC strukturiert den Inferenzprozess als einen Planen-Prüfen-Dann-Handeln-oder-Verweigern-Zyklus, mit expliziter Sicherheitsabwägung und Verweigerung als gleichberechtigte Aktionen. Für das Training ohne Trajektorien-Labels verwenden wir präferenzbasiertes Reinforcement Learning mit paarweisen Trajektorienvergleichen, das Sicherheitsunterschiede erfasst, die von skalaren Belohnungssignalen oft übersehen werden. Wir evaluieren MOSAIC Zero-Shot über drei Modellfamilien hinweg – Qwen2.5-7B, Qwen3-4B-Thinking und Phi-4 – sowie über Out-of-Distribution-Benchmarks, die schädliche Aufgaben, Prompt-Injection, harmlose Werkzeugnutzung und domänenübergreifende Datenschutzlecks abdecken. MOSAIC reduziert schädliches Verhalten um bis zu 50 %, steigert die Verweigerung schädlicher Aufgaben bei Injectionsangriffen um über 20 %, verringert Datenschutzlecks und erhält oder verbessert die Leistung bei harmlosen Aufgaben, was eine robuste Generalisierung über Modelle, Domänen und agentische Settings hinweg demonstriert.

Track4World: Vorwärtsgerichtete weltzentrische dichte 3D-Verfolgung aller Pixel
Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

Mar 3

ByJiahao Lu, Jiayi Xu, Wenbo Hu, Ruijie Zhu, Chengfeng Zhao, Sai-Kit Yeung, Ying Shan, Yuan Liu

Die Schätzung der 3D-Trajektorie jedes Pixels aus einem monokularen Video ist entscheidend und vielversprechend für ein umfassendes Verständnis der 3D-Dynamik von Videos. Aktuelle Arbeiten zur monokularen 3D-Nachverfolgung zeigen beeindruckende Leistungen, sind jedoch entweder auf die Nachverfolgung spärlicher Punkte im ersten Frame oder auf einen langsamen, optimierungsbasierten Rahmen für die dichte Nachverfolgung beschränkt. In diesem Artikel stellen wir ein Vorwärtsmodell namens Track4World vor, das eine effiziente, ganzheitliche 3D-Nachverfolgung jedes Pixels im weltzentrierten Koordinatensystem ermöglicht. Aufbauend auf der globalen 3D-Szenendarstellung, die von einem VGGT-artigen ViT kodiert wird, wendet Track4World ein neuartiges 3D-Korrelationsschema an, um gleichzeitig den pixelweisen 2D- und 3D-Dichtenfluss zwischen beliebigen Frame-Paaren zu schätzen. Der geschätzte Szenenfluss ermöglicht zusammen mit der rekonstruierten 3D-Geometrie eine anschließend effiziente 3D-Nachverfolgung jedes Pixels dieses Videos. Umfangreiche Experimente auf mehreren Benchmarks zeigen, dass unser Ansatz bestehende Methoden in der 2D/3D-Fluss-Schätzung und 3D-Nachverfolgung konsequent übertrifft, was seine Robustheit und Skalierbarkeit für 4D-Rekonstruktionsaufgaben in der realen Welt unterstreicht.

Verlorene Energie in großen Sprachmodellen
Spilled Energy in Large Language Models

Feb 21

ByAdrian Robert Minut, Hazem Dewidar, Iacopo Masi

Wir interpret den finalen Softmax-Klassifikator eines Large Language Model (LLM) neu als Energy-Based Model (EBM) und zerlegen die Sequenz-zu-Sequenz-Wahrscheinlichkeitskette während des Inferenzvorgangs in mehrere interagierende EBMs. Dieser prinzipiengeleitete Ansatz ermöglicht es uns, „Energieverluste“ (Energy Spills) während der Decodierung zu verfolgen, von denen wir empirisch zeigen, dass sie mit faktischen Fehlern, Verzerrungen und Fehlschlägen korrelieren. Ähnlich wie bei Orgad et al. (2025) lokalisiert unsere Methode das exakte Antwort-Token und prüft anschließend auf Halluzinationen. Entscheidend ist jedoch, dass wir dies ohne trainierte Probe-Klassifikatoren oder Aktivierungsablationen erreichen. Stattdessen führen wir zwei vollständig trainingsfreie Metriken ein, die direkt aus den Ausgabe-Logits abgeleitet werden: die *Spilled Energy*, die die Diskrepanz zwischen Energie-Werten aufeinanderfolgender Generierungsschritte erfasst, die theoretisch übereinstimmen sollten, und die *Marginalized Energy*, die in einem einzelnen Schritt messbar ist. Evaluierungen auf neun Benchmarks mit state-of-the-art LLMs (einschließlich LLaMA, Mistral und Gemma) sowie an synthetischen algebraischen Operationen (Qwen3) zeigen, dass unser Ansatz eine robuste, wettbewerbsfähige Halluzinationserkennung und generalisierungsfähige Übertragbarkeit über Aufgaben hinweg ermöglicht. Bemerkenswerterweise gelten diese Ergebnisse sowohl für vortrainierte als auch für instruction-tuned Varianten, ohne zusätzlichen Trainingsaufwand zu verursachen. Code verfügbar unter: github.com/OmnAI-Lab/spilled-energy

Chirurgische Nachqualifikation: Fehler reduzieren, Wissen erhalten
Surgical Post-Training: Cutting Errors, Keeping Knowledge

Mar 2

ByWenye Lin, Kai Han

Die Verbesserung der Reasoning-Fähigkeiten von Large Language Models (LLMs) durch Post-Training wird häufig durch den Zielkonflikt zwischen Effizienz und katastrophalem Vergessen eingeschränkt. Während frühere Forschung die Rolle von On-Policy-Daten zur Minderung von Vergessen betont, entdecken wir – und validieren dies sowohl theoretisch als auch empirisch – einen übersehenen, jedoch kritischen Mechanismus: die implizite Regularisierung, die der Reward-Schätzung von Direct Preference Optimization (DPO) innewohnt. Dies motiviert unser Surgical Post-Training (SPoT), ein neues Paradigma, das entwickelt wurde, um Reasoning effizient zu optimieren und gleichzeitig erlerntes Vorwissen zu bewahren. SPoT besteht aus: (1) einer Datenbereinigungs-Pipeline, die ein Oracle einsetzt, um fehlerhafte Schritte durch minimale Bearbeitung gezielt zu korrigieren und so datennahe Daten zur Modellverteilung zu generieren; und (2) einem reward-basierten binären Kreuzentropie-Ziel. Im Gegensatz zur relativen Rangfolge in DPO behandelt dieses Ziel die Korrektheit des Reasonings als binäres Klassifikationsproblem und erzwingt entkoppelte Überwachungssignale. Empirisch verbessert SPoT mit nur 4.000 bereinigten Mathematik-Datenpaaren die Genauigkeit von Qwen3-8B im Durchschnitt um 6,2 % bei In-Domain- und OOD-Aufgaben und erfordert lediglich 28 Minuten Training auf 8x H800-GPUs. Code: https://github.com/Visual-AI/SPoT

BBQ-to-Image: Numerische Begrenzungsrahmen und Farbsteuerung in großskaligen Text-zu-Bild-Modellen
BBQ-to-Image: Numeric Bounding Box and Qolor Control in Large-Scale Text-to-Image Models

Feb 24

ByEliran Kachlon, Alexander Visheratin, Nimrod Sarid, Tal Hacham, Eyal Gutflaish, Saar Huberman, Hezi Zisman, David Ruppin, Ron Mokady

Text-to-Image-Modelle haben in Bezug auf Realismus und Steuerbarkeit rasante Fortschritte gemacht, wobei neuere Ansätze lange, detaillierte Beschreibungen nutzen, um feingranulare Generierung zu unterstützen. Dennoch bleibt eine fundamentale parametrische Lücke bestehen: Bestehende Modelle stützen sich auf beschreibende Sprache, während professionelle Workflows eine präzise numerische Kontrolle über Objektposition, -größe und -farbe erfordern. In dieser Arbeit stellen wir BBQ vor, ein großskaliges Text-to-Image-Modell, das direkt auf numerische Begrenzungsrahmen und RGB-Tripel innerhalb eines einheitlichen strukturierten Textframeworks konditioniert. Wir erreichen präzise räumliche und chromatische Kontrolle durch Training mit Beschreibungen, die mit parametrischen Annotationen angereichert sind, ohne architektonische Modifikationen oder Optimierung zur Inferenzzeit. Dies ermöglicht auch intuitive Benutzeroberflächen wie Objektziehen und Farbwähler, die mehrdeutiges, iteratives Prompting durch präzise, vertraute Steuerelemente ersetzen. In umfassenden Evaluationen erreicht BBQ eine starke Ausrichtung an Begrenzungsrahmen und verbessert die RGB-Farbtreue gegenüber state-of-the-art Baseline-Modellen. Im weiteren Sinne unterstützen unsere Ergebnisse ein neues Paradigma, bei dem Benutzerabsicht in eine intermediäre strukturierte Sprache übersetzt wird, die von einem flow-basierten Transformer als Renderer konsumiert wird und numerische Parameter natürlich integriert.

InfoPO: Informationsgesteuerte Politikoptimierung für nutzerzentrierte Agenten
InfoPO: Information-Driven Policy Optimization for User-Centric Agents

Feb 28

ByFanqi Kong, Jiayi Zhang, Mingyi Deng, Chenglin Wu, Yuyu Luo, Bang Liu

Echtwelt-Anfragen von Nutzern an LLM-Agenten sind häufig unvollständig spezifiziert. Agenten müssen interagieren, um fehlende Informationen zu erlangen und korrekte nachgelagerte Entscheidungen zu treffen. Allerdings stützen sich aktuelle Methoden auf Multi-Turn-GRPO oft auf trajektorienbasierte Belohnungsberechnung, was zu Kreditzuweisungsproblemen und unzureichenden Advantage-Signalen innerhalb von Rollout-Gruppen führt. Ein praktikabler Ansatz ist die feingranulare Identifikation wertvoller Interaktionsrunden, um gezielteres Lernen zu ermöglichen. Hierfür führen wir InfoPO (Information-Driven Policy Optimization) ein, das Multi-Turn-Interaktion als Prozess aktiver Unsicherheitsreduktion modelliert und eine Informationsgewinn-Belohnung berechnet. Diese belohnt Interaktionsrunden, deren Rückmeldung die nachfolgende Aktionsverteilung des Agenten im Vergleich zu einer kontrafaktischen Masked-Feedback-Bedingung messbar verändert. Das Signal wird anschließend via adaptiver varianzgesteuerter Fusion mit Aufgabenresultaten kombiniert, um Informationsrelevanz zu bewerten bei gleichzeitiger Beibehaltung der aufgabenorientierten Zielausrichtung. In diversen Aufgaben – einschließlich Intent-Clarification, kollaborativer Programmierung und tool-gestützter Entscheidungsfindung – übertrifft InfoPO durchgängig Prompting- und Multi-Turn-RL-Baselines. Es zeigt zudem Robustheit bei Nutzersimulator-Verschiebungen und generalisiert effektiv auf umgebungsinteraktive Aufgaben. Insgesamt bietet InfoPO einen prinzipienbasierten und skalierbaren Mechanismus zur Optimierung komplexer Agent-Nutzer-Kollaboration. Code ist verfügbar unter https://github.com/kfq20/InfoPO.

NOVA: Sparsesteuerung, dichte Synthese für paarfreie Videobearbeitung
NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing

Mar 3

ByTianlin Pan, Jiayi Dai, Chenpu Yuan, Zhengyao Lv, Binxin Yang, Hubery Yin, Chen Li, Jing Lyu, Caifeng Shan, Chenyang Si

Aktuelle Videobearbeitungsmodelle haben beeindruckende Ergebnisse erzielt, doch die meisten benötigen nach wie vor umfangreiche gepaarte Datensätze. Die Sammlung solcher natürlich ausgerichteter Paare in großem Maßstab bleibt äußerst schwierig und stellt einen kritischen Engpass dar, insbesondere für lokale Videobearbeitungsdaten. Bestehende Lösungsansätze übertragen Bildbearbeitung auf Video durch globale Bewegungssteuerung für paarfreie Videobearbeitung, doch solche Konzepte kämpfen mit Hintergrund- und zeitlicher Konsistenz. In diesem Artikel stellen wir NOVA vor: Sparse Control & Dense Synthesis, ein neues Framework für ungepaarte Videobearbeitung. Konkret liefert der sparse Zweig semantische Führung durch benutzerbearbeitete Keyframes, die über das Video verteilt sind, während der dense Zweig kontinuierlich Bewegungs- und Texturinformationen aus dem Originalvideo integriert, um hohe Wiedergabetreue und Kohärenz zu erhalten. Darüber hinaus führen wir eine Trainingsstrategie zur Degradationssimulation ein, die es dem Modell ermöglicht, Bewegungsrekonstruktion und zeitliche Konsistenz durch Training an künstlich verschlechterten Videos zu erlernen, wodurch der Bedarf an gepaarten Daten entfällt. Unsere umfangreichen Experimente zeigen, dass NOVA bestehende Ansätze in Bearbeitungstreue, Bewegungserhaltung und zeitlicher Kohärenz übertrifft.

Kette der Welten: Weltmodell-Denken in latenten Bewegungen
Chain of World: World Model Thinking in Latent Motion

Mar 3

ByFuxiang Yang, Donglin Di, Lulu Tang, Xuancheng Zhang, Lei Fan, Hao Li, Chen Wei, Tonghua Su, Baorui Ma

Vision-Language-Action (VLA)-Modelle sind ein vielversprechender Weg hin zu verkörpertter Intelligenz, vernachlässigen jedoch oft die prädiktive und temporal-kausale Struktur, die visuellen Dynamiken zugrunde liegt. World-Model-VLAs adressieren dies durch die Vorhersage zukünftiger Frames, verschwenden jedoch Kapazität für die Rekonstruktion redundanter Hintergründe. Latent-Action-VLAs kodieren Frame-zu-Frame-Übergänge kompakt, es fehlt ihnen jedoch an zeitlich kontinuierlicher Dynamikmodellierung und Weltwissen. Um diese Einschränkungen zu überwinden, führen wir CoWVLA (Chain-of-World VLA) ein, ein neues „Chain of World“-Paradigma, das die zeitliche Inferenz von World Models mit einer entflochtenen latenten Bewegungsrepräsentation vereint. Zunächst dient ein vortrainiertes Video-VAE als latenter Bewegungsextraktor, der Videosegmente explizit in Struktur- und Bewegungs-Latents faktorisiert. Während des Pre-Trainings lernt das VLA dann, aus einer Instruktion und einem Anfangsframe eine kontinuierliche latente Bewegungskette abzuleiten und den Endframe des Segments vorherzusagen. Schließlich wird während des Co-Fine-Tunings diese latente Dynamik mit diskreter Aktionsvorhersage abgeglichen, indem spärliche Keyframes und Aktionssequenzen gemeinsam in einem einheitlichen autoregressiven Decoder modelliert werden. Dieser Entwurf bewahrt die Vorteile der World Models – temporale Inferenz und Weltwissen – bei gleichzeitiger Beibehaltung der Kompaktheit und Interpretierbarkeit latenter Aktionen und ermöglicht so effizientes visuomotorisches Lernen. Umfangreiche Experimente auf Robotik-Simulations-Benchmarks zeigen, dass CoWVLA bestehende World-Model- und Latent-Action-Ansätze übertrifft und eine moderate Recheneffizienz erreicht, was sein Potenzial als effektiveres VLA-Vortrainingsparadigma unterstreicht. Die Projektwebsite ist unter https://fx-hit.github.io/cowvla-io zu finden.

Auf dem Weg zur Simulation von Social-Media-Nutzern mit LLMs: Bewertung der operationalen Validität konditionierter Kommentarvorhersagen
Towards Simulating Social Media Users with LLMs: Evaluating the Operational Validity of Conditioned Comment Prediction

Feb 26

ByNils Schwager, Simon Münker, Alistair Plum, Achim Rettinger

Der Übergang von Large Language Models (LLMs) von explorativen Werkzeugen zu aktiven "Silizium-Subjekten" in den Sozialwissenschaften entbehrt einer umfassenden Validierung der operationalen Validität. Diese Studie stellt Conditioned Comment Prediction (CCP) vor, eine Aufgabe, bei der ein Modell vorhersagt, wie ein Nutzer auf einen gegebenen Stimulus kommentieren würde, indem generierte Outputs mit authentischen digitalen Spuren verglichen werden. Dieser Rahmen ermöglicht eine rigorose Evaluation der aktuellen Fähigkeiten von LLMs hinsichtlich der Simulation von Social-Media-Nutzerverhalten. Wir evaluierten Open-Weight-8B-Modelle (Llama3.1, Qwen3, Ministral) in englischen, deutschen und luxemburgischen Sprachszenarien. Durch den systematischen Vergleich von Prompting-Strategien (explizit vs. implizit) und der Auswirkung von Supervised Fine-Tuning (SFT) identifizieren wir eine kritische Entkopplung von Form und Inhalt in ressourcenarmen Umgebungen: Während SFT die Oberflächenstruktur der Textausgabe (Länge und Syntax) anpasst, verschlechtert es die semantische Verankerung. Des Weiteren zeigen wir, dass explizite Konditionierung (generierte Biografien) unter Fine-Tuning redundant wird, da Modelle erfolgreich latente Inferenzen direkt aus Verhaltenshistorien ableiten. Unsere Ergebnisse stellen aktuelle "naive Prompting"-Paradigmen in Frage und bieten operative Richtlinien, die authentische Verhaltensspuren gegenüber deskriptiven Personas für hochgradig authentische Simulation priorisieren.

DREAM: Wo visuelles Verständnis auf Text-zu-Bild-Generierung trifft
DREAM: Where Visual Understanding Meets Text-to-Image Generation

Mar 3

ByChao Li, Tianhong Li, Sai Vidyaranya Nuthalapati, Hong-You Chen, Satya Narayan Shukla, Yonghuan Yang, Jun Xiao, Xiangjun Fan, Aashu Singh, Dina Katabi, Shlok Kumar Mishra

Die Vereinheitlichung von visueller Repräsentationslernung und Text-zu-Bild (T2I) Generierung in einem einzigen Modell bleibt eine zentrale Herausforderung im multimodalen Lernen. Wir stellen DREAM vor, einen vereinheitlichten Rahmen, der diskriminative und generative Ziele gemeinsam optimiert und gleichzeitig starke visuelle Repräsentationen erlernt. DREAM basiert auf zwei Schlüsseltechniken: Während des Trainings beginnt Masking Warmup, ein progressiver Maskierungsplan, mit minimaler Maskierung, um die für das Repräsentationslernen notwendige kontrastive Ausrichtung zu etablieren, und geht dann schrittweise zu vollständiger Maskierung für ein stabiles generatives Training über. Zur Inferenzzeit setzt DREAM Semantically Aligned Decoding ein, um teilweise maskierte Bildkandidaten mit dem Zieltext abzugleichen und den besten für die weitere Dekodierung auszuwählen, was die Text-Bild-Treue (+6,3 %) ohne externe Nachsortierung verbessert. Ausschließlich auf CC12M trainiert, erreicht DREAM eine ImageNet Linear-Probing Genauigkeit von 72,7 % (+1,1 % gegenüber CLIP) und einen FID von 4,25 (+6,2 % gegenüber FLUID), mit konsistenten Verbesserungen bei Few-Shot-Klassifikation, semantischer Segmentierung und Tiefenschätzung. Diese Ergebnisse demonstrieren, dass diskriminative und generative Ziele synergetisch wirken können und so vereinheitlichte multimodale Modelle ermöglichen, die sowohl im visuellen Verständnis als auch in der Generierung hervorstechen.

SciDER: Wissenschaftlicher datenzentrierter End-to-End-Forscher
SciDER: Scientific Data-centric End-to-end Researcher

Mar 2

ByKe Lin, Yilin Lu, Shreyas Bhat, Xuehang Guo, Junier Oliva, Qingyun Wang

Automatisierte wissenschaftliche Entdeckung mit großen Sprachmodellen transformiert den Forschungszyklus von der Ideenfindung bis zur Experimentierung, doch bestehende Agenten haben Schwierigkeiten, Rohdaten aus wissenschaftlichen Experimenten autonom zu verarbeiten. Wir stellen SciDER vor, ein datenzentrisches End-to-End-System, das den Forschungszyklus automatisiert. Im Gegensatz zu traditionellen Frameworks analysieren unsere spezialisierten Agenten kollaborativ wissenschaftliche Rohdaten, generieren Hypothesen und experimentelle Designs auf Grundlage spezifischer Datencharakteristiken und schreiben sowie executieren entsprechenden Code. Evaluierungen auf drei Benchmarks zeigen, dass SciDER in spezialisierter datengetriebener wissenschaftlicher Entdeckung exzelliert und generalistische Agenten sowie State-of-the-Art-Modelle durch seinen selbstentwickelnden Speicher und kritikgesteuerte Feedbackschleifen übertrifft. Als modulares Python-Paket verteilt, bieten wir zudem benutzerfreundliche PyPI-Pakete mit einer schlanken Web-Oberfläche an, um autonome, datengetriebene Forschung zu beschleunigen und sie allen Forschern und Entwicklern zugänglich zu machen.

CFG-Ctrl: Steuerungsbasierte klassifikatorfreie Diffusionsführung
CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

Mar 3

ByHanyang Wang, Yiyang Liu, Jiawei Chi, Fangfu Liu, Ran Xue, Yueqi Duan

Classifier-Free Guidance (CFG) hat sich als zentrale Methode zur Verbesserung der semantischen Ausrichtung in flussbasierten Diffusionsmodellen etabliert. In diesem Beitrag untersuchen wir einen vereinheitlichten Rahmen namens CFG-Ctrl, der CFG als eine Steuerung reinterpretiert, die auf den generativen Fluss erster Ordnung in kontinuierlicher Zeit angewendet wird. Dabei dient die Diskrepanz zwischen bedingter und unbedingter Verteilung als Fehlersignal zur Anpassung des Geschwindigkeitsfeldes. Aus dieser Perspektive fassen wir die ursprüngliche CFG als einen Proportionalregler (P-Regler) mit festem Verstärkungsfaktor zusammen, und typische Weiterentwicklungen stellen erweiterte Regelgesetze dar, die davon abgeleitet sind. Bestehende Methoden stützen sich jedoch hauptsächlich auf lineare Regelung, was inhärent zu Instabilität, Überschwingen und verminderter semantischer Treue führt, insbesondere bei hohen Guidance-Skalen. Um dies zu adressieren, führen wir Sliding Mode Control CFG (SMC-CFG) ein, die den generativen Fluss in Richtung einer schnell konvergierenden Gleitfläche zwingt. Konkret definieren wir eine exponentielle Gleitmodusfläche über dem semantischen Vorhersagefehler und führen einen Schaltregelterm ein, um eine nichtlineare, durch Feedback geführte Korrektur zu etablieren. Darüber hinaus liefern wir eine Lyapunov-Stabilitätsanalyse, um die endzeitliche Konvergenz theoretisch zu untermauern. Experimente mit Text-zu-Bild-Generierungsmodellen, darunter Stable Diffusion 3.5, Flux und Qwen-Image, zeigen, dass SMC-CFG die Standard-CFG in puncto semantischer Ausrichtung übertrifft und die Robustheit über einen weiten Bereich von Guidance-Skalen hinweg verbessert. Projektseite: https://hanyang-21.github.io/CFG-Ctrl

QEDBENCH: Quantifizierung der Diskrepanz bei der automatisierten Bewertung mathematischer Beweise auf Universitätsniveau
QEDBENCH: Quantifying the Alignment Gap in Automated Evaluation of University-Level Mathematical Proofs

Feb 24

BySantiago Gonzalez, Alireza Amiri Bavandpour, Peter Ye, Edward Zhang, Ruslans Aleksejevs, Todor Antić, Polina Baron, Sujeet Bhalerao, Shubhrajit Bhattacharya, Zachary Burton, John Byrne, Hyungjun Choi, Nujhat Ahmed Disha, Koppany István Encz, Yuchen Fang, Robert Joseph George, Ebrahim Ghorbani, Alan Goldfarb, Jing Guo, Meghal Gupta, Stefano Huber, Annika Kanckos, Minjung Kang, Hyun Jong Kim, Dino Lorenzini, Levi Lorenzo, Tianyi Mao, Giovanni Marzenta, Ariane M. Masuda, Lukas Mauth, Ana Mickovic, Andres Miniguano-Trujillo, Antoine Moulin, Wenqi Ni, Tomos Parry, Kevin Ren, Hossein Roodbarani, Mathieu Rundström, Manjil Saikia, Detchat Samart, Rebecca Steiner, Connor Stewart, Dhara Thakkar, Jeffrey Tse, Vasiliki Velona, Yunhai Xiang, Sibel Yalçın, Jun Yan, Ji Zeng, Arman Cohan, Quanquan C. Liu

Da große Sprachmodelle (LLMs) elementare Benchmarks zunehmend ausschöpfen, hat sich die Forschungsfront von der Generierung zur Zuverlässigkeit automatisierter Evaluation verschoben. Wir zeigen, dass standardisierte "LLM-as-a-Judge"-Protokolle unter einer systematischen Alignment-Lücke leiden, wenn sie auf Mathematik vom oberen Bachelor- bis zum frühen Graduiertenniveau angewendet werden. Um dies zu quantifizieren, führen wir QEDBench ein, den ersten groß angelegten Dual-Rubric-Alignment-Benchmark, der die Übereinstimmung mit menschlichen Experten bei universitären Mathematikbeweisen systematisch misst, indem kurspezifische Bewertungsraster mit expertenbasierten Allgemeinwissenskriterien kontrastiert werden. Durch den Einsatz einer Dual-Evaluations-Matrix (7 Gutachter × 5 Löser) im Vergleich zu über 1.000 Stunden menschlicher Bewertung zeigen wir, dass bestimmte fortschrittliche Evaluatoren wie Claude Opus 4.5, DeepSeek-V3, Qwen 2.5 Max und Llama 4 Maverick eine signifikante positive Verzerrung aufweisen (bis zu +0,18, +0,20, +0,30 bzw. +0,36 durchschnittliche Score-Inflation). Darüber hinaus decken wir eine kritische Reasoning-Lücke im diskreten Bereich auf: Während Gemini 3.0 Pro state-of-the-art Leistung erzielt (durchschnittlicher menschlicher Bewertungsscore von 0,91), verschlechtert sich die Leistung anderer Reasoning-Modelle wie GPT-5 Pro und Claude Sonnet 4.5 in diskreten Domänen erheblich. Konkret sinken ihre durchschnittlichen menschlichen Bewertungsscores in Diskreter Mathematik auf 0,72 bzw. 0,63 und in Graphentheorie auf 0,74 bzw. 0,50. Zusätzlich zu diesen Forschungsergebnissen veröffentlichen wir QEDBench als öffentlichen Benchmark zur Bewertung und Verbesserung von KI-Gutachtern. Unser Benchmark ist unter https://github.com/qqliu/Yale-QEDBench öffentlich zugänglich.

AgentConductor: Topologie-Evolution für Multi-Agenten-Competition-Level-Codegenerierung
AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation

Feb 19

BySiyu Wang, Ruotian Lu, Zhihao Yang, Yuchao Wang, Yanzhou Zhang, Lei Xu, Qimin Xu, Guojun Yin, Cailian Chen, Xinping Guan

Von großen Sprachmodellen (LLM) gesteuerte Multi-Agenten-Systeme (MAS) koordinieren spezialisierte Agenten über vordefinierte Interaktionstopologien und haben sich für komplexe Aufgaben wie wettbewerbsfähige Code-Generierung als vielversprechend erwiesen. Jüngste Studien zeigen, dass sorgfältig gestaltete Multi-Agenten-Workflows und Kommunikationsgraphen die Code-Generierungsleistung durch kollaborative Reasoning-Prozesse erheblich verbessern können. Bestehende Methoden passen jedoch weder die Topologiedichte an die Aufgabenschwierigkeit an, noch verfeinern sie die Topologie innerhalb einer Instanz iterativ unter Verwendung von Ausführungsfeedback, was zu redundanter Kommunikation und Leistungsengpässen führt. Um diese Probleme zu adressieren, schlagen wir AgentConductor vor: ein reinforcement-lern-optimiertes MAS mit einem LLM-basierten Orchestrator-Agenten als Kernkomponente, das eine end-to-end-feedbackgesteuerte, dynamische Generierung von Interaktionstopologien ermöglicht. Für jede Anfrage leitet AgentConductor Agentenrollen und Aufgabenschwierigkeit ab und konstruiert darauf aufbauend eine aufgabenangepasste, dichtebewusste geschichtete gerichtete azyklische Graph (DAG)-Topologie, die auf zwei Schlüsselinnovationen basiert. Erstens entwerfen wir eine neuartige topologische Dichtefunktion, die kommunikationsbewusste mathematische Charakterisierungen von Multi-Agenten-Interaktionen erfasst. Zweitens setzen wir Schwierigkeitsintervallpartitionierung ein, um übermäßiges Beschneiden für präzise Messungen der oberen Dichtegrenze pro Schwierigkeitsgrad und eine feinkörnigere Steuerung zu vermeiden. Empirisch erzielt AgentConductor auf drei wettbewerbsorientierten und zwei grundlegenden Code-Datensätzen state-of-the-art Genauigkeit und übertrifft die stärkste Baseline um bis zu 14,6 % in der Pass@1-Genauigkeit, 13 % bei der Dichtereduktion und 68 % bei der Token-Kostenreduzierung.

Transformer konvergieren zu invarianten algorithmischen Kernen
Transformers converge to invariant algorithmic cores

Feb 26

ByJoshua S. Schiffman

Große Sprachmodelle weisen ausgefeilte Fähigkeiten auf, doch das Verständnis ihrer internen Funktionsweise bleibt eine zentrale Herausforderung. Ein grundlegendes Hindernis ist, dass das Training auf Verhalten und nicht auf Schaltkreise selektiert; somit können viele Gewichtskonfigurationen dieselbe Funktion implementieren. Welche internen Strukturen spiegeln die Berechnung wider und welche sind Zufälligkeiten eines bestimmten Trainingslaufs? Diese Arbeit extrahiert algorithmische Kerne: kompakte Teilräume, die für die Aufgabenbewältigung notwendig und hinreichend sind. Unabhängig voneinander trainierte Transformer lernen unterschiedliche Gewichte, konvergieren aber zu denselben Kernen. Markov-Ketten-Transformer betten 3D-Kerne in nahezu orthogonalen Teilräumen ein, stellen jedoch identische Übergangsspektren wieder her. Modular-Arithmetik-Transformer entdecken bei "Grokking" kompakte zyklische Operatoren, die sich später ausdehnen, was ein prädiktives Modell des Übergangs von Memorisierung zu Generalisierung liefert. GPT-2-Sprachmodelle steuern die Subjekt-Verb-Kongruenz über eine einzelne Achse, deren Umkehrung die grammatikalische Numerus throughout der Generierung über alle Skalen hinweg invertiert. Diese Ergebnisse offenbaren niedrigdimensionale Invarianten, die über Trainingsläufe und Skalen hinweg bestehen bleiben, was nahelegt, dass Transformer-Berechnungen um kompakte, gemeinsame algorithmische Strukturen organisiert sind. Die mechanistische Interpretierbarkeit könnte davon profitieren, solche Invarianten – die rechnerische Essenz – anzuvisieren, anstatt implementierungsspezifische Details.

ParEVO: Synthese von Code für unregelmäßige Daten: Hochleistungs-Parallelität durch agentenbasierte Evolution
ParEVO: Synthesizing Code for Irregular Data: High-Performance Parallelism through Agentic Evolution

Mar 3

ByLiu Yang, Zeyu Nie, Andrew Liu, Felix Zou, Deniz Altinbüken, Amir Yazdanbakhsh, Quanquan C. Liu

Der Übergang von sequenzieller zu paralleler Programmierung ist für moderne Hochleistungsanwendungen unerlässlich, wird jedoch durch die steile Lernkurve der nebenläufigen Programmierung behindert. Diese Herausforderung vergrößert sich bei unregelmäßigen Datenstrukturen (wie z. B. dünn besetzte Graphen, unausgeglichene Bäume und nicht-uniforme Netze), bei denen statische Planung versagt und Datenabhängigkeiten unvorhersehbar sind. Aktuelle Large Language Models (LLMs) versagen bei diesen Aufgaben oft katastrophal und erzeugen Code, der von subtilen Wettlaufsituationen, Deadlocks und suboptimaler Skalierung geplagt ist. Wir schließen diese Lücke mit ParEVO, einem Framework zur Synthese hochperformanter paralleler Algorithmen für unregelmäßige Daten. Unsere Beiträge umfassen: (1) Das Parlay-Instruct Corpus, einen kuratierten Datensatz von 13.820 Aufgaben, die über eine "Critic-Refine"-Pipeline synthetisiert wurden und explizit empirisch leistungsstarke Algorithmen herausfiltern, die Work-Span-Parallelprimitiven effektiv nutzen; (2) spezialisierte DeepSeek-, Qwen- und Gemini-Modelle, die feinabgestimmt wurden, um die probabilistische Generierung mit der strengen Semantik der ParlayLib-Bibliothek in Einklang zu bringen; und (3) einen Evolutionary Coding Agent (ECA), der die "letzte Meile" der Korrektheit verbessert, indem er Code iterativ unter Verwendung von Feedback von Compilern, dynamischen Wettlauferkennern und Leistungsprofilern repariert. Im ParEval-Benchmark erzielt ParEVO eine durchschnittliche Beschleunigung um den Faktor 106 (mit einem Maximum von 1103x) über die gesamte Testsuite und eine robuste Beschleunigung um den Faktor 13,6 speziell bei komplexen unregelmäßigen Graphenproblemen, womit es state-of-the-art kommerzielle Modelle übertrifft. Darüber hinaus erreicht unser evolutionärer Ansatz das Niveau modernster menschlicher Experten-Baselines und erzielt bei bestimmten hochgradig unregelmäßigen Kerneln eine Beschleunigung von bis zu 4,1x. Quellcode und Datensätze sind unter https://github.com/WildAlg/ParEVO verfügbar.

LFPO: Likelihood-freie Policy-Optimierung für maskierte Diffusionsmodelle
LFPO: Likelihood-Free Policy Optimization for Masked Diffusion Models

Mar 2

ByChenxing Wei, Jiazhen Kang, Hong Wang, Jianqing Zhang, Hao Jiang, Xiaolong Xu, Ningyuan Sun, Ying He, F. Richard Yu, Yao Shu, Bo Jiang

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat bemerkenswerte Erfolge bei der Verbesserung autoregressiver Modelle erzielt, insbesondere in Domänen, die Korrektheit erfordern, wie mathematisches Reasoning und Code-Generierung. Die direkte Anwendung solcher Paradigmen auf Diffusions-Großsprachmodelle (dLLMs) wird jedoch grundlegend durch die Nicht-Berechenbarkeit der exakten Likelihood behindert, was bestehende Methoden dazu zwingt, auf hochvarianzapproximationen zurückzugreifen. Um diese Lücke zu schließen, schlagen wir Likelihood-Free Policy Optimization (LFPO) vor, einen nativen Framework, der das Konzept des Vektorfeld-Flow-Matchings auf den diskreten Token-Raum abbildet. Konkret formuliert LFPO Alignment als geometrische Geschwindigkeitskorrektur, die Denoising-Logits direkt durch kontrastive Updates optimiert. Dieser Entwurf umgeht effektiv die in der Likelihood-Approximation inhärenten Fehler und liefert eine präzise Gradientenschätzung. Darüber hinaus erzwingt LFPO Konsistenz, indem es Endlösungen aus Zwischenschritten vorhersagt, was den Wahrscheinlichkeitsfluss effektiv begradigt, um eine hochwertige Generierung mit deutlich weniger Iterationen zu ermöglichen. Umfangreiche Experimente belegen, dass LFPO nicht nur state-of-the-art Baseline-Methoden auf Code- und Reasoning-Benchmarks übertrifft, sondern auch den Inferenzvorgang durch reduzierte Diffusionsschritte um etwa 20 % beschleunigt.

DynaMoE: Dynamische Expertaktivierung auf Token-Ebene mit schichtweise adaptiver Kapazität für Mixture-of-Experts-Neuronale Netze
DynaMoE: Dynamic Token-Level Expert Activation with Layer-Wise Adaptive Capacity for Mixture-of-Experts Neural Networks

Mar 2

ByGökdeniz Gülmez

Mixture-of-Experts (MoE)-Architekturen haben sich als leistungsstarkes Paradigma zur Skalierung neuronaler Netze bei gleichzeitiger Wahrung der Recheneffizienz etabliert. Standard-MoE-Implementierungen basieren jedoch auf zwei starren Designannahmen: (1) einem festen Top-K-Routing, bei dem genau K Experten pro Token aktiviert werden, und (2) einer gleichmäßigen Expertenzuweisung über alle Schichten hinweg. Dieses Paper stellt DynaMoE vor, einen neuartigen MoE-Rahmen, der beide Einschränkungen durch dynamische, tokenweise Expertenaktivierung und schichtenweise adaptive Kapazitätszuweisung lockert. DynaMoE führt einen prinzipienbasierten Routing-Mechanismus ein, bei dem die Anzahl aktiver Experten pro Token basierend auf der Eingabekomplexität variiert. Gleichzeitig implementiert das Framework sechs verschiedene Scheduling-Strategien zur Verteilung der Expertenkapazität über die Netzwerktiefe, darunter absteigende, aufsteigende, pyramidale und wellenförmige Muster. Wir analysieren theoretisch die Expressivitätsgewinne durch dynamisches Routing und leiten Grenzen für die Recheneffizienz her. Durch umfangreiche Experimente mit MNIST, Fashion-MNIST, CIFAR-10 (Bildklassifizierung) und Recycling-the-Web (Sprachmodellierung) über mehrere Modellgrößen hinweg demonstrieren wir, dass DynaMoE im Vergleich zu statischen Baseline-Modellen eine überlegene Parametereffizienz erreicht. Unsere zentrale Erkenntnis ist, dass optimale Experten-Zeitpläne aufgaben- und größenabhängig sind: Absteigende Zeitpläne (Konzentration der Kapazität in frühen Schichten) übertreffen gleichmäßige Baseline-Modelle bei der Bildklassifizierung. Für Sprachmodellierung variieren die optimalen Zeitpläne je nach Modellgröße: absteigend für Tiny, aufsteigend für Small und gleichmäßig für Medium. Darüber hinaus reduziert das dynamische Routing die Gradientenvarianz während des Trainings, was zu einer verbesserten Konvergenzstabilität führt. DynaMoE etabliert einen neuen Rahmen für adaptive Berechnungen in neuronalen Netzen und bietet eine prinzipienbasierte Leitlinie für das Design von MoE-Architekturen.

APRES: Ein agentenbasiertes System zur Überarbeitung und Bewertung wissenschaftlicher Arbeiten
APRES: An Agentic Paper Revision and Evaluation System

Mar 3

ByBingchen Zhao, Jenny Zhang, Chenxi Whitehouse, Minqi Jiang, Michael Shvartsman, Abhishek Charnalia, Despoina Magka, Tatiana Shavrina, Derek Dunfield, Oisin Mac Aodha, Yoram Bachrach

Wissenschaftliche Entdeckungen müssen klar kommuniziert werden, um ihr volles Potenzial zu entfalten. Ohne eine effektive Kommunikation laufen selbst die bahnbrechendsten Erkenntnisse Gefahr, übersehen oder missverstanden zu werden. Der primäre Weg, auf dem Wissenschaftler ihre Arbeit kommunizieren und Feedback aus der Gemeinschaft erhalten, ist das Peer-Review-Verfahren. Das aktuelle System liefert jedoch oft inkonsistentes Feedback zwischen den Gutachtern, was letztlich die Verbesserung eines Manuskripts behindert und seine potenzielle Reichweite begrenzt. In diesem Beitrag stellen wir eine neue, auf Large Language Models (LLMs) basierende Methode namens APRES vor, um den Text eines wissenschaftlichen Artikels auf Basis eines Bewertungsrasters zu überarbeiten. Unsere automatisierte Methode ermittelt ein Raster, das die zukünftige Zitationszahl hochgradig vorhersagbar macht, und integriert es in ein automatisiertes System, das Artikel überarbeitet, um deren Qualität und Wirkung zu steigern. Entscheidend ist, dass dies erreicht werden soll, ohne den wissenschaftlichen Kerninhalt zu verändern. Wir demonstrieren den Erfolg von APRES, das die Vorhersage zukünftiger Zitationen um 19,6 % im mittleren durchschnittlichen Fehler gegenüber der nächstbesten Baseline verbessert, und zeigen, dass unser Überarbeitungsprozess Artikel hervorbringt, die von menschlichen Expertengutachtern in 79 % der Fälle den Originalen vorgezogen werden. Unsere Ergebnisse liefern eine starke empirische Untermauerung für den Einsatz von LLMs als Werkzeug, um Autoren dabei zu helfen, ihre Manuskripte vor der Einreichung einem Stresstest zu unterziehen. Letztlich zielt unsere Arbeit darauf ab, die essentielle Rolle menschlicher Gutachter zu ergänzen, nicht zu ersetzen, denn es sollten Menschen sein, die entscheiden, welche Entdeckungen wirklich von Bedeutung sind und die Wissenschaft dahin lenken, Wissen zu mehren und Leben zu bereichern.

Einfach zu Erlernen, doch schwer zu Vergessen: Auf dem Weg zu robustem Verlernen unter Verzerrung
Easy to Learn, Yet Hard to Forget: Towards Robust Unlearning Under Bias

Feb 25

ByJuneHyoung Kwon, MiHyeon Kim, Eunju Lee, Yoonji Lee, Seunghoon Lee, YoungBin Kim

Machine Unlearning, das es einem Modell ermöglicht, bestimmte Daten zu vergessen, ist entscheidend für die Gewährleistung von Datenschutz und Modellzuverlässigkeit. Seine Wirksamkeit kann jedoch in realen Szenarien erheblich beeinträchtigt werden, in denen Modelle unbeabsichtigte Verzerrungen aus scheinbaren Korrelationen in den Daten erlernen. Diese Arbeit untersucht die besonderen Herausforderungen des Verlernens aus solchen verzerrten Modellen. Wir identifizieren ein neuartiges Phänomen, das wir als „Shortcut Unlearning“ bezeichnen, bei dem Modelle eine Tendenz zeigen, die als „leicht zu erlernen, aber schwer zu vergessen“ charakterisiert werden kann. Konkret fällt es Modellen schwer, einfach zu erlernende, verzerrungsbegünstigte Stichproben zu vergessen; anstatt das Klassenattribut zu verlernen, verlernen sie das Verzerrungsattribut, was paradoxerweise die Genauigkeit für die Klasse, die vergessen werden soll, verbessern kann. Um dieses Problem zu lösen, schlagen wir CUPID vor, einen neuen Verlernens-Ansatz, der auf der Beobachtung basiert, dass Stichproben mit unterschiedlichen Verzerrungen eine unterschiedliche Schärfe der Verlustlandschaft aufweisen. Unsere Methode unterteilt zunächst die zu vergessende Menge anhand der Schärfe der Stichproben in causal- und bias-approximierte Teilmengen, entwirrt dann die Modellparameter in kausale und Verzerrungspfade und führt schließlich eine gezielte Aktualisierung durch, indem verfeinerte kausale und Verzerrungsgradienten an ihre jeweiligen Pfade weitergeleitet werden. Umfangreiche Experimente mit verzerrten Datensätzen, darunter Waterbirds, BAR und Biased NICO++, zeigen, dass unsere Methode state-of-the-art Verlernleistung erreicht und das Problem des Shortcut Unlearning effektiv mildert.

SGDC: Strukturgeführte dynamische Faltung für die medizinische Bildsegmentierung
SGDC: Structurally-Guided Dynamic Convolution for Medical Image Segmentation

Feb 26

ByBo Shi, Wei-ping Zhu, M. N. S. Swamy

Räumlich variante dynamische Faltungsoperationen bieten einen prinzipienbasierten Ansatz zur Integration räumlicher Adaptivität in tiefe neuronale Netze. In der medizinischen Segmentierung erzeugen gängige Verfahren dynamische Kernel jedoch häufig durch Average-Pooling, was hochfrequente räumliche Details implizit zu einer groben, räumlich komprimierten Darstellung reduziert und dadurch überglättete Vorhersagen verursacht, welche die Detailtreue feinstrukturierter klinischer Merkmale beeinträchtigen. Um diese Einschränkung zu überwinden, schlagen wir einen neuartigen Strukturgeführten Dynamischen Faltungsmechanismus (SGDC) vor, der einen explizit supervidierten Strukturextraktionszweig zur Steuerung der Erzeugung dynamischer Kernel und Gating-Signale für struktur-sensitive Merkmalsmodulation nutzt. Konkret werden hochpräzise Randinformationen aus diesem Hilfszweig mit semantischen Merkmalen fusioniert, um eine räumlich präzise Merkmalsmodulation zu ermöglichen. Durch den Ersatz von Kontextaggregation durch pixelweise Strukturführung verhindert der vorgeschlagene Ansatz effektiv den durch Average-Pooling verursachten Informationsverlust. Experimentelle Ergebnisse zeigen, dass SGDC auf den ISIC-2016-, PH2-, ISIC-2018- und CoNIC-Datensätzen state-of-the-art Leistung erzielt, eine überlegene Randtreue durch Reduktion der Hausdorff-Distanz (HD95) um 2.05 bietet und konsistente IoU-Steigerungen von 0.99%–1.49% gegenüber Pooling-basierten Baseline-Modellen erreicht. Darüber hinaus zeigt der Mechanismus großes Potenzial für die Übertragung auf andere struktur-sensitive Bildverarbeitungsaufgaben, wie die Detektion kleiner Objekte, und bietet somit eine prinzipienbasierte Lösung zum Erhalt struktureller Integrität in der medizinischen Bildanalyse. Zur Gewährleistung von Reproduzierbarkeit und Förderung weiterer Forschung wurde der Implementierungscode unserer SGE- und SGDC-Module unter https://github.com/solstice0621/SGDC öffentlich zugänglich gemacht.

Konditionierte Aktivierungstransport für T2I-Sicherheitssteuerung
Conditioned Activation Transport for T2I Safety Steering

Mar 3

ByMaciej Chrabąszcz, Aleksander Szymczyk, Jan Dubiński, Tomasz Trzciński, Franziska Boenisch, Adam Dziedzic

Trotz ihrer beeindruckenden Fähigkeiten neigen aktuelle Text-zu-Bild-Modelle (T2I) nach wie vor dazu, unsichere und toxische Inhalte zu generieren. Obwohl Aktivierungssteuerung eine vielversprechende Intervention zur Laufzeit bietet, stellen wir fest, dass lineare Aktivierungssteuerung die Bildqualität bei der Anwendung auf harmlose Prompts häufig beeinträchtigt. Um diesen Zielkonflikt zu adressieren, erstellen wir zunächst SafeSteerDataset, einen kontrastiven Datensatz mit 2300 Prompt-Paaren mit hoher Kosinus-Ähnlichkeit, die sichere und unsichere Inhalte gegenüberstellen. Aufbauend auf diesen Daten schlagen wir Conditioned Activation Transport (CAT) vor, ein Framework, das einen geometriebasierten Konditionierungsmechanismus und nichtlineare Transportabbildungen verwendet. Indem wir Transportabbildungen so konditionieren, dass sie nur in unsicheren Aktivierungsregionen wirksam werden, minimieren wir die Beeinträchtigung harmloser Anfragen. Wir validieren unseren Ansatz an zwei state-of-the-art Architekturen: Z-Image und Infinity. Experimente zeigen, dass CAT effektiv über diese Backbones generalisiert und die Angriffserfolgsrate signifikant reduziert, während gleichzeitig die Bildtreue im Vergleich zu ungesteuerten Generierungen erhalten bleibt. Warnung: Dieses Papier enthält möglicherweise anstößige Texte und Bilder.

GroupGPT: Ein token-effizientes und datenschutzfreundliches agentenbasiertes Framework für Multi-User-Chat-Assistenten
GroupGPT: A Token-efficient and Privacy-preserving Agentic Framework for Multi-User Chat Assistant

Mar 1

ByZhuokang Shen, Yifan Wang, Hanyu Chen, Wenxuan Huang, Shaohui Lin

Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben zunehmend leistungsfähige Chatbots ermöglicht. Die meisten bestehenden Systeme konzentrieren sich jedoch auf Einzelnutzer-Umgebungen und lassen sich nicht gut auf Multi-User-Gruppenchats verallgemeinern, in denen Agenten proaktivere und genauere Interventionen in komplexen, sich entwickelnden Kontexten benötigen. Bestehende Ansätze setzen typischerweise LLMs sowohl für das Reasoning als auch für die Generierung ein, was zu hohem Token-Verbrauch, begrenzter Skalierbarkeit und potenziellen Datenschutzrisiken führt. Um diese Herausforderungen zu bewältigen, schlagen wir GroupGPT vor, einen token-effizienten und datenschutzbewahrenden agentenbasierten Rahmen für Multi-User-Chat-Assistenten. GroupGPT adaptiert eine Kollaborationsarchitektur aus kleinen und großen Modellen, um den Interventionszeitpunkt von der Antwortgenerierung zu entkoppeln und so eine effiziente und genaue Entscheidungsfindung zu ermöglichen. Das Framework unterstützt zudem multimodale Eingaben, einschließlich Memes, Bildern, Videos und Sprachnachrichten. Wir führen außerdem MUIR ein, einen Benchmark-Datensatz für Interventions-Reasoning in Multi-User-Chat-Assistenten. MUIR enthält 2.500 annotierte Gruppenchat-Abschnitte mit Interventionslabels und Begründungen, die die Bewertung von Zeitpunktgenauigkeit und Antwortqualität unterstützen. Wir evaluieren eine Reihe von Modellen auf MUIR, von großen Sprachmodellen bis hin zu kleineren Gegenstücken. Umfangreiche Experimente zeigen, dass GroupGPT genaue und gut getaktete Antworten liefert, eine durchschnittliche Bewertung von 4,72/5,0 in der LLM-basierten Evaluation erreicht und von Nutzern in verschiedenen Gruppenchat-Szenarien gut angenommen wird. Darüber hinaus reduziert GroupGPT den Token-Verbrauch um bis zum Dreifachen im Vergleich zu Baseline-Methoden und bietet gleichzeitig eine Datenschutzbereinigung von Nutzernachrichten vor der Cloud-Übertragung. Code ist verfügbar unter: https://github.com/Eliot-Shen/GroupGPT.

Whisper-RIR-Mega: Ein gepaarter Benchmark für saubere und hallige Sprache zur Bewertung der Robustheit von ASR-Systemen gegenüber Raumakustik
Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

Feb 27

ByMandip Goswami

Wir stellen Whisper-RIR-Mega vor, einen Benchmark-Datensatz mit gepaarten Aufnahmen von sauberer und halliger Sprache zur Bewertung der Robustheit automatischer Spracherkennung (ASR) gegenüber Raumakustik. Jede Probe kombiniert eine saubere Äußerung aus LibriSpeech mit derselben Äußerung, die mit einer echten Raumimpulsantwort aus dem RIR-Mega-Korpus gefaltet wurde, und verfügt über stratifizierte Aufteilungen nach Nachhallzeit (RT60) und direktem-to-reflektiertem Schallverhältnis (DRR). Wir evaluieren fünf Whisper-Modelle (tiny bis large-v3) anhand von 1600 Testproben und berichten die Wortfehlerrate (WER) und Zeichenfehlerrate (CER) unter sauberen und halligen Bedingungen. Hall verschlechtert durchgängig die Leistung über alle Modellgrößen hinweg; der Hall-bedingte Leistungsabfall in der WER reicht von 0,12 bis 1,07 Prozentpunkten, abhängig vom Modell. Wir veröffentlichen den Datensatz, den Auswertungscode und die Baseline-Ergebnisse, um reproduzierbare Forschung zu robuster ASR zu unterstützen.

HateMirage: Ein erklärbares mehrdimensionales Datenset zur Entschlüsselung vorgetäusster Hassrede und subtilen Online-Missbrauchs
HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse

Mar 3

BySai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya, Md. Shad Akhtar

Subtile und indirekte Hassrede bleibt eine wenig erforschte Herausforderung in der Online-Sicherheitsforschung, insbesondere wenn schädliche Absichten in irreführende oder manipulative Narrative eingebettet sind. Bestehende Hassrede-Datensätze erfassen primär offene Toxizität und bilden die nuancierten Wege, auf denen Desinformation Hass schüren oder normalisieren kann, unzureichend ab. Um diese Lücke zu schließen, stellen wir HateMirage vor, einen neuartigen Datensatz von Faux-Hass-Kommentaren, der dazu dienen soll, die Forschung zu Begründbarkeit und Erklärbarkeit von Hass, der aus falschen oder verzerrten Narrativen entsteht, voranzutreiben. Der Datensatz wurde erstellt, indem weitläufig widerlegte Falschbehauptungen aus Faktenprüfungsquellen identifiziert und damit verbundene YouTube-Diskussionen nachverfolgt wurden, was zu 4.530 Nutzerkommentaren führte. Jeder Kommentar ist entlang drei interpretierbarer Dimensionen annotiert: Zielgruppe (wer betroffen ist), Absicht (die zugrundeliegende Motivation oder das Ziel des Kommentars) und Implikation (seine potenzielle gesellschaftliche Auswirkung). Im Gegensatz zu früheren Erklärbarkeits-Datensätzen wie HateXplain und HARE, die token-basierte oder eindimensionale Begründungen bieten, führt HateMirage einen mehrdimensionalen Erklärungsrahmen ein, der das Zusammenspiel von Desinformation, Schaden und gesellschaftlicher Konsequenz erfasst. Wir evaluieren mehrere Open-Source-Sprachmodelle auf HateMirage mittels ROUGE-L F1 und Sentence-BERT-Ähnlichkeit, um die Kohärenz der Erklärungen zu bewerten. Die Ergebnisse deuten darauf hin, dass die Erklärungsqualität möglicherweise stärker von der Vielfalt des Vortrainings und reasoning-orientierten Daten abhängt als allein von der Modellgröße. Indem HateMirage Desinformations-Begründung mit Schadensattribution verbindet, setzt es einen neuen Maßstab für interpretierbare Hasserkennung und verantwortungsvolle KI-Forschung.

Wörter & Gewichte: Straffung von Mehrschritt-Interaktionen durch Ko-Adaptation
Words & Weights: Streamlining Multi-Turn Interactions via Co-Adaptation

Mar 2

ByChenxing Wei, Hong Wang, Ying He, Zhongxiang Dai, Bo Jiang, F. Richard Yu, Yao Shu

Test-time Policy Adaptation for Multi-Turn Interactions (T2PAM) ist entscheidend, um Large Language Models (LLMs) mit dynamischen Benutzerbedürfnissen während der Inferenzzeit in Einklang zu bringen. Bisherige Paradigmen behandeln Testzeit-Anpassung jedoch häufig als ein Problem mit nur einer Optimierungsachse, indem sie entweder ausschließlich Instruktionen verfeinern (Prompt Engineering) oder nur Gewichte anpassen (Test-Time Training). Dabei wird ignoriert, dass Interaktionsfehler aus einer kombinierten Mischung von Mehrdeutigkeit und Unfähigkeit resultieren. Wir vertreten die Auffassung, dass diese beiden Optimierungspfade nicht nur additiv, sondern synergetisch sind: Semantische Klarheit wirkt als Vorkonditionierer für effektive Parameteraktualisierungen. Zu diesem Zweck schlagen wir ROSA2 vor, ein Framework, das Interaktion als ein gemeinsames Optimierungsproblem im heterogenen Raum von Wörtern und Gewichten neu formuliert. Durch mathematische Zerlegung des Fehlersignals nutzt ROSA2 textuelle Gradienten, um Intentionsmehrdeutigkeit zu korrigieren, und Parameteraktualisierungen, um Fähigkeitslücken zu schließen. Theoretisch beweisen wir, dass diese Ko-Adaptation den für die Konvergenz erforderlichen Parameterwechsel strikt reduziert. Empirisch übertrifft ROSA2 state-of-the-art Baseline-Methoden auf MATH um 30 %, bei gleichzeitiger Reduzierung der Interaktionsschritte um 40 %. Dies demonstriert, dass die Verfeinerung des Kontextes das wahre Potenzial von Parameteraktualisierungen freisetzt.

Token-Reduktion durch Optimierung lokaler und globaler Kontexte für effiziente Video-Großsprachmodelle
Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

Mar 2

ByJinlong Li, Liyuan Jiang, Haonan Zhang, Nicu Sebe

Video Large Language Models (VLLMs) zeigen ein starkes Videoverständnis, leiden jedoch unter Ineffizienz aufgrund redundanter visueller Tokens. Bisherige Reduktionsverfahren zielen primär auf intra-frame räumliche Redundanz ab oder reduzieren innerhalb des LLMs mit flachen Schichtüberlagerungen, was zu suboptimaler raumzeitlicher Reduktion und unzureichender Nutzung der Langzeitkontext-Komprimierbarkeit führt. Alle diese Verfahren verwerfen oft subtile, aber informative Kontexte aus zusammengeführten oder entfernten Tokens. In diesem Beitrag schlagen wir eine neue Perspektive vor, die Token-Anker innerhalb und zwischen Frames elaboriert, um informative Kontexte umfassend über lokales-globales Optimal Transport (AOT) zu aggregieren. Konkret etablieren wir zunächst lokale und globale Token-Anker innerhalb jedes Frames unter Aufmerksamkeitssteuerung, die dann durch optimalen Transport informative Kontexte aus entfernten Tokens aggregieren und intra-frame Token-Anker konstruieren. Darauf aufbauend werden innerhalb zeitlicher Frame-Clips die ersten Frames jedes Clips als Keyframe-Anker betrachtet, um ähnliche Informationen aus aufeinanderfolgenden Frames durch optimalen Transport zu bündeln, während distinkte Tokens zur Darstellung zeitlicher Dynamik erhalten bleiben. Dies führt zu effizienter Token-Reduktion ohne Trainingsaufwand. Umfangreiche Auswertungen zeigen, dass unser vorgeschlagenes AOT wettbewerbsfähige Leistungen über verschiedene Kurz- und Langvideo-Benchmarks auf führenden Video-LLMs erzielt und dabei erhebliche Recheneffizienz bei Bewahrung zeitlicher und visueller Treue erreicht. Projektwebseite: https://tyroneli.github.io/AOT{AOT}.

Schnelle Matrixmultiplikation in kleinen Formaten: Entdeckung neuer Verfahren mit einem Open-Source-Flip-Graph-Framework
Fast Matrix Multiplication in Small Formats: Discovering New Schemes with an Open-Source Flip Graph Framework

Mar 2

ByA. I. Perminov

Es wird ein quelloffenes C++-Framework zur Entdeckung schneller Matrixmultiplikationsschemata mittels des Flip-Graphen-Ansatzes vorgestellt. Das Framework unterstützt mehrere Koeffizientenringe – binär (Z₂), modular ternär (Z₃) und ganzzahlig ternär (Z_T = {-1,0,1}) – und implementiert sowohl suchoperatoren für feste Dimensionen als auch metadimensionale Suchoperatoren. Durch effiziente Bit-Ebene-Kodierung von Koeffizientenvektoren und OpenMP-Parallelisierung ermöglichen die Werkzeuge eine großflächige Exploration auf handelsüblicher Hardware. Die Studie umfasst 680 Schemata von (2×2×2) bis (16×16×16), wovon 276 Schemata nun in Z_T-Koeffizienten und 117 in ganzzahligen Koeffizienten vorliegen. Mit diesem Framework wird die multiplikative Komplexität (Rang) für 79 Matrixmultiplikationsschemata verbessert. Bemerkenswerterweise wird ein neues 4×4×10-Schema entdeckt, das nur 115 Multiplikationen erfordert, ω ≈ 2,80478 erreicht und damit den Strassen-Exponenten für diese spezifische Größe übertrifft. Zusätzlich werden 93 Schemata in ternären Koeffizienten wiederentdeckt, die zuvor nur über den rationalen oder ganzen Zahlen bekannt waren, sowie 68 Schemata in ganzzahligen Koeffizienten, die zuvor Brüche erforderten. Alle Werkzeuge und entdeckten Schemata sind öffentlich verfügbar, um reproduzierbare Forschung zu ermöglichen.

Mehrdomänige Riemannsche Graphverklebung zur Entwicklung von Graph-Foundation-Modellen
Multi-Domain Riemannian Graph Gluing for Building Graph Foundation Models

Feb 28

ByLi Sun, Zhenhao Huang, Silei Chen, Lanxu Yang, Junda Ye, Sen Su, Philip S. Yu

Multi-Domain-Graph-Pre-Training integriert Wissen aus verschiedenen Domänen, um die Leistung in den Zielbereichen zu verbessern, was für die Entwicklung von Graph-Foundation-Modellen entscheidend ist. Trotz erster Erfolge können bestehende Lösungen oft eine grundlegende Frage nicht beantworten: Wie wird Wissen über Domänen hinweg integriert oder transferiert? Diese theoretische Einschränkung veranlasst uns, die Konsistenz und Transferierbarkeit zwischen Modell-Pre-Training und Domänenanpassung neu zu überdenken. In diesem Artikel schlagen wir eine neue Riemann’sche Geometrie-Perspektive vor, deren Kernidee darin besteht, jeden Graph-Datensatz in eine vereinheitlichte, glatte Riemann’sche Mannigfaltigkeit zu überführen, um ein systematisches Verständnis der Wissensintegration und -übertragung zu ermöglichen. Unser zentraler Beitrag ist die theoretische Etablierung von Neural Manifold Gluing, das zunächst die lokale Geometrie mittels eines adaptiven orthogonalen Rahmens charakterisiert und dann die lokalen Teile zu einem kohärenten Ganzen „zusammenklebt“. Auf dieser Theorie aufbauend präsentieren wir das GraphGlue-Framework, das gebündeltes Pre-Training mit EMA-Prototyping unterstützt und ein Transferierbarkeitsmaß auf Basis geometrischer Konsistenz bereitstellt. Umfangreiche Experimente demonstrieren seine überlegene Leistung über verschiedene Graph-Domänen hinweg. Darüber hinaus validierten wir empirisch das geometrische Skalierungsgesetz von GraphGlue, das zeigt, dass größere Datensatzmengen die Transferierbarkeit des Modells durch die Erzeugung einer glatteren Mannigfaltigkeit verbessern. Codes sind verfügbar unter https://github.com/RiemannGraph/GraphGlue.

Transform-invariante generative Strahlwegabtastung für effiziente Funkausbreitungsmodellierung
Transform-Invariant Generative Ray Path Sampling for Efficient Radio Propagation Modeling

Mar 2

ByJérome Eertmans, Enrico M. Vitucci, Vittorio Degli-Esposti, Nicola Di Cicco, Laurent Jacques, Claude Oestges

Raytracing hat sich als Standard für die genaue Modellierung der Funkausbreitung etabliert, leidet jedoch unter einer exponentiellen Rechenkomplexität, da die Anzahl der Kandidatenpfade mit der Anzahl der Objekte potenziert mit der Wechselwirkungsordnung skaliert. Dieser Engpass schränkt seine Verwendung in großflächigen oder Echtzeitanwendungen ein und zwingt traditionelle Werkzeuge, auf Heuristiken zurückzugreifen, um die Anzahl der Pfadkandidaten auf Kosten einer potenziell geringeren Genauigkeit zu reduzieren. Um diese Einschränkung zu überwinden, schlagen wir einen umfassenden, maschinelles Lernen nutzenden Rahmen vor, der die exhaustive Pfadsuche durch intelligentes Sampling mittels Generative Flow Networks ersetzt. Die Anwendung solcher generativer Modelle in diesem Bereich stellt erhebliche Herausforderungen dar, insbesondere sporadische Belohnungen aufgrund der Seltenheit gültiger Pfade, was zu Konvergenzversagen und trivialen Lösungen bei der Bewertung von Wechselwirkungen höherer Ordnung in komplexen Umgebungen führen kann. Um robustes Lernen und effiziente Exploration zu gewährleisten, integriert unser Rahmen drei zentrale architektonische Komponenten. Erstens implementieren wir einen Experience-Replay-Puffer, um seltene gültige Pfade zu erfassen und zu speichern. Zweitens setzen wir eine uniforme Explorationspolitik ein, um die Generalisierung zu verbessern und zu verhindern, dass das Modell sich an einfache Geometrien überanpasst. Drittens wenden wir eine physikbasierte Aktionsmaskierungsstrategie an, die physikalisch unmögliche Pfade herausfiltert, bevor das Modell sie überhaupt in Betracht zieht. Wie unsere experimentelle Validierung zeigt, erreicht das vorgeschlagene Modell erhebliche Beschleunigungen gegenüber der exhaustiven Suche – bis zu 10-mal schneller auf der GPU und 1000-mal schneller auf der CPU – bei gleichzeitig hoher Abdeckungsgenauigkeit und der erfolgreichen Aufdeckung komplexer Ausbreitungspfade. Der vollständige Quellcode, Tests und ein Tutorial sind unter https://github.com/jeertmans/sampling-paths verfügbar.